티스토리 뷰

 


항목 세부 내용 비고
1 텍스트 전처리
토큰화 : 문장을 단어나 형태소와 같은 작은 단위(토큰)로 분리
불용어 제거 : “/“, “/”, “the/a“ 등 제거
정규화/표제어(“달린다”, “달리고à달리다) 추출
품사 태깅 : 명사, 동사, 형용사 등 품사 식별
2 특징 추출 및
임베딩
단어를 컴퓨터가 계산할 수 있는 벡터(Numerical vector)로 변환
의미적, 문맥적 유사성을 고려하여 벡터 공간 반영
Word2Vec, GolVe, FastText
3 모델링 및 학습
전처리되고 임베딩된 데이터를 기반으로,
특정 NLP 과제를 수행할 수 있는 머신러닝 또는 딥러닝 모델을 학습
초기에는 규칙 기반 시스템 또는 통계적 모델(HMM, CRF ) 주로 사용
최근에는 심층신경망(DNN) 특히, 순환신경망(RNN), 장단기 기억(LSTM),
트랜스포머(Transformer)가 주류를 이룸.
트랜스포머: LLM 발전의 기폭제

 

반응형