반응형 Natural Language Processing1 [인공지능/AI] 자연어 처리(Natural Language Processing, NLP)란? : Bag of words, TF-IDF, Word2Vec, fastText [NLP] Word Embedding : Bag of words / TFIDF / Word2Vec / fastText 1. Bag of words Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법이다. 단어들을 가방 안에 모두 넣은 다음, 각 단어에 unique index를 부여한다. 그 후 문서에서 해당 단어가 등장하는 횟수를 기록하는 벡터를 만든다. 즉, 단어 사전을 미리 구축(tokenize : 띄어쓰기 or 형태소로 구분)하여 문장 속 단어 빈도를 표시하는 것이다. 이때 주의할 점은, 단어의 빈도만 고려할 뿐이지 순서까지는 생각하지 않는다는 것이다. 문서의 모든 단어를 벡터화해야하기 때문에 문자로 단.. 2021. 9. 27. 이전 1 다음 반응형