본문 바로가기
반응형

자연어2

[인공지능/AI] 자연어 처리(Natural Language Processing, NLP) (1) : 기본 개념 및 파이토치(PyTorch) 소개 [인공지능/AI] 자연어 처리(Natural Language Processing, NLP)란? : Bag of words, TF-IDF, Word2Vec, fastText [NLP] Word Embedding : Bag of words / TFIDF / Word2Vec / fastText 1. Bag of words Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화.. newstellar.tistory.com 자연어 처리/NLP 소개 1. 원-핫(One-hot) 표현 및 문서빈도-역문서빈도(Term Frequency - Inverse Document Frequency, TF-IDF) 표현 Term Frequency(T.. 2021. 10. 4.
[인공지능/AI] 자연어 처리(Natural Language Processing, NLP)란? : Bag of words, TF-IDF, Word2Vec, fastText [NLP] Word Embedding : Bag of words / TFIDF / Word2Vec / fastText 1. Bag of words Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법이다. 단어들을 가방 안에 모두 넣은 다음, 각 단어에 unique index를 부여한다. 그 후 문서에서 해당 단어가 등장하는 횟수를 기록하는 벡터를 만든다. 즉, 단어 사전을 미리 구축(tokenize : 띄어쓰기 or 형태소로 구분)하여 문장 속 단어 빈도를 표시하는 것이다. 이때 주의할 점은, 단어의 빈도만 고려할 뿐이지 순서까지는 생각하지 않는다는 것이다. 문서의 모든 단어를 벡터화해야하기 때문에 문자로 단.. 2021. 9. 27.
반응형