Word2Vec
Word2Vec
Word2Vec은 구글이 2013년 발표한 단어 임베딩 알고리즘으로, 단어의 주변 문맥을 예측하거나 문맥에서 단어를 예측하는 방식으로 단어를 밀집 벡터로 표현하는 정적 임베딩 방법이다.
핵심
- Skip-gram: 중심 단어로 주변 단어를 예측한다
- CBOW: 주변 단어들로 중심 단어를 예측한다
- 의미적으로 유사한 단어들이 벡터 공간에서 가깝게 위치한다
- "왕 - 남자 + 여자 = 여왕" 같은 벡터 산술 연산이 가능하다
- 문맥과 무관하게 단어마다 고정된 벡터를 가지는 정적 임베딩이 한계이며, BERT 같은 문맥 임베딩으로 발전했다