임베딩

🏷️ LLM 머신러닝 NLP

임베딩(embedding)은 텍스트, 이미지, 오디오 같은 입력을 의미가 보존된 고차원 실수 벡터로 변환한 표현을 가리킨다. 의미가 비슷한 입력일수록 벡터 공간에서 가까운 위치에 매핑되어, 코사인 유사도 등으로 의미적 거리를 측정할 수 있다.

언어 모델 영역에서는 Word2Vec 같은 단어 단위 임베딩에서 시작해, 문장·문단 전체를 한 벡터로 표현하는 sentence embedding으로 발전했다. OpenAI의 text-embedding-3, Cohere Embed, Google text-embedding-005 등이 대표적인 상용 임베딩 모델이다.

임베딩은 검색·추천·클러스터링·이상 탐지 등 거의 모든 의미 기반 시스템의 토대다. 특히 RAG에서는 문서를 청크 단위로 임베딩해 벡터 DB에 저장하고, 질의 임베딩과의 유사도로 관련 문서를 찾는 것이 표준 파이프라인이 되었다.