임베딩
임베딩(embedding)은 텍스트, 이미지, 오디오 같은 입력을 의미가 보존된 고차원 실수 벡터로 변환한 표현을 가리킨다. 의미가 비슷한 입력일수록 벡터 공간에서 가까운 위치에 매핑되어, 코사인 유사도 등으로 의미적 거리를 측정할 수 있다.
언어 모델 영역에서는 Word2Vec 같은 단어 단위 임베딩에서 시작해, 문장·문단 전체를 한 벡터로 표현하는 sentence embedding으로 발전했다. OpenAI의 text-embedding-3, Cohere Embed, Google text-embedding-005 등이 대표적인 상용 임베딩 모델이다.
임베딩은 검색·추천·클러스터링·이상 탐지 등 거의 모든 의미 기반 시스템의 토대다. 특히 RAG에서는 문서를 청크 단위로 임베딩해 벡터 DB에 저장하고, 질의 임베딩과의 유사도로 관련 문서를 찾는 것이 표준 파이프라인이 되었다.