임베딩

임베딩(embedding)은 텍스트, 이미지, 오디오 같은 입력을 의미가 보존된 고차원 실수 벡터로 변환한 표현을 가리킵니다. 사람이 "왕"으로 읽는 단어를 컴퓨터는 [0.2, 0.8, -0.5, ...] 같은 수백~수천 차원의 숫자 배열로 처리합니다. 의미가 비슷한 입력일수록 벡터 공간에서 가까운 위치에 매핑되어, 코사인 유사도 등으로 의미적 거리를 측정할 수 있습니다.

이 숫자 배열이 단순 인코딩이 아니라 의미를 담는다는 점이 핵심입니다. 임베딩 공간에서 벡터 연산이 의미론적으로 작동해 왕 - 남자 + 여자 = 여왕 같은 계산이 가능합니다. 임베딩은 잠재 공간을 구성하는 기반이기도 합니다.

언어 모델 영역에서는 Word2Vec 같은 단어 단위 임베딩에서 시작해, 문장·문단 전체를 한 벡터로 표현하는 sentence embedding으로 발전했습니다. OpenAI의 text-embedding-3, Cohere Embed, Google text-embedding-005 등이 대표적인 상용 임베딩 모델입니다.

임베딩은 검색·추천·클러스터링·이상 탐지 등 거의 모든 의미 기반 시스템의 토대입니다. 특히 RAG에서는 문서를 청크 단위로 임베딩해 벡터 DB에 저장하고, 질의 임베딩과의 유사도로 관련 문서를 찾는 것이 표준 파이프라인이 되었습니다.