비전-언어 모델
비전-언어 모델
비전-언어 모델(Vision-Language Model, VLM)은 이미지 토큰과 텍스트 토큰을 함께 처리하여 이미지에 대한 자연어 질의응답, 이미지 캡셔닝, 시각적 추론 등을 수행하는 멀티모달 모델이다.
핵심
- 연결 방식(LLaVA): 이미지 → ViT → 선형 투영 → 텍스트 토큰과 연결 → LLM에 입력
- 교차 어텐션 방식(Llama 3): 이미지 토큰을 교차 어텐션 층에서 텍스트와 상호작용
- 연결 방식이 더 보편적이며 구현이 단순하다
- CLIP 등 텍스트-이미지 정렬 사전 훈련이 VLM의 기반이 된다
- GPT-4V, Claude, Gemini 등 상업용 LLM에 기본 탑재된 기능이다