비전-언어 모델

🏷️ 정보 LLM

비전-언어 모델

비전-언어 모델(Vision-Language Model, VLM)은 이미지 토큰과 텍스트 토큰을 함께 처리하여 이미지에 대한 자연어 질의응답, 이미지 캡셔닝, 시각적 추론 등을 수행하는 멀티모달 모델이다.

핵심