GPT-4o

🏷️ 모델 멀티모달 LLM

GPT-4o는 OpenAI의 멀티모달 생성형 사전학습 변환기 모델입니다. "o"는 "omni"를 뜻하며, 텍스트·이미지·음성을 통합적으로 처리할 수 있는 범용 모델입니다.

GPT-4o는 이전 GPT-4 Turbo의 후속으로, 다음 특징을 갖습니다: - 멀티모달 이해: 텍스트 입력·이미지·음성 모두 처리 가능 - 저지연 응답: API를 통한 실시간 상호작용 지원 - 비용 효율성: GPT-4 Turbo 대비 저렴한 API 가격대 - 강화된 추론: 복잡한 논리·코드 생성 개선

문서 파싱·OCR·시각 질의응답 벤치마크에서 GPT-4o는 MinerU2.5, Gemini-2.5 Pro 같은 도메인 특화 모델과 자주 비교되는 범용 기준선(baseline)입니다. 특히 영문 OCR과 표 인식에서 높은 성능을 보이지만, 전문 모델 대비 파라미터 효율은 낮습니다.