Qwen2.5-VL-72B

🏷️ 모델 멀티모달 LLM 오픈소스

Qwen2.5-VL-72B는 Alibaba의 Qwen2.5 시리즈 중 72B 파라미터의 멀티모달 비전-언어 모델입니다. 텍스트와 이미지를 동시에 처리할 수 있으며, 고해상도 이미지 입력과 복잡한 시각 추론을 지원합니다.

Qwen2.5-VL-72B의 특징: - 대규모 파라미터: 72B 모델로 높은 성능·복잡도 트레이드오프 - 고해상도 이미지: 네이티브 해상도 입력 처리 능력 - 멀티모달 이해: 텍스트·이미지 통합 질문응답 - 다국어 지원: 중국어·영어 등 다언어 처리 - 오픈소스: Hugging Face 공개, 상용 사용 가능

문서 파싱·OCR 벤치마크(OmniDocBench, Ocean-OCR)에서 Qwen2.5-VL-72B는 범용 VLM의 기준선(baseline)으로 자주 인용됩니다. MinerU2.5는 이 72B 범용 모델을 1.2B 전문 모델로 초월하는 성능을 보여주며, 이는 도메인 특화 데이터 엔지니어링과 분리 아키텍처의 가치를 입증합니다. MinerU2.5의 데이터 정제 단계에서 자동 주석 생성을 위해서도 활용됩니다.