OpenDataLab
OpenDataLab(상하이 인공지능 실험실)은 중국 상하이에 기반한 AI 연구 기관으로, 대규모 멀티모달 모델과 문서 이해 분야에서 선도적 역할을 하고 있습니다. Conghui He 등의 주도로 MinerU 시리즈(v1, v2, v2.5)를 개발해 문서 파싱 커뮤니티에서 사실상 표준 벤치마크·베이스라인이 되었습니다.
OpenDataLab의 특징은 학술-산업 교량 역할입니다. 공개된 OmniDocBench, Ocean-OCR 같은 평가 벤치마크와 고품질 데이터셋을 통해 문서 이해 연구의 재현성과 비교 가능성을 확보했습니다. MinerU2.5는 이러한 기관의 철학을 구체화한 사례로, 1.2B 경량 모델이 72B 범용 모델(Qwen2.5-VL-72B, Gemini-2.5 Pro)을 초월하는 성능을 달성함으로써 전문 도메인 데이터와 아키텍처 설계의 가치를 입증했습니다.
금융보고서, 법률 계약서, 의료 기록 등 실제 산업 응용에서 OpenDataLab의 모델들은 정부·기업 파일럿 단계에 진입했으며, 오픈소스 공개를 통해 학계와 스타트업의 접근성도 낮추고 있습니다. 특히 중국어 문서 파싱에서 다국어 능력(MinerU2.5는 영·중 혼합 평가에서 강점)을 갖춘 모델을 제공함으로써 아시아 지역 문서 AI의 개발 표준을 제시하고 있습니다.