니우준보

🏷️ 인물 문서파싱 머신러닝

개요

니우준보(牛骏博, Junbo Niu)는 상하이 인공지능 실험실 산하 OpenDataLab의 연구원으로, 문서 이해와 고효율 비전-언어 모델(VLM) 분야를 집중 연구하고 있습니다. MinerU 시리즈 문서 파싱 프로젝트의 핵심 1저자로, 고해상도 문서를 효율적으로 처리하는 아키텍처 설계를 주도하였습니다.

2025년 9월 공개된 MinerU2.5는 1.2B 파라미터 규모의 분리형 비전-언어 모델로, 범용 72B 모델을 초월하는 문서 파싱 성능을 달성하였습니다. 2026년에는 MinerU2.5-Pro가 추가 공개되어 OmniDocBench v1.6 기준 점수가 92.98에서 95.69로 향상되었습니다. MinerU 오픈소스 프로젝트는 문서 파싱 커뮤니티의 사실상 표준(de facto standard)으로 자리잡고 있습니다.

연구 전반을 관통하는 핵심 방향은 소형 모델로 대형 모델을 이기는 효율적 설계입니다. IMC(Iterative Mining via Inference Consistency) 전략을 통해 자동으로 하드케이스를 발굴하고 데이터 품질을 끌어올리는 방식이 이 방향의 대표적 구현입니다.

생애

니우준보는 상하이 인공지능 실험실(SHAI, Shanghai AI Lab)의 오픈 데이터 플랫폼 부문인 OpenDataLab에 소속되어 있습니다. 상하이 AI Lab은 2020년 설립된 중국 비영리 AI 연구기관으로, 오픈소스 모델과 데이터셋 공개에 적극적입니다. OpenDataLab은 이 기관 내에서 데이터셋 구축과 오픈 소스 파싱 도구 개발을 담당하는 부문입니다.

MinerU 프로젝트는 초기 버전부터 오픈소스로 공개되어 연구 커뮤니티의 피드백을 받으며 발전해 왔습니다. 니우준보는 MinerU2.5 개발 단계에서 분리형 아키텍처 설계와 2단계 파싱 전략을 주도하였습니다. 이 과정에서 다양한 문서 유형의 데이터셋 구축과 모델 학습 파이프라인 설계를 직접 담당하였습니다.

현재 파싱 지원 형식은 PDF, 이미지, DOCX, PPTX, XLSX로 확장되었으며, 금융보고서 자동화, 법률 문서 구조화, RAG 파이프라인 구축 등 산업 응용 분야에서 검증이 이루어지고 있습니다. GitHub의 opendatalab/MinerU 저장소는 오픈소스 문서 파싱 도구 중 높은 스타 수를 기록하고 있습니다.

업적

니우준보의 핵심 기여는 MinerU2.5의 분리형(decoupled) 비전-언어 모델 아키텍처 설계에 있습니다. 기존 문서 파싱 모델들이 하나의 모델로 모든 처리를 담당하는 방식을 택한 것과 달리, MinerU2.5는 전역 레이아웃 분석과 세부 콘텐츠 인식을 두 단계로 분리하였습니다. 다운샘플링된 이미지로 빠르게 레이아웃을 파악한 뒤, 원본 해상도 크롭으로 텍스트·수식·표를 정밀하게 인식하는 방식으로 정확도와 효율 모두를 확보하였습니다.

IMC(Iterative Mining via Inference Consistency) 전략은 자동으로 하드케이스를 발굴하는 데이터 파이프라인입니다. 모델 추론 시 일관성이 낮게 나타나는 샘플을 어려운 케이스로 식별하고, 이를 반복적으로 학습 데이터에 추가함으로써 별도의 인간 어노테이션 없이도 데이터 품질을 높이는 방식입니다. 이 전략 덕분에 1.2B 파라미터 소형 모델이 72B 범용 모델을 초과하는 성능을 달성할 수 있었습니다.

MinerU2.5-Pro(2026)에서는 데이터 규모 확장, 분포 다양화, 어노테이션 품질 체계화 세 가지를 집중적으로 개선하였습니다. 그 결과 OmniDocBench v1.6 기준 점수가 92.98에서 95.69로 향상되었으며, Ocean-OCR 벤치마크에서도 최상위 성능을 기록하였습니다.

여담

MinerU 프로젝트명은 광업(mining)에서 유래하였습니다. 비정형 문서에서 구조화된 정보를 캐낸다는 의미를 담고 있으며, 이 이름 그대로 프로젝트는 PDF와 이미지 속에 묻혀 있는 정보를 LLM이 활용할 수 있는 형태로 꺼내는 작업에 집중하고 있습니다.

"1.2B 모델이 72B 모델을 이긴다"는 결과는 도메인 특화 모델의 가능성을 보여주는 사례로 자주 인용됩니다. 범용 대형 모델이 문서 파싱 같은 구조화된 태스크에서 반드시 최선이 아닐 수 있다는 점을 실증적으로 보여주었으며, 이는 효율성을 중시하는 산업 현장에서 중요한 시사점입니다.

OpenDataLab이 오픈소스로 MinerU를 공개하는 것은 데이터 생태계 구축 전략의 일환입니다. 도구를 공개해 커뮤니티를 형성하고, 이를 통해 다양한 문서 도메인의 데이터와 피드백을 확보하는 선순환 구조를 지향하고 있습니다.

주요 논문