MinerU2.5 - Document Parsing Vision-Language Model

🏷️ 논문 Headliner 멀티모달 문서파싱

J. Niu, Z. Liu, Z. Gu, B. Wang, L. Ouyang, et al., "MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing," arXiv:2509.22186, 2025.

PDF 문서 파싱은 단순히 OCR 문제가 아닙니다. 수십 개의 컬럼, 회전된 표, 혼합언어 수식, 스캔 아티팩트가 뒤섞인 수천 페이지의 금융보고서에서 한 문장도 빠뜨리지 않고 구조를 복원해야 합니다. 기존 엔드-투-엔드 모델은 고해상도 입력의 토큰 폭증으로 비효율적이고, 파이프라인 방식은 초기 실수가 전파됩니다. MinerU2.5는 1.2B 파라미터로 SOTA 성능을 달성하는데, 그 비결은 글로벌 구조 분석과 로컬 콘텐츠 인식을 분리한 2단계 분리 아키텍처입니다.

저자

니우준보는 OpenDataLab (상하이 인공지능 실험실)의 1저자로, 문서 이해와 고효율 VLM을 중점으로 연구하고 있습니다. 허충후이는 시니어 저자이자 프로젝트 리더로 OpenDataLab의 이사이며, 비전-언어 모델의 실제 응용을 위한 체계적 데이터 엔지니어링의 개척자입니다. 팀은 이전 MinerU 버전부터 시스템적 문서 파싱 프레임워크를 구축해온 집단이며, 이번 v2.5에서는 데이터 엔진 구축과 2단계 분리 전략에 집중해 성능과 효율의 균형을 이뤘습니다.

배경

멀티모달 VLM 시대에 문서 파싱은 역설적 위치에 있습니다. Gemini-2.5 Pro나 GPT-4o, Qwen2.5-VL-72B 같은 범용 모델도 쓸 수 있지만, 일반화를 위해 수백억 파라미터를 들인 모델로 문서-특화 작업을 처리하는 것은 비경제적입니다. 문서 파싱의 어려움은 세 가지입니다.

1. 고해상도 입력의 토큰 폭증: 1355 페이지 OmniDocBench에서 평균 1,100 토큰/페이지. 엔드-투-엔드 처리 시 \(O(N^2)\) 자기주의 복잡도로 인한 계산 폭발.

2. 레이아웃의 복잡성: 다중컬럼, 교차 페이지 표, 회전 텍스트, 헤더·푸터. 기존 파이프라인(레이아웃 감지 → 텍스트 인식 → 읽기 순서)은 단계별 오차 누적.

3. 도메인 특화 정확도의 천장: 금융·법률·의료 문서에서 표 셀 1개 누락, 수식 1개 오인식은 재무제표 해석 오류, 약물 용량 오독으로 이어집니다. 일반 모델은 이 경계에 민감하지 않습니다.

MinerU2.5는 이 문제를 분리로 풉니다. 구조 파악은 다운샘플 섬네일에서 빠르게, 콘텐츠 인식은 잘린 로컬 영역에서 정확하게.

아키텍처

MinerU2.5는 세 부분으로 구성됩니다.

언어 모델: Qwen2-Instruct (0.5B). 문서 파싱은 대규모 언어 모델에 의존하지 않으므로 경량 모델로도 충분합니다. 단, 이미지 내 텍스트 인식을 위해 ID-RoPE를 M-RoPE로 교체해 크롭된 이미지의 다양한 종횡비를 처리. 이는 Qwen2.5-VL-72B 같은 72B 범용 모델과의 효율 차이를 극대화합니다.

시각 인코더: NaViT (초기값 Qwen2-VL). 고정 크기 대신 동적 이미지 해상도와 2D-RoPE를 사용해 자의적 종횡비(예: \(2048 \times 28 \times 28\))의 매우 좁은 이미지를 인코딩 가능. 이는 문서 한 줄을 고해상도로 크롭했을 때 핵심.

패치 병합: 인접 \(2 \times 2\) 비전 토큰에 픽셀-언셔플을 적용해 집계된 비전 토큰을 언어 모델로 전달하기 전 사전처리. 효율성-성능 균형.

2단계 파싱 전략

Stage I: 레이아웃 분석 — 입력을 \(1036 \times 1036\) 섬네일로 uniform resize. "이 페이지에서 제목은 어디? 표는?" 을 고속 추론. 토큰 수를 \(4 \sim 2048\)로 제어해 초기 구조 감지.

Stage II: 콘텐츠 인식 — Stage I에서 감지된 각 요소(텍스트 블록, 표, 수식, 그림)를 원본 고해상도 이미지에서 크롭 후 세밀하게 파싱. 크롭 상한 \(2048 \times 28 \times 28\) 픽셀로, 중복 계산 방지.

이 분리 전략의 이득: 오류 초기화(Stage I이 틀려도 Stage II에서 수정 가능), 계산 분배(Stage I 저해상도 ∴ 저비용), 적응 처리(문서 타입별 동적 조정).

훈련

3단계 훈련 파이프라인.

Stage 0: 모달리티 정렬 — VQA(시각질의응답) 데이터로 비전-언어 정렬. MLP 어댑터만 학습.

Stage 1: 문서 파싱 사전훈련 — 레이아웃·텍스트·수식·표 인식 능력 습득. 전체 파라미터 학습. 데이터: 레이아웃 분석 2.3M, 텍스트 2.4M, 수식 1.1M, 표 1.1M 샘플.

Stage 2: 문서 파싱 미세튜닝 — 어려운 케이스 집중. 자체 개발 IMC(반복 채광을 통한 추론 일관성) 전략으로 자동 생성된 하드케이스와 인간 검토 샘플을 혼합해 \(O(\text{N})\) 복잡도는 피하면서 고품질 데이터 확보.

데이터 엔진

MinerU2.5의 강력함은 아키텍처보다 데이터 엔진에 있습니다.

데이터 큐레이션 — 웹 + 상용 문서 풀에서 레이아웃·문서유형·언어 다양성으로 필터링. 중국어-영어 균형 유지.

사전훈련 데이터 정제 — Qwen2.5-VL-72B로 자동 생성 후, Gemini-2.5 Pro의 고정확 보정 모델로 재검토. 수식은 UniMERNet 재훈련 모델로 고충실도 교체.

미세튜닝 데이터 구성 — IMC 전략: 같은 이미지 여러 번 추론 후 일관성 낮은 샘플을 수동 주석으로 표시하는 하드마이닝. 최종 SFT 데이터 = 고품질 핸드케이스 + 정상 샘플 랜덤 섞임. Stage 2에서 \(43K\) (레이아웃) + \(300K\) (텍스트) + \(147K\) (수식) + \(140K\) (표) = \(630K\) 샘플.

결과

벤치마크	메트릭	MinerU2.5	MonkeyOCR-Pro-3B	범용 VLM (Qwen2.5-VL-72B)
OmniDocBench	전체 점수	90.67	88.85	87.02
Ocean-OCR (영문)	F1-score	0.945	-	0.886
olm-OCR (아랍어·수학)	전체 점수	75.2	-	72.2
Table Recognition (TEDS)	TEDS	88.22	-	87.45
Formula (UniMER-Test)	CDM	96.4	-	89.2
속도 (A100)	토큰/초	1875.82	520.16	-
	페이지/초	2.12	0.47	-

MinerU2.5는 전문 모델(MonkeyOCR, dots.ocr)을 일관되게 추월하고, Gemini-2.5 Pro, GPT-4o 같은 범용 모델보다 정확하면서 1B대 파라미터로 4배 빠릅니다. 중국어 텍스트 인식도 범용 모델(Qwen2.5-VL-72B)과 동등(\(F_1 = 0.966\)) 수준입니다.

회고

저자들은 몇 가지 미처리 한계를 명시합니다.

데이터 불균형: 공개 문서 풀에서 장문 표(수백 행)가 부족하면 Stage II에서 긴 시퀀스 의존성에 약할 수 있음. Stage 2 미세튜닝으로 어느 정도 보정했으나, 극단 케이스는 여전히 취약.

크로스페이지 문서: 표나 텍스트가 여러 페이지에 걸친 경우 Stage I에서 각 페이지를 독립 처리하므로 컨텍스트 손실. RAG 시스템 상단에서 사후 처리 필요.

주석 품질의 천장: IMC 채광 후에도 인간 주석의 의견 차이(표 셀 경계 모호, 제목/본문 경계 자의성)가 학습 신호 노이즈. 다중 검수자 합의로 완화했으나 완벽하지 않음.

정리

분리 아키텍처의 가치: 고해상도 VLM은 모든 단계를 함께 학습할 필요가 없습니다. 구조는 빠르게, 콘텐츠는 정확하게.
데이터 엔지니어링의 우위: 1B 모델이 72B 범용 모델을 이기는 이유는 도메인 특화 데이터와 IMC 같은 체계적 하드마이닝.
레거시 파이프라인의 부활: 레이아웃-콘텐츠 분리는 90년대 고전 OCR 시스템의 아이디어지만, VLM으로 구현하면 오류 전파 없이 정확도 향상.