Conghui He

🏷️ 인물 문서파싱 데이터엔지니어링

Conghui He는 상하이 인공지능 실험실(OpenDataLab)의 이사이자 MinerU2.5 프로젝트의 시니어 저자 겸 프로젝트 리더입니다. 비전-언어 모델의 실제 응용을 위한 체계적 데이터 엔지니어링의 개척자로, 학계-산업 간 대규모 문서 파싱 파이프라인 구축을 주도하고 있습니다.

He의 핵심 기여는 데이터 엔진 설계입니다. MinerU2.5의 성공은 분리 아키텍처만큼 정교한 데이터 큐레이션·정제·채광에 있으며, He는 다음을 주관했습니다: (1) 다국어 문서 풀에서 레이아웃·언어 균형을 맞춘 데이터 선별, (2) Gemini-2.5 Pro와 전문 검수 모델을 활용한 자동 생성 데이터의 고충실도 보정, (3) IMC (Iterative Mining via Inference Consistency) 전략으로 인간 주석 비용을 \(O(N)\)에서 선택적으로 축소.

OpenDataLab 설립 이래 He는 문서 이해의 공개 연구를 민간-정부 협력 모델로 추진하고 있으며, MinerU 시리즈는 학술지·산업 벤치마크에서 사실상 표준 베이스라인이 되었습니다. 금융·법률·의료 부문의 문서 자동화 수요에 응하는 동시에, 원본 데이터셋과 평가 프레임워크를 공개해 재현성 있는 연구 생태계를 형성하고 있습니다.