허충후이

🏷️ 인물 문서파싱 데이터엔지니어링 분야창시자 Star

개요

허충후이(何聪辉, Conghui He)는 상하이 인공지능 실험실(Shanghai AI Laboratory)의 OpenDataLab 팀 창립자이자 책임자입니다. 비정형 문서를 대규모 언어 모델이 학습할 수 있는 고품질 데이터로 변환하는 문서 파싱 분야의 선도 연구자로, MinerU 오픈소스 프로젝트를 통해 전 세계 AI 연구 생태계에 기여하고 있습니다.

200편 이상의 논문을 상위 학회와 저널에 발표했으며, Google Scholar 피인용 수는 9,000회를 넘습니다. MinerU 오픈소스 프로젝트는 출시 1년 만에 GitHub 스타 5만 개를 달성했고, API 호출 10억 회를 넘어섰으며, Google, Huawei, Alibaba 등 100개 이상의 기업이 프로덕션 환경에서 활용하고 있습니다.

2025년에는 상하이시 과학기술청이 선정하는 35세 이하 청년 과학자 35인 프로그램(Youth 35 Leading Program)에 선발되었습니다. Gordon Bell Prize, ACL Best Theme Paper Award, WAIC 윈판 어워드 등 주요 수상 경력도 보유합니다.

생애

허충후이는 중국에서 출생하여 컴퓨터 과학을 전공했습니다. 학위 취득 후 상하이 인공지능 실험실에 합류하여 OpenDataLab 팀을 창설하고 책임자로 활동하고 있습니다. 학술 연구와 대규모 오픈소스 인프라 구축을 병행하는 방식으로 업계와 학계 양쪽에서 입지를 쌓았습니다.

OpenDataLab 설립 이후 그는 InternLMInternVL 시리즈의 데이터 파이프라인을 총괄했습니다. 100PB 규모의 원시 데이터를 70조 개의 고품질 토큰으로 가공하는 과정을 지휘했으며, 이 데이터 인프라는 상하이 인공지능 실험실의 LLM 및 비전-언어 모델 연구 전체를 뒷받침합니다. OpenDataLab 플랫폼은 현재 30만 명 이상의 개발자 커뮤니티, 7,000개 이상의 데이터셋, 4천만 회 이상의 검색 기록을 보유하고 있습니다.

2025년 7월에는 WAIC 2025 "Corpus Innovation Forum"에서 "MinerU2: Intelligent Engine from Heterogeneous Data to AI-Ready"를 주제로 기조 강연을 했습니다. 현재도 박사과정 학생, 포닥, 인턴, 정규직 연구원을 적극적으로 모집하며 연구 그룹을 확장하고 있습니다.

업적

허충후이의 핵심 기여는 MinerU 오픈소스 문서 파싱 엔진 개발입니다. MinerU는 PDF, 이미지, 스캔 문서 등 다양한 형식의 비정형 데이터를 구조화된 마크다운으로 변환하는 도구로, 대규모 언어 모델 학습 데이터 구축에 필수적인 전처리 단계를 자동화합니다.

2025년 9월에는 MinerU 2.5를 공개했습니다. 파라미터 12억 개짜리 문서 파싱 특화 비전-언어 모델로, 레이아웃 인식과 OCR 기능을 통합한 분리 아키텍처를 채택하여 OmniDocBench 등 주요 벤치마크에서 최고 성능을 기록했습니다. 2026년 4월에는 MinerU 2.5 Pro를 추가로 공개하여 OmniDocBench v1.6에서 새로운 최고 성능을 달성했습니다.

데이터 큐레이션 방법론 측면에서도 주목할 만한 기여를 했습니다. Gemini-2.5 Pro 같은 고성능 모델을 활용한 자동 생성 데이터의 고충실도 보정 방법론과, IMC(Iterative Mining via Inference Consistency) 전략을 통해 인간 주석 비용을 대폭 줄이는 기법을 개발했습니다. 금융, 법률, 의료 등 전문 문서 자동화 수요가 높은 분야에서 MinerU는 사실상의 표준 베이스라인으로 자리잡고 있습니다.

여담

허충후이는 학계와 오픈소스 커뮤니티 양쪽을 동시에 겨냥하는 연구 전략으로 주목을 받습니다. MinerU는 코드와 데이터셋, 평가 프레임워크를 모두 공개하여 재현 가능한 연구 생태계를 구축했으며, 이 전략이 단기간에 대규모 커뮤니티를 형성하는 데 결정적으로 기여했습니다.

MinerU의 GitHub 스타 5만 개 돌파와 API 호출 10억 회 달성은 오픈소스 AI 도구 중에서도 이례적인 성장 속도입니다. 허충후이 스스로도 이 수치를 커뮤니티의 신뢰 지표로 자주 언급합니다. 특히 중국 AI 생태계를 넘어 글로벌 기업들이 프로덕션 환경에 채택한 점이 OpenDataLab의 국제적 위상을 높였습니다.

2025년 35세 이하 청년 과학자 선발은 그의 연구 성과가 중국 과학기술계에서도 공식적으로 인정받은 사례입니다. OpenDataLab은 민간 기업과 정부 연구기관 협력 모델을 결합하는 방식으로 지속적인 자원을 확보하고 있습니다.

주요 논문