류다이헝
개요
Dayiheng Liu(刘大一恒)는 Alibaba DAMO(달마원)의 Algorithm Expert로, Qwen 팀의 핵심 기여자 중 한 명입니다. 개인 홈페이지(liudayiheng.github.io)를 통해 연구 활동을 공개하고 있으며, ACL, ICML, NeurIPS, EMNLP, AAAI 등 주요 학회에 50편 이상의 논문을 발표했습니다. Qwen, PolyLM, ProphetNet, GLGE 등 GitHub에서 5,000개 이상의 스타를 받은 오픈소스 프로젝트에 핵심 기여자로 이름을 올리고 있습니다.
Qwen 팀 내에서는 사전학습(pre-training) 파트를 총괄하며, 2026년 3월부터는 포스트트레이닝과 코딩 팀도 겸임하게 되었습니다. 린준양이 Qwen 테크 리드직에서 물러난 이후 팀의 기술 연속성을 책임지는 인물 중 하나입니다. 치우쯔한, 린준양과 함께 Qwen Team 아키텍처 연구의 방향을 공동 책임지는 역할을 맡고 있습니다.
생애
학력에 관한 공개 정보는 제한적이지만, Alibaba DAMO Academy 입사 이전에 NLP와 시퀀스 생성 분야에서 연구 경력을 쌓은 것으로 알려져 있습니다. DAMO에 합류한 뒤 초대형 언어 모델 사전학습, 언어 생성 벤치마크, 다국어 모델 등 다양한 연구 라인을 이끌어 왔습니다. 2023년 이후에는 Qwen 시리즈 모델의 사전학습 책임자로서 역할이 집중되었으며, Qwen2.5, Qwen3 등 주요 릴리스 전반에 이름을 올렸습니다.
2025년 5월에는 Gated Attention 논문(arXiv:2505.06708)의 공동 교신저자로 참여하며 아키텍처 연구 쪽으로도 영역을 넓혔습니다. 이 논문은 NeurIPS 2025 Best Paper Award를 수상했고, 연구 결과는 Qwen3-Next 모델의 기본 어텐션 구조로 채택됐습니다. 2026년 3월 린준양이 Alibaba를 떠나면서 팀 내 역할이 더욱 확대됐습니다.
업적
ProphetNet(EMNLP 2020)은 그의 대표적인 초기 성과입니다. 자기회귀 생성 모델에 n-gram 예측을 통합한 시퀀스-to-시퀀스 구조로, 문서 요약과 질문 생성 벤치마크에서 당시 최고 성능을 기록했습니다. GLGE(ACL 2021)는 언어 생성 모델을 종합 평가하는 벤치마크로, 요약, 질문 생성, 스토리 생성 등 8개 태스크를 통합한 것이 특징입니다.
PolyLM은 다국어 사전학습 언어 모델로, 영어 중심 LLM의 한계를 넘어 아시아권 언어 처리를 강화한 오픈소스 모델입니다. 이후 Qwen 시리즈 사전학습 전반을 책임지면서 Qwen2.5-1M(컨텍스트 길이 100만 토큰), Qwen3 시리즈 기술 리포트에 공동 저자로 참여했습니다.
아키텍처 연구 쪽에서는 Gated Attention 논문이 결정적 기여입니다. 소프트맥스 어텐션 뒤에 헤드별 시그모이드 게이트를 추가하는 단순한 수정이 30개 이상의 변형 실험에서 일관된 성능 향상을 가져온다는 사실을 3.5조 토큰 규모 실험으로 증명했습니다.
여담
Dayiheng Liu는 연구 공개에 꾸준히 적극적인 편입니다. 개인 홈페이지와 GitHub(dayihengliu)를 통해 논문과 코드를 직접 관리합니다. Qwen 팀이 글로벌 오픈소스 커뮤니티에서 급성장하는 과정에서 화려한 대외 활동보다는 실제 모델 품질을 만드는 사전학습 측면에서 묵묵히 존재감을 유지해 온 인물로 평가됩니다.
2025년 NeurIPS Best Paper 수상은 아키텍처 연구로의 자연스러운 확장을 상징하는 이벤트였습니다. 사전학습 전문가가 어텐션 메커니즘 자체를 재설계하는 방향으로 연구 범위를 넓힌 사례이기 때문입니다. 이 발견이 Qwen3-Next에 실제 반영된 것은 연구와 제품 사이의 간극이 Qwen 팀 내에서 매우 짧음을 보여 줍니다.
주요 논문
- ProphetNet: Predicting Future N-gram for Sequence-to-Sequence Pre-training (EMNLP 2020)
- GLGE: A New General Language Generation Evaluation Benchmark (ACL 2021)
- PolyLM: An Open Source Polyglot Large Language Model (arXiv 2022)
- Qwen Technical Report (arXiv 2023)
- Qwen2.5 Technical Report (arXiv 2025)
- Qwen2.5-1M Technical Report (arXiv 2025)
- Gated Attention for Large Language Models - Non-linearity, Sparsity, and Attention-Sink-Free (NeurIPS 2025 Best Paper, arXiv:2505.06708)
- Qwen3 Technical Report (arXiv 2025)
- Qwen3-VL Technical Report (arXiv 2025)
- Qwen3-Omni Technical Report (arXiv 2025)