치우쯔한

개요

치우쯔한(邱子涵, Zihan Qiu)은 알리바바(Alibaba Group) Qwen Team 소속 연구원입니다. LLM 어텐션 메커니즘 연구를 주 전공으로 하며, 혼합 전문가 모델(MoE) 아키텍처 최적화에도 기여하고 있습니다.

2025년 NeurIPS에서 Best Paper Award(전체 5,290편 제출 중 4편 수상)를 받은 Gated Attention 논문의 공동 1저자로 이름을 올렸습니다. 소프트맥스 어텐션 출력 직후에 헤드별 시그모이드 게이트를 추가하는 단순한 수정이 15B MoE 모델과 1.7B 밀집 모델 모두에서 일관된 성능 향상을 가져온다는 것을 체계적인 실험으로 증명한 연구입니다.

Qwen3-Next 모델에 Gated DeltaNet과 Gated Attention 조합으로 연구 결과가 직접 반영되어, 산업적 파급력도 갖춘 연구자로 평가받고 있습니다. Alibaba가 NeurIPS Best Paper Award를 받은 것 자체가 중국 산업 연구소의 기초 아키텍처 연구 수준을 보여주는 사례로 주목받았습니다.

생애

치우쯔한은 칭화대학교 첨단정보연구원(IIIS, Institute for Interdisciplinary Information Sciences)에서 2020년부터 2024년까지 학부 과정을 마쳤습니다. IIIS는 튜링상 수상자 姚期智(Andrew Chi-Chih Yao)가 설립한 연구 중심 학부 프로그램으로, 이론 컴퓨터과학과 AI 연구를 결합하는 교육으로 알려져 있습니다.

학부 재학 중인 2022년 5월부터 알리바바 Qwen Team 인턴으로 연구를 시작했으며, 2024년 학부 졸업 후 정식 연구원으로 합류했습니다. Qwen Team 내에서는 어텐션 구조 연구와 함께 MoE 로드 밸런싱 손실 함수 연구에도 참여하며 LLM 아키텍처 전반을 다루고 있습니다.

학부생 신분으로 NeurIPS Best Paper 수준의 연구에 기여했다는 점에서, IIIS의 이론 중심 교육과 Qwen Team의 대규모 실험 인프라가 결합된 결과로 평가됩니다. 린준양, 류다이헝와 함께 Qwen Team의 아키텍처 연구 방향을 이끌고 있으며, 향후 LLM 기반 구조 개선 연구에서 더 넓은 역할을 맡을 연구자로 주목받고 있습니다.

업적

치우쯔한의 대표 성과는 Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free(arXiv:2505.06708)입니다. 이 논문은 소프트맥스 어텐션 출력 직후에 헤드별 시그모이드 게이트를 추가하는 단순한 수정이 15B MoE와 1.7B 밀집 모델 모두에서 일관된 성능 향상을 가져온다는 것을 30개 이상의 변형 실험으로 체계적으로 증명했습니다. 어텐션 싱크(attention sink) 현상을 억제하고 소프트맥스 비선형성과 희소성을 동시에 개선한다는 점이 핵심 기여입니다.

이 연구는 NeurIPS 2025 Best Paper Award(Oral)를 수상했습니다. Zekun Wang, Bo Zheng과 함께 공동 1저자로 이름을 올렸고, 에딘버러 대학교, 스탠퍼드 대학교, MIT, 칭화대학교 소속 연구자들도 공저자로 참여했습니다. 3.5조 토큰 데이터셋으로 훈련한 1.7B 밀집 모델 30개 변형과 15B MoE 모델을 동시에 평가한 규모도 이 연구를 돋보이게 하는 요소입니다.

또한 "Demons in the Detail: On Implementing Load Balancing Loss for Specialized Mixture-of-Experts Models"(arXiv:2501.11873)에 공동 저자로 참여했습니다. MoE 모델의 전문가 간 로드 밸런싱 손실 함수 설계에서 구현 세부 사항이 성능에 미치는 영향을 분석한 연구로, Gated Attention 연구와 함께 Qwen 아키텍처 개선에 직접 활용되었습니다. 두 연구 모두 대형 모델의 아키텍처 수준 개선에 초점을 맞춘다는 점에서 일관된 연구 방향을 보여줍니다.

여담

치우쯔한은 학부 졸업 직전인 2022년부터 Qwen Team에서 인턴을 시작했습니다. 학부생 신분으로 NeurIPS Best Paper 수준의 연구에 기여했다는 점에서 이례적인 이력을 보여줍니다. IIIS의 교육 방식이 이론적 깊이와 실증 연구를 함께 강조한다는 점이 이런 조기 연구 성과의 배경으로 자주 거론됩니다.

Gated Attention이 Qwen3-Next에 바로 반영된 것은 Qwen Team 내에서 아키텍처 연구와 모델 개발이 얼마나 긴밀하게 연결되어 있는지를 보여줍니다. 논문 발표와 실제 모델 적용 사이의 간격이 매우 짧다는 점은 산업 연구소의 특성을 잘 반영합니다.

GitHub에 공식 구현 코드(qiuzh20/gated_attention)가 공개되어 있으며, 커뮤니티 내 재현 및 확장 연구가 이어지고 있습니다. 어텐션 메커니즘의 기본 구조를 단순한 수정으로 개선한다는 아이디어는 이후 다양한 모델 아키텍처에서 변형 및 적용이 시도되고 있습니다.

주요 논문

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free (arXiv:2505.06708, NeurIPS 2025 Best Paper)
Demons in the Detail: On Implementing Load Balancing Loss for Specialized Mixture-of-Experts Models (arXiv:2501.11873, 2025)