Zihan Qiu

🏷️ LLM 트랜스포머

Zihan Qiu는 Alibaba Group Qwen Team 소속 연구원이자 칭화대학교 IIIS(첨단정보연구원) 소속 연구자다.

2025년 5월 공개한 Gated Attention for Large Language Models - Non-linearity, Sparsity, and Attention-Sink-Free(arXiv:2505.06708)의 공동 1저자다. 소프트맥스 어텐션 출력 직후에 헤드별 시그모이드 게이트를 추가하는 단순한 수정이 15B MoE와 1.7B 밀집 모델 모두에서 일관된 성능 향상을 가져온다는 것을 30개 이상의 변형 실험으로 체계적으로 증명했다. 이 논문은 NeurIPS 2025 Best Paper Award(전체 5,290편 중 4편)를 수상했고, Zekun Wang, Bo Zheng과 함께 공동 1저자로 이름을 올렸다.

Qwen Team 내부에서는 혼합 전문가 모델의 로드 밸런싱 손실 함수 연구("Demons in the Detail: On Implementing Load Balancing Loss for Specialized Mixture-of-Experts Models", arXiv:2501.11873)에도 참여했다. Gated Attention의 연구 결과는 Qwen3-Next 모델에 Gated DeltaNet과 Gated Attention 조합으로 직접 반영됐다.

Junyang Lin, Dayiheng Liu와 함께 Qwen Team의 아키텍처 연구 방향을 이끌고 있다.