Songlin Yang

🏷️ LLM 트랜스포머

Songlin Yang은 MIT CSAIL 소속 연구원으로, 선형 어텐션, 상태 공간 모델, 시퀀스 모델 아키텍처를 전문으로 한다. 개인 홈페이지(sustcsonglin.github.io)에서 연구 활동을 공개하고 있다.

대표 연구는 2024년 12월 발표한 "Gated Delta Networks: Improving Mamba2 with Delta Rule"(arXiv:2412.06464)으로, NVIDIA의 Jan Kautz, Ali Hatamizadeh와 공동으로 집필해 ICLR 2025에 채택됐다. 이 논문은 Mamba2(S4 계열 선형 어텐션)에 게이팅과 Delta Rule을 결합해 메모리 소거와 정밀 업데이트를 동시에 가능하게 한 설계로, Olmo Hybrid, Qwen3.5, Qwen3-Next 등에 채택됐다.

2025년에는 Alibaba Qwen Team과 협업해 Gated Attention for Large Language Models - Non-linearity, Sparsity, and Attention-Sink-Free(arXiv:2505.06708)의 공저자로 참여했다. Gated DeltaNet(Mamba 계열) 경험이 소프트맥스 어텐션에 게이팅을 적용하는 이 연구에 자연스럽게 연결된 합류다. 해당 논문은 NeurIPS 2025 Best Paper Award를 수상했다.

Junyang Lin이 이끄는 Qwen Team과 MIT-Alibaba 교차 협업 관계를 유지하며 아키텍처 연구를 이어가고 있다.