양송린
개요
Songlin Yang(양송린)은 언어 모델 아키텍처, 특히 선형 어텐션과 상태 공간 모델(SSM)을 전문으로 하는 연구자입니다. MIT CSAIL에서 박사 과정을 마치고 2025년 말 학위를 취득했으며, 이후 Thinking Machines Lab의 Member of Technical Staff로 합류했습니다. Gated Linear Attention, DeltaNet, Gated Delta Networks 등 선형 복잡도 시퀀스 모델의 표현력을 높이는 연구를 잇달아 발표했고, 이 중 일부는 실제 대형 모델 학습에 채택됐습니다.
Gated Delta Networks는 NVIDIA와의 공동 연구 결과물로 ICLR 2025에 채택됐고, 알리바바 Qwen Team과의 협업 논문은 NeurIPS 2025 Best Paper Award를 수상했습니다. 아카데미아와 산업 연구소를 가로지르는 공동 연구 성과들이 경력의 특징입니다.
생애
양송린의 세부 출신 정보는 공개되어 있지 않습니다. MIT에서 Yoon Kim 교수 지도 하에 박사 과정을 밟았으며, 2025년 12월 11일 "Efficient and Expressive Architectures for Language Modeling"이라는 제목으로 논문 심사(thesis defense)를 마쳤습니다. 박사 학위 취득 이후 Thinking Machines Lab에 합류했습니다.
재학 기간 동안 MIT-NVIDIA 협력 채널을 통해 Jan Kautz, Ali Hatamizadeh(NVIDIA) 등과 공동 연구를 진행했고, 알리바바 Qwen Team의 린준양 연구팀과도 교차 협업 관계를 형성했습니다. 개인 홈페이지(sustcsonglin.github.io)에서 연구 결과물과 DeltaNet 관련 튜토리얼 블로그를 공개하고 있습니다.
업적
양송린의 핵심 공헌은 선형 어텐션 계열 모델의 표현력을 소프트맥스 어텐션 수준으로 끌어올리는 설계를 제시한 것입니다. Gated Linear Attention(GLA)은 선형 어텐션에 학습 가능한 게이트를 도입해 적응형 컨텍스트 혼합을 가능하게 했고, DeltaNet은 델타 규칙 기반 업데이트를 통해 인컨텍스트 연관 회상 능력을 크게 높였습니다.
2024년 12월 발표한 Gated Delta Networks(arXiv:2412.06464)는 Mamba2에 게이팅과 Delta Rule을 결합해 메모리 소거와 정밀 업데이트를 동시에 가능하게 한 설계입니다. ICLR 2025 채택 이후 OLMo Hybrid, Qwen3 시리즈 등 실제 오픈소스 모델의 아키텍처에 채택됐습니다. 2025년에는 알리바바 Qwen Team과 함께 소프트맥스 어텐션에 게이팅을 적용한 연구(arXiv:2505.06708)를 공동 발표해 NeurIPS 2025 Best Paper Award를 수상했습니다.
2026년에는 Log-Linear Attention(arXiv:2506.04761, ICLR 2026)을 Han Guo, Tri Dao, Yoon Kim 등과 공동 발표했습니다. 히든 스테이트 크기를 시퀀스 길이에 따라 로그적으로 증가시키는 설계로, 선형 어텐션과 소프트맥스 어텐션 사이의 절충점을 새롭게 제시했습니다.
여담
양송린의 박사 논문 제목인 "Efficient and Expressive Architectures for Language Modeling"은 그의 연구 철학을 압축합니다. 선형 복잡도의 효율성을 지키면서 어텐션 특유의 표현력을 포기하지 않는 설계를 찾는 것이 일관된 관심사입니다. GLA, DeltaNet, Gated Delta Networks, PaTH Attention, Log-Linear Attention으로 이어지는 작업들은 각각 이 균형점을 다른 방향에서 접근한 시도입니다.
DeltaNet에 대한 설명 블로그를 직접 작성해 공개한 것도 눈에 띕니다. 복잡한 시퀀스 모델 수학을 커뮤니티가 이해하기 쉽게 풀어 쓰는 작업을 병행하는 연구자 유형입니다. Thinking Machines Lab 합류 이후에도 산업 규모 언어 모델 아키텍처 작업을 이어갈 것으로 보입니다.
주요 논문
- "Gated Delta Networks: Improving Mamba2 with Delta Rule" (ICLR 2025, arXiv:2412.06464, 제1저자)
- Gated Attention for Large Language Models - Non-linearity, Sparsity, and Attention-Sink-Free (NeurIPS 2025 Best Paper, arXiv:2505.06708, 공저자)
- "Gated Linear Attention Transformers with Hardware-Efficient Training" (ICML 2024)
- "Parallelizing Linear Transformers with the Delta Rule over Sequence Length" (NeurIPS 2024)
- "Log-Linear Attention" (ICLR 2026, arXiv:2506.04761, 공저자)
- "Scaling Linear Attention with Sparse State Expansion" (arXiv:2507.16577)
- "Design Principles for Sequence Models via Coefficient Dynamics" (arXiv:2510.09389)