2025. 12. 이달의 인물 - Liwei Jiang, Junyang Lin

🏷️ 잡담

12월은 NeurIPS의 달입니다. 2025년 샌디에고에서 열린 NeurIPS 2025는 총 5,290편의 채택 논문 중 단 일곱 편에만 Best Paper Award를 수여했습니다. 그 일곱 편 가운데 두 편이 이달의 인물로 선정한 연구자들의 작업입니다. 한 편은 LLM이 다양성을 잃고 하나의 목소리로 수렴한다는 안전성 경고를 담았고, 다른 한 편은 어텐션 메커니즘의 가장 단순한 수정이 대규모 실험에서 일관되게 성능을 끌어올린다는 것을 보였습니다.

장리웨이

장리웨이은 워싱턴 대학교 Paul G. Allen School의 최종 학년 박사과정 연구자로, 최예진의 지도 아래 AI 안전성과 가치 정렬을 연구합니다. 박사 기간 중 NVIDIA와 Allen Institute for AI(Ai2)에서 방문 연구원을 지냈으며, NAACL 2022, EMNLP 2023, CHI 2024에서 Best Paper 또는 Outstanding Paper를 받은 바 있습니다.

Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)

이 논문이 제기하는 질문은 단순합니다. 서로 다른 회사가 서로 다른 데이터로 훈련한 모델들이 같은 질문에 얼마나 다른 답을 내놓는가? 저자들은 이를 검증하기 위해 INFINITY-CHAT이라는 데이터셋을 직접 구축했습니다. 실제 사용자들이 일상에서 LLM에 던진 개방형 질문 26,000개를 수집해, 70개 이상의 최신 모델에 동일하게 입력했습니다.

결과는 충격적이었습니다. 모델들은 서로 다른 아키텍처와 훈련 방식에도 불구하고 놀랄 만큼 유사한 출력을 생성했습니다. 같은 모델이 동일한 질문에 반복적으로 거의 동일한 답을 내놓는 인트라 모델 붕괴(intra-model collapse)와, 모델 패밀리를 넘어 서로 다른 모델들이 수렴하는 인터 모델 붕괴(inter-model collapse)가 동시에 관찰됐습니다. 저자들은 이 현상을 "Artificial Hivemind", 즉 인공 군집 정신이라고 이름 붙였습니다.

이 발견이 가장 강하게 반박하는 것은 앙상블이나 온도 조절을 통해 다양성을 확보할 수 있다는 통념입니다. 실험에서 앙상블을 구성해도, 온도를 높여도 다양성은 기대만큼 늘어나지 않았습니다. 모델들이 이미 수렴된 분포를 공유하고 있기 때문입니다. 논문은 RLHF나 안전성 학습이 이 동질화를 가속했을 가능성을 지적하면서, LLM 생태계 전체를 단일 관점의 위험에 노출시키는 구조적 문제로 프레이밍합니다.

선정 이유

장리웨이의 연구 경력에는 일관된 방향이 있습니다. Delphi(2021)에서 도덕적 판단을 예측하는 AI를 만들었고, 이후에는 그 판단이 과연 다양한 인간의 가치를 반영하는지 묻기 시작했습니다. Artificial Hivemind는 그 질문의 자연스러운 귀결입니다. 성능이 아니라 다양성을 기준으로 LLM 생태계를 평가한 이 논문은, 박사과정 연구자가 주도한 작업으로 NeurIPS 2025 Datasets and Benchmarks Track 최우수 논문으로 선정됐습니다. 12월 샌디에고 현장에서 장리웨이이 직접 구두 발표(상위 0.35%)를 진행했습니다.

린준양

린준양은 베이징 대학교에서 컴퓨터 과학과 언어학을 공부한 뒤 2019년 Alibaba에 입사했습니다. Alibaba Cloud 역사상 가장 젊은 P10급 기술 전문가 중 한 명으로 꼽히며, 2023년부터 Qwen 팀의 공식 테크 리드로 활동했습니다. 초대형 혼합 전문가 모델 M6, 멀티모달 통합 아키텍처 OFA(ICML 2022), Chinese-CLIP 등 Alibaba의 핵심 AI 기반 모델들을 주도했습니다.

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

트랜스포머의 소프트맥스 어텐션은 2017년 등장 이후 거의 손대지 않은 핵심 구성 요소입니다. 이 논문은 그 어텐션 뒤에 아주 단순한 요소 하나를 추가하는 것이 일관되게 모델 성능을 끌어올린다고 주장합니다. Scaled Dot-Product Attention 연산 직후, 헤드별로 독립적인 시그모이드 게이트를 곱하는 것입니다. 게이트 파라미터 수는 전체 모델 대비 1% 남짓에 불과합니다.

이 단순한 수정의 효과를 검증하기 위해 저자들은 30개 이상의 변형 실험을 3.5조 토큰 규모의 데이터셋으로 수행했습니다. 1.7B 밀집 모델과 15B 혼합 전문가(MoE) 모델을 각각 실험 대상으로 삼았습니다. 결과는 일관됐습니다. Gated Attention을 적용한 모델은 퍼플렉시티(perplexity)가 0.2 감소하고 MMLU 점수가 2점 상승했습니다. 파라미터 1% 증가로 얻은 성능 향상치고는 상당한 수준입니다.

Gated Attention이 주목받는 또 다른 이유는 어텐션 싱크(attention sink) 현상을 제거한다는 점입니다. 표준 소프트맥스 어텐션에서는 첫 번째 토큰이 과도하게 높은 어텐션 가중치를 받는 현상이 빈번하게 관찰됩니다. 게이트 구조는 이 집중을 희석시켜 헤드들이 더 유의미한 위치에 집중하도록 유도합니다. 이 발견은 곧 실제 모델에 반영됐습니다. Qwen3-Next는 Gated DeltaNet과 Gated Attention의 조합을 기본 아키텍처로 채택했습니다.

선정 이유

린준양이 Alibaba에서 쌓아온 작업들은 규모와 통합이라는 두 축을 공통으로 갖고 있습니다. M6는 규모를 밀어붙였고, OFA는 멀티모달 통합을 실험했으며, Qwen은 그 두 방향을 오픈 생태계 안에서 조합했습니다. Gated Attention 논문은 그 흐름 위에서 나온 것으로, 아키텍처 수준의 정밀한 개입이 어떤 결과를 낼 수 있는지를 엄밀하게 보였습니다. NeurIPS 2025 Best Paper이자 Oral 발표(상위 1.5%)로 선정된 이 논문은 오랜 미해결 과제였던 어텐션 싱크 문제에도 실용적인 해법을 제시했습니다. 2026년 3월 Alibaba를 떠났지만, 이 논문이 12월에 남긴 자취는 이미 Qwen 모델 코드 안에 새겨져 있습니다.

두 연구자는 서로 다른 방향에서 같은 질문에 닿아 있습니다. 장리웨이은 모델이 진정으로 다양한 사고를 할 수 있는지를 묻고, 린준양은 그 모델의 내부 메커니즘을 어떻게 더 효율적으로 만들 수 있는지를 따집니다. 2025년 12월 NeurIPS 샌디에고에서 두 연구 모두 같은 상의 무대에 올랐습니다.