2026. 01. 이달의 인물 - Yifan Zhang, Quanquan Gu

🏷️ 잡담

2026년이 열리자마자 딥러닝 이론 쪽에서 주목할 만한 논문이 나왔습니다. ResNet이 등장한 지 거의 10년이 됐는데도, 그 핵심 구조인 identity shortcut connection을 수학적으로 정면에서 다시 들여다본 작업이었습니다. 프린스턴과 UCLA의 연구팀이 공동으로 내놓은 "Deep Delta Learning"은 단순한 변형이 아니라, shortcut 연결의 표현 한계를 기하학적 선형대수로 풀어낸 시도였습니다.

Yifan Zhang

Yifan Zhang은 프린스턴 대학교 컴퓨터과학 박사과정 학생이자 Princeton AI Lab Fellow로, Mengdi Wang, Andy Yao, Quanquan Gu 교수와 함께 LLM 추론, 어텐션 메커니즘, 강화학습 기반 파운데이션 모델 연구를 이어오고 있습니다. NeurIPS 2025에서 Spotlight(상위 3%)를 받은 "Tensor Product Attention Is All You Need" 논문의 제1저자이며, 2026년에는 CVPR 2026에도 Meta, 프린스턴, UMD와의 공동 연구 3편이 동시에 채택되는 성과를 냈습니다.

Deep Delta Learning

ResNet의 업데이트 규칙은 \(X_{l+1} = X_l + F(X_l)\) 입니다. 잘 들여다보면 이 수식은 근본적으로 "덧셈"밖에 할 줄 모릅니다. 기울기 소실 문제를 해결한 것은 맞지만, 층마다 항상 양의 고유값만 갖는 변환만 가능하다는 뜻이기도 합니다. 진동이나 대립적 패턴처럼 음의 고유값을 필요로 하는 동역학은 표준 ResNet으로는 표현 자체가 안 됩니다.

Deep Delta Learning(DDL)은 이 문제를 수치 선형대수의 고전 도구인 Householder 반사로 풀었습니다. 아이디어의 핵심은 shortcut 연결에 rank-1 기하학적 변환을 추가하되, 그 강도를 데이터에 따라 동적으로 조절하는 것입니다. 업데이트 규칙은 이렇게 바뀝니다.

\[X_{l+1} = A(X_l)X_l + \beta(X_l)k(X_l)v(X_l)^\top\]

여기서 \(A(X) = I - \beta(X)k(X)k(X)^\top\)가 Delta Operator입니다. \(k(X)\)는 학습된 반사 방향 벡터, \(\beta(X) \in [0, 2]\)는 단 하나의 스칼라 게이트입니다.

이 게이트 하나가 층의 기하학 전체를 결정한다는 점이 흥미롭습니다. \(\beta \to 0\)이면 \(A(X) \to I\)가 되어 층이 통째로 건너뛰어집니다. 기존 identity mapping과 똑같습니다. \(\beta \to 1\)이면 \(A(X)\)는 직교 투영이 되어, 방향 \(k\)에 평행한 성분을 상태에서 지우고 \(v\)가 가리키는 새 값을 쓰는 "망각 후 재기록" 동작을 합니다. \(\beta \to 2\)로 가면 \(A(X) = I - 2kk^\top\), 즉 표준 Householder 행렬이 됩니다. 이때 고유값이 \(-1\)이 되면서 진정한 기하학적 반사가 일어납니다. 양의 덧셈만 가능했던 ResNet이 처음으로 음의 고유값을 가질 수 있게 됩니다.

층이 결정해야 하는 파라미터는 세 가지뿐입니다. 반사 방향 \(k(X)\), value 벡터 \(v(X)\), 그리고 강도 \(\beta(X)\). 각각을 경량 신경망 branch로 학습합니다. 파라미터 오버헤드는 크지 않고, 수식을 정리하면 DeltaNet의 시퀀스 메모리 업데이트와 수학적으로 같은 구조임도 드러납니다. 시간 축을 깊이 축으로 바꿔 읽으면 DDL이 됩니다. Delta Rule을 depth 방향으로 적용한 셈입니다.

논문이 솔직하게 인정한 부분도 있습니다. ImageNet이나 GLUE 같은 대규모 벤치마크에서의 실험적 검증이 이 버전에는 없습니다. 이론적 우아함이 실전 성능으로 곧바로 이어진다는 보장은 없습니다. 하지만 ResNet의 표현 한계를 수학적으로 정확히 짚고, 그 해결책을 기하학적으로 일관되게 설계했다는 것만으로도 2026년 1월의 시작을 알리기에 충분한 논문이었습니다.

선정 이유

Yifan Zhang을 이달의 인물로 꼽은 이유는 두 가지입니다. 하나는 연구 흐름의 일관성입니다. NeurIPS 2025 Spotlight를 받은 Tensor Product Attention에서도, 이번 Deep Delta Learning에서도, 그의 관심은 "어텐션과 shortcut처럼 구조의 근간이 되는 부분을 수학적으로 다시 설계하면 어떻게 되는가"에 있습니다. 박사과정임에도 어텐션 메커니즘 재설계와 ResNet 구조 재설계를 동시에 밀어붙이는 연구 스타일이 눈에 띕니다. 다른 하나는 타이밍입니다. 2026년 1월 1일에 arXiv에 올라온 이 논문은 말 그대로 새해 첫날의 논문이었습니다. HuggingFace 커뮤니티에서도 빠르게 수백 개의 컬렉션에 추가됐고, 공식 프로젝트 페이지와 코드도 함께 공개됐습니다.


Quanquan Gu

Quanquan Gu는 UCLA 컴퓨터과학과 부교수이자 UCLA Artificial General Intelligence Lab을 이끌고 있습니다. UIUC에서 박사학위를 받고 프린스턴에서 박사후 연구원을 거쳐 2018년부터 UCLA에 자리를 잡았으며, 현재는 ByteDance Seed의 리서치 사이언티스트도 겸직하고 있습니다. Google Scholar 기준 누적 피인용 수 3만 1천 회를 넘는 연구자로, NSF CAREER Award와 Simons Berkeley Research Fellowship 등을 수상했습니다.

Deep Delta Learning

Quanquan Gu의 연구 축은 세 갈래입니다. 비볼록 최적화(nonconvex optimization) 이론, 딥러닝 이론, 그리고 강화학습과 LLM 정렬입니다. 2016년 AISTATS에 발표한 "Low-Rank and Sparse Structure Pursuit via Alternating Minimization"은 저랭크 행렬과 스파스 행렬을 동시에 복원하는 교번 최소화 알고리즘이 선형 수렴을 보장함을 증명한 작업으로, 비볼록 최적화 이론에서 자주 인용됩니다. 이후에는 RLHF에서 능동 쿼리(active queries)를 활용해 데이터 효율을 높이는 APPO/ADPO 같은 LLM 정렬 기법으로 연구 영역을 넓혔습니다.

Deep Delta Learning에서 Gu의 역할은 시니어 저자입니다. 논문이 Householder 변환의 스펙트럼 성질을 엄밀하게 분석하고, Delta Operator가 identity mapping, 직교 투영, 기하학적 반사를 연속적으로 보간함을 정리로 증명한 방식은 그의 이론적 기반 위에 서 있습니다. 스칼라 게이트 하나로 변환의 행렬식을 \((1 - \beta)^{d_v}\)로 정확하게 제어할 수 있다는 따름정리는 단순한 주장이 아니라 증명된 결과입니다. 비볼록 최적화와 딥러닝 이론을 오랫동안 다뤄온 연구자가 아니면 이런 수준의 이론 분석을 ResNet 구조 논문에 녹여 넣기 쉽지 않습니다.

선정 이유

Quanquan Gu를 선정한 것은 이 논문이 그의 이론 연구 전통과 정확히 맞닿아 있기 때문입니다. 비볼록 최적화에서 출발해 딥러닝 이론을 거쳐 LLM 정렬까지 이어지는 그의 연구 궤적에서, Deep Delta Learning은 신경망 구조의 수학적 표현력을 정면으로 다룬 작업입니다. Householder 변환처럼 수치 선형대수에서 오래 쓰인 도구를 현대 심층 학습 구조에 원리적으로 접목한 방식은 그가 꾸준히 해온 "이론에서 구조 설계로"의 흐름과 일치합니다. 2026년 첫 논문을 이런 방향으로 꺼낸 것 자체가 그의 연구 관심을 잘 드러냅니다.


두 연구자는 사제지간이면서 공저자입니다. 박사과정 학생과 시니어 교수가 같은 논문의 공저자가 되는 것은 흔한 일이지만, Deep Delta Learning에서의 역할 분담은 명확합니다. Yifan Zhang은 아이디어를 직접 구현하고 공식 코드와 프로젝트 페이지를 공개한 제1저자이고, Quanquan Gu는 이론 분석의 엄밀성을 책임진 시니어 저자입니다. 2026년 1월을 여는 논문으로서, 두 사람이 함께 ResNet의 오래된 관습에 기하학이라는 언어로 질문을 던졌습니다.