라이쉰하오

개요

라이쉰하오(Xunhao Lai, 赖勋豪)는 베이징대학교(PKU) 지능과학기술학원 석사과정 연구자입니다. 장문 컨텍스트 처리와 희소 어텐션 메커니즘 설계를 전문으로 하며, MiniMax와 산학 협력을 통해 실제 대규모 모델 전훈련 실험까지 참여한 이력을 갖습니다.

대표 성과는 ICLR 2025 채택 FlexPrefill(공저자)과 2026년 공개 MiniMax Sparse Attention(1저자)입니다. 두 작업 모두 "고정된 어텐션 패턴 대신 입력 내용에 따라 동적으로 어텐션 범위를 선택한다"는 문제의식 아래 진행됐습니다.

MiniMax Sparse Attention은 2026년 6월 arXiv에 공개됐으며(arXiv:2606.13392), GQA(Grouped Query Attention) 그룹별 희소 검색을 가능하게 하면서도 블록 단위 실행으로 하드웨어 효율을 유지하는 방식으로, 수백만 토큰에 달하는 초장문 컨텍스트 처리 연구의 새로운 기준을 제시했습니다.

생애

라이쉰하오는 베이징대학교 Yuan Pei College 학부를 졸업하고 동 대학교 지능과학기술학원 석사과정에 진학했습니다. Yuan Pei College는 베이징대학교의 영재 교육 프로그램으로, 이학과 공학 분야 우수 학생들을 별도 선발하여 집중 교육합니다.

석사 재학 중 MiniMax의 LLM 연구팀과 협력 연구를 이어오고 있습니다. MiniMax는 중국의 AI 기업으로, 100B 이상 규모의 MoE(Mixture of Experts) 모델을 직접 전훈련하는 역량을 갖추고 있습니다. 라이쉰하오는 이 협력을 통해 학부 연구 수준을 넘어 109B MoE 스케일 실험에 직접 참여하는 기회를 얻었습니다.

OpenReview 프로필에는 Peking University 소속으로 등록되어 있으며, FlexPrefill과 MiniMax Sparse Attention의 저자 정보에서 일관되게 확인됩니다. 소속 연구실과 지도교수는 공개된 프로필에 명시되어 있지 않습니다.

업적

첫 번째 주요 성과는 FlexPrefill(arXiv:2502.20766)입니다. Jianqiao Lu, Yao Luo, Yiyuan Ma, Xun Zhou와 공저했으며, ICLR 2025에 채택됐습니다. FlexPrefill은 어텐션 계산 시 각 입력과 어텐션 헤드별로 희소 패턴과 계산 예산을 실시간으로 동적 조정하는 메커니즘입니다. 100K 토큰 컨텍스트에서 13.7배 속도 향상을 달성하면서 토큰 매칭 정확도 99.9%를 유지했습니다.

두 번째 대표 성과는 2026년 6월 공개한 MiniMax Sparse Attention(arXiv:2606.13392)으로, 이 논문의 1저자입니다. 총 17인 공저 논문으로, GQA 그룹별로 경량 인덱서(Index Branch)가 키-값 블록을 점수화하고 Top-k 블록만 선택해 Main Branch에서 정확한 블록 희소 어텐션을 수행하는 구조입니다. GQA 그룹 단위 희소 검색을 가능하게 하면서도 블록 단위 실행으로 하드웨어 효율을 유지합니다. 자오펑위의 MiniMax LLM 팀과 협력해 109B MoE 스케일 전훈련 실험까지 수행했으며, KL 정렬 손실 훈련 방식과 exp-free Top-k 커널 구현을 주도했습니다.

FlexPrefill에서 내용 기반 동적 어텐션 선택 아이디어를 처음 정립하고, MiniMax Sparse Attention에서 이를 그룹별 인덱서 구조로 정교화하는 일관된 연구 궤적을 보여줍니다. 이 연구는 에이전틱 워크플로, 저장소 규모 코드 추론, 지속 메모리 등 초장문 컨텍스트가 필수인 프론티어 LLM 응용의 실용적 수요와 직접 연결됩니다.

여담

석사과정 재학 중에 ICLR 채택 논문과 100B 이상 스케일 전훈련 실험 참여를 동시에 달성한 것은 산학 협력의 실질적 성과 사례로 자주 언급됩니다. 학교 연구와 산업계 스케일 실험을 병행한 점이 라이쉰하오 연구 경력의 두드러진 특징입니다.

FlexPrefill은 "내용 무관하게 고정된 희소 패턴을 쓰는 기존 방식의 한계"에 대한 명확한 문제 정의에서 출발했고, MiniMax Sparse Attention은 그 해법을 실제 프로덕션 모델 규모에서 검증한 작업으로 볼 수 있습니다. 두 논문 사이의 논리적 연속성이 뚜렷합니다.

Fira라는 LLM 훈련 프레임워크 연구에도 참여했는데, 이는 full-rank 훈련 성능을 유지하면서 low-rank 수준의 메모리 효율을 달성하는 방법을 다룬 작업입니다. 희소 어텐션과 메모리 효율 훈련이라는 두 축이 라이쉰하오 연구의 핵심임을 보여줍니다.

주요 논문

FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference (ICLR 2025, arXiv:2502.20766)
MiniMax Sparse Attention (arXiv:2606.13392, 2026, 1저자)