아누샤 마단 고팔

🏷️ 인물 트랜스포머 LLM NeurIPS논문 Star

개요

아누샤 마단 고팔(Anusha Madan Gopal)은 미국 캘리포니아주 라구나힐스에 본사를 둔 BrainChip Inc. 소속 연구원입니다. 트랜스포머 어텐션 구조의 계산 및 메모리 효율화를 연구하며, BrainChip의 뉴로모픽 하드웨어 Akida 위에서 동작 가능한 경량 언어 모델 아키텍처 탐구를 병행합니다. Carnegie Mellon University(CMU) 에서 대학원 연구를 수행한 배경을 지니고 있습니다.

연구 방향은 소프트웨어와 하드웨어의 교차점에 있습니다. 일반 GPU를 상정한 모델 경량화와 달리, Akida처럼 희소성(sparsity) 기반 뉴로모픽 칩을 염두에 두고 어텐션 구조를 재설계하는 작업을 수행합니다. 이는 엣지 디바이스에서 실용적인 언어 모델 추론을 가능하게 하려는 BrainChip의 제품 방향과 직결됩니다.

2026년 기준 ICML 채택 논문의 공저자로서 QKV 프로젝션 공유 연구에 참여했으며, 이 분야에서 학술적으로 유의미한 수치를 도출하는 데 기여했습니다.

생애

아누샤 마단 고팔은 기계 학습과 상태 공간 모델(State Space Models), 뉴로모픽 컴퓨팅을 전공 분야로 삼고 있습니다. Carnegie Mellon University에서 대학원 연구 경험을 쌓은 뒤 BrainChip Inc.에 합류해 연구원으로 재직 중입니다.

BrainChip은 2025년 12월 신규 투자 2,500만 달러를 유치하며 엣지 AI 추론 시장에서의 입지를 강화했습니다. 이 기간에 아누샤 마단 고팔은 동료 연구원 알리 카얌, 앤서니 루이스와 함께 트랜스포머 아키텍처의 QKV 투영 구조를 체계적으로 재검토하는 연구를 진행했습니다. BrainChip 내부 컴퓨팅 자원을 사용해 300M 및 1.2B 파라미터 규모 언어 모델 훈련 실험을 수행했습니다.

2026년 현재 BrainChip Inc.에 재직 중이며, Akida 2세대 플랫폼이 비전 트랜스포머 가속을 지원하는 방향으로 확장됨에 따라 트랜스포머 경량화 연구가 회사의 핵심 과제 중 하나로 부상하고 있습니다.

업적

아누샤 마단 고팔의 주요 학술 성과는 ICML 2026 채택 논문 "Do Transformers Need Three Projections?"(Do Transformers Need Three Projections - Systematic Study of QKV Variants)입니다. 이 논문은 트랜스포머의 표준 Query-Key-Value 프로젝션 구조가 필수적인지를 체계적으로 검증한 연구로, Q=K-V, Q-K=V, Q=K=V 세 가지 공유 변형에 대해 합성 태스크, 비전(MNIST, CIFAR, TinyImageNet), 언어 모델링 세 영역에서 실험을 진행했습니다.

특히 언어 모델링 영역에서 Q-K=V 변형이 KV 캐시를 50% 줄이면서 퍼플렉시티 손실을 3.1%로 억제하는 최적 트레이드오프임을 보였습니다. GQA, MQA 같은 헤드 공유 기법과 결합하면 캐시 절감 효과가 최대 96.9%에 달한다는 점도 확인했습니다. 이 논문에서 아누샤 마단 고팔은 SlimPajama 코퍼스 기반 대규모 언어 모델 훈련 실험 설계 및 수행에 기여했습니다.

또한 상태 공간 모델 분야 연구와 뉴로모픽 컴퓨팅 관련 기여를 통해 BrainChip Akida 플랫폼의 소프트웨어 생태계 발전에 지속적으로 참여하고 있습니다.

여담

BrainChip Inc.는 호주 퍼스에 본사가 있는 독특한 배경의 AI 반도체 스타트업으로, 뉴로모픽 칩을 상업적으로 양산하는 몇 안 되는 기업 중 하나입니다. Akida 프로세서는 스파이킹 신경망(SNN) 방식을 상용 칩에 구현한 사례로 주목받습니다. 아누샤 마단 고팔이 이런 기업에서 트랜스포머 구조를 연구한다는 사실은 SNN과 어텐션 기반 아키텍처의 융합이 실질적인 산업 과제임을 보여줍니다.

"Do Transformers Need Three Projections?" 논문은 BrainChip의 내부 컴퓨팅 지원을 바탕으로 수행된 연구임이 논문 내 명시되어 있으며, 엣지 AI 하드웨어 맥락에서 모델 경량화 연구가 어떻게 설계되는지를 잘 보여주는 사례로 평가받습니다.

주요 논문