노암 셰이저

개요

노암 셰이저(Noam Shazeer)는 현대 LLM의 토대를 닦은 핵심 연구자입니다. 2000년 Google에 합류해 철자 교정 시스템과 검색 광고 알고리즘을 개발했고, 2017년 "Attention Is All You Need" 논문의 공동 저자로서 Transformer 아키텍처를 함께 만들었습니다. 이 논문은 오늘날의 Gemini, ChatGPT를 포함한 거의 모든 대형 언어 모델의 기반이 됩니다. 트랜스포머 외에도 Mixture-of-Experts(MoE), Adafactor 옵티마이저, 멀티쿼리 어텐션 등 현대 LLM 설계에 깊이 남아 있는 여러 핵심 기법을 제안했습니다.

2021년 Google을 떠나 Character.AI를 창업했다가, 2024년 8월 약 27억 달러 규모의 기술 라이선스 딜을 통해 Google DeepMind로 복귀했습니다. 그러나 복귀 2년이 채 안 된 2026년 6월 18일, OpenAI 합류를 전격 발표했습니다. AI 업계 역사상 손꼽히는 인재 이동으로 평가됩니다.

생애

셰이저는 Duke University에서 수학과 컴퓨터 과학을 전공해 학사 학위를 취득했습니다. 2000년 Google에 합류한 것이 사실상 전문 경력의 시작입니다. 학계나 다른 산업을 거치지 않고 곧바로 Google에서 커리어를 쌓기 시작한 점이 독특한 이력입니다. 초기에는 철자 교정 시스템을 구축해 Google 검색의 품질을 높이는 데 기여했고, 이어 PHIL 알고리즘을 개발해 Google AdSense의 핵심 로직을 설계했습니다.

이후 자연어 처리와 대규모 신경망 연구로 방향을 옮겨 2017년 트랜스포머 논문에 합류했습니다. 2021년 10월, Google이 대화형 AI 시스템의 외부 출시를 거부하자 이에 반발해 퇴사했습니다. Daniel De Freitas와 함께 Character.AI를 창업해 캐릭터 기반 대화 서비스를 빠르게 성장시켰습니다. 서비스는 출시 직후 수천만 명의 사용자를 끌어모았으나, 2024년 청소년 사용자와의 부적절한 대화 문제로 사회적 논란이 불거졌습니다.

2024년 8월 Google이 약 27억 달러의 기술 라이선스 딜을 체결하며 셰이저와 De Freitas를 Google DeepMind로 데려왔습니다. 엔지니어링 부사장 겸 Gemini 모델 공동 리드를 맡으며 복귀했지만, 복귀 채 2년이 안 된 2026년 6월 18일 X를 통해 OpenAI 합류를 발표했습니다. 직함은 Lead of Architecture Research입니다.

업적

트랜스포머 외에도 셰이저는 현대 LLM 설계에 직접적인 영향을 준 여러 기법을 제안했습니다. 2016년에는 희소 게이팅 Mixture-of-Experts(MoE) 레이어를 제안한 논문 "Outrageously Large Neural Networks"를 발표했습니다. 이 구조는 이후 GPT-4를 포함한 다수의 대형 모델에서 채택되었으며, 동일한 연산 예산으로 더 큰 모델 용량을 확보하는 핵심 기법으로 자리잡았습니다.

2018년 ICML에서는 Adafactor 옵티마이저를 발표했습니다. Adam보다 메모리 사용량을 크게 줄이면서도 성능을 유지하는 이 옵티마이저는 메모리가 제한된 대규모 학습 환경에서 광범위하게 활용됩니다. 같은 해 Mesh-TensorFlow를 제안해 매우 큰 트랜스포머를 분산 학습하는 방법론을 제시했습니다. 2019년에는 멀티헤드 어텐션의 키-밸류를 단일 헤드로 공유하는 멀티쿼리 어텐션을 제안해 추론 속도를 크게 향상시켰습니다.

OpenAI에서 셰이저는 Lead of Architecture Research라는 직함을 맡았습니다. OpenAI의 Mark Chen은 셰이저의 합류를 환영하며 "트랜스포머, MoE, 효율적 디코딩에 대한 그의 연구가 현대 AI를 형성했다"고 밝혔습니다. 샘 올트먼 역시 "OpenAI 초창기부터 가장 함께 일하고 싶었던 사람이었고, 10년이 걸렸다"는 소감을 전했습니다. OpenAI는 셰이저의 MoE와 효율적 디코딩 전문성이 GPT 이후 세대 모델 아키텍처 설계에 결정적 역할을 할 것으로 기대하고 있습니다.

여담

셰이저는 구글 재직 시절 "AI 업계에서 가장 많은 인용 수 대비 가장 낮은 인지도를 가진 연구자"라는 말을 들을 정도로 공개적인 활동을 자제했습니다. 인터뷰나 강연보다 논문과 코드로 말하는 스타일의 엔지니어였으며, 트랜스포머 공동 저자임에도 AI 커뮤니티 밖에서는 이름이 거의 알려지지 않은 채 수년을 보냈습니다.

셰이저가 OpenAI에서 맡은 "Lead of Architecture Research"라는 직함은 모델의 아키텍처 자체를 어떻게 설계할 것인가를 연구하는 자리입니다. MoE와 트랜스포머 설계를 오랫동안 다뤄온 그의 이력과 정확히 맞아 떨어지는 역할입니다. OpenAI는 IPO를 앞둔 시점에 셰이저를 영입함으로써 모델 아키텍처 경쟁력을 강화하겠다는 신호를 시장에 보내는 효과도 얻었습니다.

Google에서 Gemini를 공동 리드하다가 OpenAI로 이적한 셰이저의 행보는, AI 산업에서 연구자 개인이 어떤 협상력을 갖는지를 단적으로 보여주는 사례로 회자됩니다. 27억 달러짜리 딜로 돌아온 회사를 채 2년 만에 다시 떠난 점은 연구자와 기업 사이의 충성도와 자율성에 관한 흥미로운 질문을 남깁니다.

주요 논문

Attention Is All You Need (2017) — Transformer 아키텍처 제안, 어텐션만으로 RNN을 대체
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (2017) — 희소 게이팅 MoE 레이어로 모델 용량을 극적으로 확장
Adafactor: Adaptive Learning Rates with Sublinear Memory Cost (2018) — 메모리를 대폭 줄인 적응형 옵티마이저
Mesh-TensorFlow: Deep Learning for Supercomputers (2018) — 초대형 트랜스포머 분산 학습을 위한 텐서 병렬화 프레임워크
Fast Transformer Decoding: One Write-Head Is All You Need (2019) — 멀티헤드 어텐션의 키-밸류를 단일 헤드로 공유해 추론 속도 향상
Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer (T5) (2020) — 모든 NLP 태스크를 텍스트-텍스트 형식으로 통일한 T5 모델
GLU Variants Improve Transformer (2020) — 게이트 선형 유닛 변형으로 트랜스포머 FFN 성능 향상
LaMDA: Language Models for Dialog Applications (2022) — 대화 특화 대형 언어 모델
PaLM: Scaling Language Modeling with Pathways (2022) — Pathways 시스템으로 5400억 파라미터 언어 모델 학습