루카시 카이저

개요

루카시 카이저(Lukasz Kaiser, 폴란드어 표기 Lukasz Kaiser)는 폴란드 출신의 컴퓨터과학자로, 2017년 Attention Is All You Need 논문의 공동저자 8인 중 한 명입니다. 이 논문이 제안한 Transformer 아키텍처는 오늘날 GPT, BERT, T5를 비롯한 거의 모든 대형 언어 모델의 토대가 되었습니다. Google Brain에서 약 8년을 보낸 뒤 2021년 OpenAI로 이직하였으며, 현재까지 OpenAI 수석 연구원으로 활동 중입니다.

논리학, 오토마타 이론, 이론 전산학을 연구하던 논리학자 출신이라는 점에서 딥러닝 연구자들 사이에서도 이색적인 배경을 지닙니다. 이론적 엄밀함을 바탕으로 범용 시퀀스 모델링, 추론 시스템, 학습 효율성 문제에 꾸준히 천착해왔습니다. OpenAI에서는 GPT-4, Codex, 그리고 최초의 추론 모델 o1 시리즈 개발에 핵심적으로 기여하였습니다.

"하나의 모델로 모든 문제를 푼다(One Model To Solve All Problems)"는 그의 연구 철학을 잘 요약하는 말로, 범용 시퀀스 모델에 대한 오랜 관심을 반영합니다.

생애

1981년 12월 9일 폴란드 브로츠와프에서 태어났습니다. 브로츠와프 대학교에서 컴퓨터과학과 수학 이중 석사 학위를 취득하였습니다. 이후 독일 RWTH 아헨 대학교에서 2008년 컴퓨터과학 박사 학위를 받았으며, 논문 제목은 "Logic and Games on Automatic Structures"로 알고리즘 모델 이론에 집중했습니다.

2009년에는 논리학 및 계산학 분야 우수 논문에 수여하는 E.W. Beth Award를 수상하였습니다. 박사 후 프랑스 국립과학연구센터(CNRS)에서 연구원으로 근무하였으며, 2013년 파리 디드로 대학교에서 Habilitation(HDR)을 취득하였습니다. 이 시기에 논리학, 형식 검증, 이론 컴퓨터과학을 연구하며 딥러닝 전환을 위한 이론적 토대를 다졌습니다.

2013년 Google Brain에 합류하면서 딥러닝 연구로 본격 전환하였고, 이후 약 8년간 Google Brain 선임 연구원으로 활동하였습니다. 2021년 6월 OpenAI로 자리를 옮겨 수석 연구원으로 재직 중입니다. 2026년에는 TEDAI Vienna 패널리스트로 이름을 올리는 등 추론 AI의 방향성을 논의하는 자리에 꾸준히 참여하고 있습니다.

업적

루카시 카이저의 가장 큰 업적은 2017년 Vaswani, Shazeer, Parmar 등과 함께 작성한 Attention Is All You Need 논문입니다. 이 논문은 기존 순환 신경망(RNN)과 합성곱 신경망(CNN) 기반 시퀀스 모델링에서 벗어나 어텐션 메커니즘만으로 구성된 Transformer 아키텍처를 제안하였습니다. 역대 가장 피인용수가 많은 AI 논문 중 하나로, 현대 AI 혁명의 기초 자료로 자리잡았습니다.

Google Brain 재직 중에는 Tensor2Tensor(T2T) 오픈소스 라이브러리를 개발 및 주도하였습니다. T2T는 딥러닝 연구의 재현성과 접근성을 높인 도구로, Transformer의 레퍼런스 구현을 포함하고 있습니다. Universal Transformers, Reformer 등 어텐션 아키텍처의 효율성과 범용성을 확장하는 후속 연구들에도 이름을 올렸습니다.

OpenAI에서는 GPT-4와 Codex 개발에 기여하였으며, 2024년 9월 공개된 o1 시리즈의 핵심 기여자이자 리서치 리드로 알려져 있습니다. o1은 OpenAI 최초의 추론 모델로, 복잡한 수학 및 코딩 문제에서 단계별 사고 체인을 형성하여 전례 없는 성능을 달성하였습니다. 이어 2025년에는 o3-mini(1월 31일), o3(4월 16일), o3-pro(6월 10일) 등 추론 모델 라인이 연이어 출시되며 이 흐름이 현대 LLM의 주류 패러다임으로 자리잡았습니다. 2025년에는 경쟁 프로그래밍에서 대형 추론 모델이 최고 수준의 성과를 달성함을 보고한 논문의 공저자로도 참여하였습니다.

여담

Transformer 논문의 공동저자는 총 8명이며, 이 중 상당수가 구글을 떠나 OpenAI, Mistral AI, Cohere, Inflection 등 경쟁 AI 기업으로 이직하였습니다. 이른바 "Transformer 8인방"의 이탈 현상 자체가 2020년대 AI 생태계 분산화의 상징으로 회자됩니다.

폴란드에서 수학, 논리학 훈련을 받은 배경 덕분에, 그의 연구는 복잡도 이론과 형식 검증의 시각을 딥러닝에 접목하는 독특한 색채를 띱니다. Google Brain 시절 발표한 "Neural GPUs Learn Algorithms"는 신경망이 단순 패턴 매칭을 넘어 알고리즘적 문제를 풀 수 있음을 보인 초기 연구 중 하나입니다.

오픈소스 기여 측면에서도 T2T 라이브러리와 TensorFlow 생태계에 남긴 흔적이 크며, 이는 학계의 재현성 문화에 긍정적인 영향을 미쳤다는 평가를 받고 있습니다.

주요 논문

Attention Is All You Need (2017) -- Transformer 아키텍처 제안, 순환 신경망 없이 어텐션만으로 시퀀스 모델링
One Model To Learn Them All (2017) -- MultiModel: 이미지 분류, 번역, 음성 인식 등 다중 도메인을 단일 모델로 처리
Neural GPUs Learn Algorithms (2016, ICLR) -- GPU 병렬 구조를 모방한 신경망으로 알고리즘 학습 가능성 입증
Universal Transformers (2019, ICLR) -- 깊이 방향 반복 계산을 통해 Transformer의 범용 계산 능력을 강화
Reformer: The Efficient Transformer (2020, ICLR) -- 지역 민감 해싱으로 긴 시퀀스에서 메모리 효율적인 어텐션 구현
Sparse is Enough in Scaling Transformers (2021, NeurIPS) -- 희소 피드포워드 레이어만으로 대형 Transformer 확장 가능성 제시
Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer (2017, ICLR) -- 조건부 연산으로 모델 용량을 수백억 파라미터까지 확장하는 MoE 레이어
Multi-task Sequence to Sequence Learning (2016, ICLR) -- 단일 seq2seq 모델로 번역, 파싱, 이미지 캡션 등 다중 태스크 동시 학습
TensorFlow: A System for Large-Scale Machine Learning (2016, OSDI) -- 구글의 대규모 분산 딥러닝 프레임워크 TensorFlow 공개
Competitive Programming with Large Reasoning Models (2025) -- OpenAI o1/o3 계열 추론 모델로 경쟁 프로그래밍 최고 수준 달성 보고