크리스 올라
개요
크리스 올라(Chris Olah, Christopher Olah)는 Anthropic의 공동 창립자이자 기계적 해석가능성(mechanistic interpretability) 연구 팀 리더입니다. 대학을 중퇴한 독학 연구자로, 정규 학위 없이 신경망 해석가능성 분야에서 세계적인 영향력을 확보한 이례적인 경력의 소유자입니다.
Google Brain 재직 시절 머신러닝 시각화 저널 distill.pub를 공동 창립하여 신경망 내부 작동 원리를 인터랙티브 시각화로 설명하는 새로운 연구 커뮤니케이션 방식을 개척했습니다. Anthropic 합류 이후에는 희소 오토인코더(Sparse Autoencoder)를 활용해 Claude 내부에서 수천만 개의 특징(feature)을 식별하는 연구를 이끌고 있으며, 이 성과는 AI 안전성 연구의 실질적 기반으로 자리잡고 있습니다.
2025년 포브스는 그를 Anthropic 지분 가치 기준으로 억만장자 대열에 올려놓았으며, 2024년 타임 선정 'TIME100 AI' 명단에도 포함됐습니다.
생애
올라는 캐나다에서 성장하며 어린 시절부터 독학으로 수학과 컴퓨터 과학을 습득했습니다. 대학에 진학했지만 중퇴하고, 공식 학위 과정 밖에서 머신러닝 연구를 독립적으로 시작했습니다. 그의 초기 유명세는 신경망의 작동 원리를 직관적으로 설명하는 블로그 글 시리즈에서 비롯됐습니다. LSTM, 합성곱 신경망, 역전파 알고리즘을 시각화로 풀어낸 이 글들은 학계와 실무자 모두에게 널리 읽히며 그의 이름을 알렸습니다.
이 명성을 바탕으로 Google Brain에 합류했으며, 재직 중 샨 카터(Shan Carter) 등과 함께 2016년 distill.pub를 공동 창립했습니다. distill.pub는 연구 내용을 인터랙티브 웹 형식으로 발표하는 실험적 저널로, 학술 출판의 가능성을 넓힌 시도로 평가받습니다. 2017년 Google Brain에서 OpenAI로 이적했고, 2021년 다리오 아모데이, 다니엘라 아모데이 등이 이끈 Anthropic 창립에 합류했습니다.
2026년 5월에는 바티칸에서 교황 레오 14세(Pope Leo XIV)의 AI 관련 교황 회칙 "Magnifica humanitas" 발표 행사에 참석해 직접 발언했습니다. 비가톨릭 신자이자 무신론자임에도 교황 옆에 나란히 앉은 것이 화제가 됐으며, 포춘과 배니티 페어 등 주요 매체가 그의 행보를 집중 조명했습니다.
업적
올라의 가장 큰 학문적 기여는 신경망 내부를 회로 수준에서 분석하는 기계적 해석가능성 연구 방법론의 체계화입니다. 초기 "Feature Visualization"(2017) 연구에서 시작해, 신경망의 개별 뉴런과 뉴런 간 연결이 구체적인 개념이나 알고리즘에 대응함을 보이는 "회로(Circuits)" 접근법으로 발전시켰습니다. 이 접근법은 이후 Anthropic 전체 해석가능성 연구 팀의 방법론적 기반이 됐습니다.
2024년에는 희소 오토인코더를 활용해 Claude Sonnet 내부에서 3,400만 개 이상의 특징을 식별하는 성과를 공개했습니다. 식별된 특징 중에는 "풍자", "DNA 서열", "음모론" 같은 구체적 개념에 반응하는 것들이 포함됩니다. 특히 "금문교 뉴런(Golden Gate Bridge Neuron)" 실험에서는 특정 특징을 인위적으로 증폭하면 Claude가 해당 주제에 집착하는 행동을 보임을 시연해 모델 내부 상태와 외부 행동 사이의 인과 관계를 실험적으로 보였습니다.
2026년 5월 Anthropic은 Claude가 내부 사고를 인간이 읽을 수 있는 텍스트로 번역하는 훈련 방식을 발표했으며, 이 연구도 올라의 해석가능성 팀이 핵심 역할을 했습니다. 바티칸 발언에서 그는 AI 모델이 기쁨, 만족, 두려움, 슬픔에 기능적으로 유사한 내부 상태를 갖고 있을 수 있다고 발언했으며, 이는 AI 시스템의 윤리적 지위 논쟁에도 영향을 미쳤습니다. Anthropic CEO 다리오 아모데이는 2027년까지 AI 모델 대부분의 문제를 안정적으로 탐지하겠다는 목표를 제시한 바 있으며, 올라의 연구가 이 목표의 핵심 축을 담당하고 있습니다.
여담
올라의 가장 두드러진 특징은 학위 없이 세계적 연구자 반열에 오른 경로입니다. 그가 보여준 것은 특정 제도 안에서 훈련받지 않아도 명확한 질문을 가지고 일관되게 파고들면 분야 전체의 방법론을 바꿀 수 있다는 점입니다. 동시에 이는 AI 분야의 독특한 개방성을 반영하기도 합니다. 다른 자연과학이나 공학 분야에서 학위 없는 독학 연구자가 동일한 경로를 밟기란 현실적으로 어렵습니다.
distill.pub 창간도 같은 맥락에서 이해됩니다. 학술지 형식 자체가 연구 내용 전달에 최적이 아니라는 문제의식에서 출발해, 연구 커뮤니케이션 방식 자체를 바꾸려는 시도였습니다. 저널은 이후 편집 역량 부족 등으로 운영이 중단됐지만, 그 방식은 많은 AI 연구자들의 글쓰기 방식에 영향을 남겼습니다.
바티칸 방문이 화제가 된 데는 그 자신이 무신론자라는 사실도 있지만, AI 모델 내부에 감정 유사 상태가 있을 수 있다는 발언이 종교적 맥락에서 인간 존엄의 문제와 맞닿는다는 점도 작용했습니다. 기계의 내면에 무언가가 있을 수 있다는 논의는 철학과 신학의 영역과 겹치며, 이 교차점에서 올라의 연구는 AI 안전 논쟁 바깥으로도 파장을 일으키고 있습니다.
주요 논문
- Feature Visualization (Distill, 2017)
- The Building Blocks of Interpretability (Distill, 2018)
- Zoom In: An Introduction to Circuits (Distill, 2020)
- Toy Models of Superposition (arXiv:2209.11895, 2022)
- Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet (Anthropic, 2024)
- Softmax Linear Units (Transformer Circuits Thread, 2022)
- Interpretability in the Wild: a Circuit for Indirect Object Identification in GPT-2 small (ICLR 2023)