AlphaFold

🏷️ 딥러닝 머신러닝

개요

AlphaFold는 Google DeepMind가 개발한 단백질 구조 예측 AI 시스템입니다. 아미노산 서열(1차원 정보)만으로 단백질의 3D 구조를 원자 수준 정확도로 예측합니다. 1962년 크리스티안 안핀센(Christian Anfinsen)의 실험 이후 60년간 생물학의 난제였던 단백질 접힘 문제를 2020년 사실상 해결하며, 데미스 하사비스존 점퍼는 이 공로로 2024년 노벨 화학상을 수상했습니다.

단백질의 구조가 곧 기능을 결정하기 때문에, 구조를 빠르게 예측할 수 있다는 것은 신약 개발, 백신 설계, 효소 공학, 질병 메커니즘 연구 전반의 속도를 바꿔 놓습니다. 2024년 기준 AlphaFold 데이터베이스는 2억 1,400만 개의 구조 예측을 190개국 200만 명 이상의 연구자에게 무료로 제공하고 있습니다.

단백질 구조 예측 문제

아미노산은 단백질을 구성하는 기본 단위입니다. 서열만 알고 있는 상태(1차원)에서 이것이 3차원으로 접히는 구조를 예측하는 것이 단백질 접힘 문제입니다. 안핀센은 이 구조가 서열 정보만으로 결정된다는 사실을 증명했지만, 계산으로 이를 예측하는 것은 오랫동안 불가능에 가까웠습니다.

2년마다 열리는 CASP(Critical Assessment of Protein Structure Prediction) 대회는 이 문제의 진척을 측정하는 국제 벤치마크입니다. 2018년 CASP13까지 성능 개선은 느리고 점진적이었습니다.

AlphaFold1 (2018, CASP13)

존 점퍼가 기여한 첫 번째 버전입니다. 기존 방식 대비 약 50% 향상된 성능으로 CASP13 1위를 기록했지만, 원자 수준 정확도는 달성하지 못했습니다. 이 결과를 계기로 점퍼가 AlphaFold2 연구 책임자로 올라서며 아키텍처를 전면 재설계하게 됩니다.

AlphaFold2 (2020, CASP14 / 2021, Nature)

CASP14에서 2위 팀(90.8점) 대비 244.0점을 기록하며 사실상 경쟁을 종결지었습니다. 탄소 원자 지름 이하(1옹스트롬 미만) 오차를 달성했고, 테스트 단백질 3분의 2에서 GDT(Global Distance Test) 90점 이상을 기록했습니다.

Evoformer

48개의 트랜스포머 계열 블록으로 구성된 핵심 모듈입니다. 두 가지 표현을 동시에 유지하며 처리합니다.

핵심 혁신은 triangle update 연산입니다. A-B, B-C 거리를 알면 A-C 거리의 범위가 삼각 부등식에 의해 제한되는데, Evoformer는 이 기하학적 일관성을 학습에 강제합니다. 두 표현 사이에서는 outer product mean 연산으로 정보가 교환됩니다.

Structure Module

Evoformer 출력을 실제 3D 좌표로 변환하는 SE(3)-등변 신경망입니다. 각 아미노산 잔기에 로컬 좌표계(frame)를 부여하고, 이를 반복적으로 갱신하며 전체 3D 구조를 구성합니다. 결합 각도와 전체 좌표가 멀티스케일로 동기화됩니다.

한계

점퍼 본인이 밝힌 AlphaFold2의 한계입니다.

AlphaFold3 (2024)

단백질 단독 구조를 넘어 DNA, RNA, 리간드, 번역 후 변형과의 복합체 구조까지 예측 범위를 확장했습니다. 2024년 Nature에 발표되었으며, 신약 개발에서 표적-약물 상호작용 예측 도구로 주목받고 있습니다.

영향

2021년 AlphaFold 데이터베이스 공개 이후 신약 개발, 말라리아 및 수면병 치료제 설계, 코로나19 바이러스 단백질 분석, 플라스틱 분해 효소 개발 등 다양한 분야에서 직접적인 연구 성과가 이어졌습니다. Google DeepMind의 자회사 Isomorphic Labs는 AlphaFold 기술을 실제 신약 개발에 적용하고 있으며, Eli Lilly 및 Novartis와 최대 30억 달러 규모의 파트너십을 체결했습니다.

AlphaFold2 논문은 2026년 기준 3만 2천 건 이상의 인용을 기록하고 있습니다.