2025. 10. 이달의 인물 - Dan Hendrycks, Yejin Choi, Chao Huang

🏷️ 잡담

AI 연구에서 유달리 근본적인 질문들이 쏟아진 달이었습니다. AGI가 뭔지, LLM들이 서로 너무 비슷해지고 있는 건 아닌지, 그리고 실제 현장에서 쓸 수 있는 멀티모달 RAG는 어떻게 만드는지. 방향이 제각각인 것 같지만, 돌이켜보면 모두 같은 질문의 다른 면입니다. "AI가 지금 어디 있고, 어디로 가야 하는가."

댄 헨드릭스

댄 헨드릭스는 CAIS(Center for AI Safety)의 이사로, MMLU, MATH, ARC 등 AI 평가 벤치마크 설계자로 잘 알려진 인물입니다. 10월 27일, 그가 제1저자로 이름을 올린 논문 "A Definition of AGI"(arXiv:2510.18212)가 공개됐습니다. 요슈아 벤지오, Eric Schmidt, Gary Marcus, Max Tegmark 등 30명이 넘는 공저자가 참여한 논문입니다.

A Definition of AGI

핵심 아이디어는 AGI를 정성적으로 묘사하는 대신 수치로 측정하자는 것입니다. 연구팀은 100년 이상의 인지 능력 연구를 종합한 Cattell-Horn-Carroll(CHC) 이론을 가져와 지능을 10개 영역으로 분해했습니다. 지식, 읽기/쓰기, 수학, 추론, 작업기억, 장기기억 저장, 장기기억 인출, 시각 처리, 청각 처리, 처리 속도입니다. 각 영역을 10%씩 배분하면 총 100%가 AGI 점수가 됩니다.

이 잣대로 현재 AI를 재면 GPT-4는 27%, GPT-5는 57%입니다. 인상적인 숫자지만, 세부 내역을 보면 이야기가 달라집니다. 장기 기억 저장은 GPT-4도, GPT-5도 0%입니다. 새 세션이 시작되면 이전 대화의 구체적 기억은 없어지는 구조이기 때문입니다. 추론은 GPT-4에서 0%였다가 GPT-5에서 7%로 올라왔지만, 인간 기준의 7%라는 수치는 여전히 낮습니다.

논문이 말하는 핵심은 오히려 이 들쭉날쭉함에 있습니다. "능력 왜곡(Capability Contortions)"이라는 개념인데, AI가 약점을 강점으로 덮으려 한다는 관찰입니다. 장기 기억이 없으니 컨텍스트 창을 늘리고, 정확한 사실 인출이 어려우니 RAG를 붙입니다. 보완은 되지만 근본 능력이 생기는 건 아닙니다. 가장 약한 부품이 엔진 전체 성능을 제한하는 것처럼, 0%짜리 영역 하나가 AGI 점수를 가로막습니다.

선정 이유

댄 헨드릭스는 그동안 "AI가 이걸 할 수 있는가"를 묻는 벤치마크를 만들어왔습니다. 이번 논문은 방향이 다릅니다. "AI가 AGI인가를 어떻게 판단할 것인가"라는 측정 체계 자체를 다룹니다. 30명이 넘는 공저자 목록이 그 무게를 단적으로 보여줍니다. AI 안전, 경제학, 인지과학, 철학, 정책 분야를 가로지른 공저는 이 논문을 단순 기술 논문이 아니라 업계 공통 기준 제안서에 가깝게 만듭니다. 우리 블로그에서도 10월에 리뷰한 논문입니다.

최예진

최예진는 Stanford HAI 교수이자 NVIDIA 언어 및 인지 연구팀 수석 연구 과학자로, 상식 추론과 언어 이해 분야에서 오랫동안 주목받아온 연구자입니다. 2025년 1월 Stanford로 자리를 옮기기 전까지는 워싱턴 대학교 교수이자 Allen Institute for AI(AI2) 시니어 연구 매니저를 겸직했습니다. 10월 27일 그의 연구실에서 나온 "Artificial Hivemind"(arXiv:2510.22954)는 제자 Liwei Jiang이 주도한 논문이지만, Choi가 교신저자로 방향을 이끌었습니다. 이 논문은 NeurIPS 2025 Best Paper Award를 받았습니다.

Artificial Hivemind

논문의 주장은 불편합니다. 70개 이상의 LLM을 오픈형 질문 26,000개(Infinity-Chat 데이터셋)로 평가한 결과, 모델들이 동일 패밀리 내에서뿐 아니라 서로 다른 회사, 서로 다른 아키텍처의 모델들 사이에서도 동질화되고 있다는 것입니다. 다양한 인간 31,000명의 응답과 비교했을 때, LLM 집단의 답변 분포는 인간 집단보다 훨씬 좁게 모여 있었습니다.

이 현상을 "인공 군집 정신(Artificial Hivemind)"이라 명명합니다. 꿀벌 집단처럼 개별 모델이 독립적으로 행동하는 것처럼 보여도 실제로는 하나의 집단 의식처럼 수렴한다는 뜻입니다. 원인으로는 데이터 파이프라인의 공유, RLHF 과정에서의 인간 평가자 편향 수렴, 모델 간 증류(distillation)와 합성 데이터 재활용 등이 지목됩니다.

실용적 함의가 무섭습니다. 모델 앙상블을 쓰거나 여러 AI의 의견을 취합하는 설계는 각 모델이 독립적으로 다른 관점을 제공한다는 전제 위에 있습니다. 그 전제가 흔들립니다. "여러 AI에게 물어봤더니 다 같은 말을 한다"는 경험이 우연이 아닐 수 있습니다.

선정 이유

최예진의 연구실이 항상 "AI가 실제로 어떻게 행동하는가"를 불편하게 파고드는 쪽이었다면, 이번 논문은 그 방향의 가장 넓은 스케일 버전입니다. 개별 모델의 능력이 아니라 AI 생태계 전체의 구조적 문제를 다루는 논문이고, NeurIPS Best Paper라는 결과가 뒤따랐습니다. 10월 말 공개 직후 AI 안전 커뮤니티와 X에서 즉각 화제가 됐습니다.

황차오

황차오은 홍콩대학교(HKU) Data Intelligence Lab의 교수로, 그래프 신경망 기반 추천 시스템과 다중 모달 학습을 주로 연구해왔습니다. 10월 14일 공개된 "RAG-Anything"(arXiv:2510.12323)은 그의 랩에서 나온 오픈소스 프레임워크입니다. 공개 직후 GitHub Trending 1위에 올랐고, 수일 내 21,000개 이상의 별을 받았습니다.

RAG-Anything

텍스트만 검색하는 기존 RAG의 한계에서 출발합니다. 실제 문서에는 표, 그림, 수식, 코드, 오디오, 비디오가 섞여 있지만, 대부분의 RAG 시스템은 이것들을 텍스트로 변환하거나 무시합니다. 변환 과정에서 정보가 왜곡되고, 모달 간 관계는 사라집니다.

RAG-Anything의 핵심 구조는 두 개의 그래프입니다. 텍스트 청크를 노드로 두는 텍스트 그래프와, 이미지, 표, 수식 등 비텍스트 요소를 노드로 두는 멀티모달 그래프를 각각 만들고, 두 그래프를 교차 참조합니다. 예를 들어 논문 안의 그림과 그 그림을 설명하는 문단을 별도 노드로 잡되, 연결 엣지로 묶습니다. 검색 시 두 그래프를 동시에 탐색하면서 텍스트만으로는 찾기 어려운 멀티모달 컨텍스트를 함께 가져옵니다.

파이프라인 전체가 오픈소스로 공개됐습니다. 문서 파싱부터 임베딩, 그래프 구성, 검색, 응답 생성까지 end-to-end로 돌아갑니다. 기존 문서 QA 벤치마크에서 텍스트 전용 RAG 대비 멀티모달 이해 지표가 의미 있게 개선됐습니다.

선정 이유

RAG-Anything이 특별한 건 논문의 새로움보다 실행력에 있습니다. 멀티모달 RAG의 필요성은 이미 많이 논의됐지만, 직접 쓸 수 있는 오픈소스 구현이 드물었습니다. GitHub Trending 1위와 21,000+ 별은 연구 커뮤니티가 아니라 실제 개발자들이 즉각 반응했다는 뜻입니다. 황차오의 랩은 2025년 기준 GitHub Trending에 59회 이상 오를 만큼 구현 속도가 빠릅니다. 10월의 RAG-Anything은 그 중 가장 반응이 좋은 결과물이었습니다.

세 사람의 연구는 표면적으로 달라 보입니다. AGI 측정 프레임워크, LLM 동질화 경고, 멀티모달 RAG 구현. 그런데 같이 놓고 보면 하나의 흐름이 보입니다.

댄 헨드릭스는 AI가 어디까지 왔는지 체계적으로 측정하려 했고, 최예진는 그 AI들이 어떤 방향으로 수렴하고 있는지 보여줬습니다. 황차오은 수렴하는 AI들이 현실 문서에서 실제로 쓸 수 있도록 실용적인 도구를 만들었습니다. 2025년 10월의 AI 연구는 능력 경쟁에서 한 발 물러나, 지금 만들고 있는 것의 성격과 구조를 들여다보는 달이었습니다.