장리웨이

개요

Liwei Jiang(장리웨이)은 미국 워싱턴 대학교 Paul G. Allen School of Computer Science & Engineering 박사과정 연구자로, 최예진 교수의 지도 아래 AI 안전성과 가치 정렬을 연구합니다. 인간의 도덕 판단을 기계가 학습하고 재현할 수 있는지를 탐구하는 연구 흐름의 선두에 있으며, 단기간에 최상위 학술 대회와 학제를 넘나들며 복수의 수상 이력을 쌓았습니다.

연구의 핵심 질문은 두 가지입니다. 첫째, 언어 모델이 실제로 도덕적 추론을 수행할 수 있는가. 둘째, 서로 다른 배경과 가치관을 가진 사람들의 다원적 관점을 AI가 동시에 수용할 수 있는가. 이 두 질문은 AI 안전성 연구에서 기술적 층위와 인문적 층위를 동시에 다룬다는 점에서 독특한 위치를 차지합니다. 연구 전반을 관통하는 키워드는 "인본주의적이고(humanistic), 다원적이며(pluralistic), 공진화하는(coevolutionary) AI 안전성"입니다.

박사 과정 중 NVIDIA의 NeMo Guardrails 팀과 Allen Institute for AI(Ai2)에서 방문 연구원을 겸하며 학계와 산업계 양쪽 경험을 쌓았습니다. 2025년에는 스탠퍼드 대학교를 방문 연구원으로 거쳤으며, 박사 학위는 2026년 3월 취득 예정입니다. 2025년 말부터는 학계 교수직 구직 시장(academic job market)에 진입하였습니다.

생애

장리웨이는 2019년 9월 워싱턴 대학교 박사 과정에 진학하기 전 컴퓨터 과학 분야에서 학부와 석사 과정을 마쳤습니다. 자연어 처리와 윤리적 AI 연구에 일찍부터 관심을 보였으며, 입학 직후부터 지도 교수 최예진과 함께 언어와 도덕, 사회적 규범이 교차하는 지점을 탐구해 왔습니다.

최예진 교수는 상식 추론과 AI 윤리 분야의 저명한 연구자로, 장리웨이는 그 지도 아래 Delphi, INFINITY-CHAT 등 복수의 대형 프로젝트를 이끌었습니다. 2022년 NAACL Best Paper Award, 2023년 EMNLP Outstanding Paper Award, 2024년 CHI Best Paper Award를 연달아 수상하며 NLP와 HCI를 아우르는 연구 역량을 입증하였습니다. 2025년에는 COLM AIA 워크숍 Outstanding Paper Award도 추가로 받았습니다.

2026년 1월에는 Schmidt Sciences의 AI2050 Compute Grant로 NVIDIA H100 10만 시간 규모의 컴퓨팅 자원을 지원받아 다원적 정렬(Pluralistic Alignment) 연구를 이어가고 있습니다. 박사 졸업을 앞두고 교수직 구직 활동을 병행하며 다수 대학 세미나에 초청 연사로 참여하고 있습니다.

업적

장리웨이의 가장 잘 알려진 연구는 2021년 발표한 "Can Machines Learn Morality? The Delphi Experiment"(arXiv:2110.07574)입니다. 크라우드소싱으로 수집한 도덕 규범 텍스트로 AI를 훈련시켜 인간의 도덕 판단을 예측하는 Delphi 시스템을 제안한 이 논문은, 철학자 존 롤스의 도덕 이론에 기반한 계산 프레임워크를 채택하여 기계 윤리 연구에 철학적 깊이를 더했습니다. 논문은 2025년 Nature Machine Intelligence에 게재되며 학계의 폭넓은 주목을 받았습니다.

2025년 10월에는 "Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)"(arXiv:2510.22954)를 발표했습니다. 26,000개의 개방형 질문으로 구성된 INFINITY-CHAT 데이터셋을 구축하여 70개 이상의 최신 LLM을 평가한 결과, 모델 패밀리와 크기를 넘어 서로 다른 모델들이 놀랄 만큼 유사한 출력을 생성하는 "군집 정신(Artificial Hivemind)" 현상을 발견했습니다. 앙상블이나 온도 조절로 출력 다양성을 확보할 수 있다는 통념을 실증적으로 반박한 연구입니다.

이 논문은 2025년 12월 NeurIPS 2025 Datasets and Benchmarks Track에서 Best Paper Award를 수상하고 Oral 발표(상위 0.35%)로 선정되었습니다. 워싱턴 대학교 Allen School 역사에서도 드문 성과로 평가받으며, 2026년 1월 Allen School 공식 뉴스레터에 특집으로 소개되었습니다.

여담

장리웨이가 제기한 Artificial Hivemind 현상은 단순한 기술적 관찰을 넘어 AI 생태계 전반에 대한 경고로 읽힙니다. 수십 개의 서로 다른 모델이 사실상 동일한 관점으로 수렴한다는 발견은, 다양한 AI를 활용해 다양한 의견을 구하거나 앙상블로 오류를 줄이려는 실무적 전략의 효과에 의문을 제기합니다.

지도 교수인 최예진은 이 연구를 두고 "AI가 진정한 다양성을 갖추지 못한 채 단일한 관점으로 수렴하는 문제는 AI 안전성의 핵심 과제"라고 강조했습니다. 장리웨이는 그 연장선에서 인간 공저자 수준의 다양성을 갖춘 AI를 만들기 위한 연구를 이어가고 있습니다.

NeurIPS 2025 수상 직후 X(구 트위터)에 올린 글에서 "구두 발표도 정말 즐거웠다"고 솔직하게 소감을 밝힌 장리웨이는, 학술적 엄밀함과 대중과의 소통을 동시에 추구하는 연구자로 알려져 있습니다. 2026년에는 UMass Amherst CICS NLP 세미나에 초청 연사로 참여하며 "인본주의적, 다원적, 공진화적 AI 안전성과 정렬"을 주제로 발표하는 등, 박사 졸업을 앞두고 학계 네트워크를 넓혀 가고 있습니다.

주요 논문

Can Machines Learn Morality? The Delphi Experiment (2021, Nature Machine Intelligence 2025) -- 크라우드소싱 도덕 규범으로 AI를 훈련해 인간의 도덕 판단을 예측하는 Delphi 시스템 제안
NeuroLogic A*esque Decoding: Constrained Text Generation with Lookahead Heuristics (2022) -- 제약 조건 텍스트 생성을 위한 탐색 기반 디코딩 알고리즘, NAACL 2022 Best Paper
SODA: Million-Scale Dialogue Distillation with Social Commonsense Contextualization (2023) -- 사회적 상식 맥락화로 백만 규모 대화 데이터를 구축, EMNLP 2023 Outstanding Paper
A Roadmap to Pluralistic Alignment (2024) -- AI가 다원적 인간 가치를 동시에 수용하기 위한 정렬 연구 로드맵
Can Language Models Reason about Individualistic Human Values and Preferences? (2024) -- 개인 수준의 가치 추론 능력을 평가하는 IndieValueCatalog 데이터셋 제안
Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond) (2025) -- 70개 이상 LLM이 놀랍도록 유사한 출력으로 수렴하는 "군집 정신" 현상 발견, NeurIPS 2025 Best Paper