장리웨이

🏷️ LLM NLP 교수 Nature논문 NeurIPS논문 Star

개요

Liwei Jiang(장리웨이)은 미국 워싱턴 대학교 Paul G. Allen School of Computer Science & Engineering의 박사과정 연구자로, 최예진 교수의 지도 아래 AI 안전성과 가치 정렬을 연구합니다. 인간의 도덕 판단을 기계가 학습하고 재현할 수 있는지를 탐구하는 연구 흐름의 선두에 있는 인물로, 복수의 최상위 학술 대회에서 수상 이력을 쌓으며 주목받고 있습니다.

연구의 핵심 질문은 두 가지입니다. 첫째, 언어 모델이 실제로 도덕적 추론을 수행할 수 있는가. 둘째, 서로 다른 배경과 가치관을 가진 사람들의 다원적 관점을 AI가 동시에 수용할 수 있는가. 이 두 질문은 AI 안전성 연구에서 기술적 층위와 인문적 층위를 함께 다룬다는 점에서 독특한 위치를 차지합니다.

박사 과정 중 NVIDIA의 NeMo Guardrails 팀과 Allen Institute for AI(Ai2)에서 방문 연구원을 겸하며 학계와 산업계 양쪽에 걸친 경험을 쌓았습니다. 2025년에는 스탠퍼드 대학교를 방문 연구원으로 거치기도 했습니다.

생애

장리웨이의 공개된 초기 생애에 대한 정보는 많지 않습니다. 그는 워싱턴 대학교 박사 과정에 진학하기 전 컴퓨터 과학 분야에서 학부와 석사 과정을 마친 것으로 알려져 있으며, 자연어 처리와 윤리적 AI 연구에 일찍부터 관심을 보였습니다.

박사 과정에서는 지도 교수인 최예진과 함께 언어와 도덕, 사회적 규범이 교차하는 지점을 탐구해 왔습니다. 최예진 교수는 상식 추론과 AI 윤리 분야의 저명한 연구자로, 장리웨이는 그의 지도 아래 Delphi, INFINITY-CHAT 등 복수의 대형 프로젝트를 이끌었습니다.

2022년 NAACL Best Paper Award, 2023년 EMNLP Outstanding Paper Award, 2024년 CHI Best Paper Award를 연달아 수상하며 NLP와 HCI를 아우르는 연구 역량을 입증했습니다. 이처럼 단기간에 다양한 최상위 대회에서 인정을 받은 사례는 드물며, 이는 그의 연구가 기술 연구 공동체와 인간-컴퓨터 상호작용 공동체 모두에서 의미 있게 받아들여지고 있음을 보여줍니다.

업적

장리웨이의 가장 잘 알려진 연구는 2021년 발표한 "Can Machines Learn Morality? The Delphi Experiment"(arXiv:2110.07574)입니다. 크라우드소싱으로 수집한 도덕 규범 텍스트로 AI를 훈련시켜 인간의 도덕 판단을 예측하는 Delphi 시스템을 제안한 이 논문은, 철학자 존 롤스의 도덕 이론에 기반한 계산 프레임워크를 채택하여 기계 윤리 연구에 철학적 깊이를 더했습니다. 논문은 2025년 Nature Machine Intelligence에 게재되었습니다.

2025년 10월에는 "Artificial Hivemind: The Open-Ended Homogeneity of Language Models (and Beyond)"(arXiv:2510.22954)를 발표했습니다. 26,000개의 개방형 질문으로 구성된 INFINITY-CHAT 데이터셋을 구축하여 70개 이상의 최신 LLM을 평가한 결과, 모델 패밀리와 크기를 넘어 서로 다른 모델들이 놀랄 만큼 유사한 출력을 생성하는 "군집 정신(Artificial Hivemind)" 현상을 발견했습니다. 앙상블이나 온도 조절로 출력 다양성을 확보할 수 있다는 통념을 실증적으로 반박한 연구입니다.

이 논문은 2025년 12월 NeurIPS 2025 Datasets and Benchmarks Track에서 Best Paper Award를 수상하고 Oral 발표(상위 0.35%)로 선정되었습니다. 워싱턴 대학교 측 발표에 따르면 이는 Allen School 역사에서도 드문 성과로 평가받습니다.

여담

장리웨이가 제기한 Artificial Hivemind 현상은 단순한 기술적 관찰을 넘어 AI 생태계 전반에 대한 경고로 읽힙니다. 수십 개의 서로 다른 모델이 사실상 동일한 관점으로 수렴한다는 발견은, 다양한 AI를 활용해 다양한 의견을 구하거나 앙상블로 오류를 줄이려는 실무적 전략의 효과에 의문을 제기합니다.

지도 교수인 최예진은 이 연구를 두고 "AI가 진정한 다양성을 갖추지 못한 채 단일한 관점으로 수렴하는 문제는 AI 안전성의 핵심 과제"라고 강조했습니다. 장리웨이는 그 연장선상에서 인간 공저자 수준의 다양성을 갖춘 AI를 만들기 위한 연구를 이어가고 있습니다.

NeurIPS 2025 수상 직후 X(구 트위터)에 올린 글에서 "구두 발표도 정말 즐거웠다"고 솔직하게 소감을 밝힌 장리웨이는, 학술적 엄밀함과 대중과의 소통을 동시에 추구하는 연구자로 알려져 있습니다. 도덕 철학과 컴퓨터 과학이라는 이질적 영역을 하나의 연구 흐름으로 엮어내는 방식이 그의 연구를 특징짓는 요소입니다.