쉬준동

개요

쉬준동(Jundong Xu, 핸들명 Aiden Xu)은 싱가포르국립대학교(NUS) 컴퓨팅학부 박사과정 연구자입니다. LLM 추론의 단계별 논리 정합성을 강화하는 강화학습 프레임워크와 동적 환경에서의 에이전트 평가 벤치마크를 주력 연구 주제로 삼고 있습니다.

ICLR 2026에 LogicReward를 발표하면서 LLM 추론 연구 커뮤니티에서 이름을 알렸으며, ACL 2025에도 논리 추론 관련 논문을 발표했습니다. 2026년 6월에는 동적 환경 에이전트 벤치마크 EvoArena를 arXiv에 공개했습니다. NUS 박사과정 진학 전에는 같은 학교에서 컴퓨팅 석사 학위(2023-2025)를 마쳤으며, ICLR, ACL, EMNLP 등 주요 학회에서 리뷰어로도 활동합니다.

GitHub 핸들 Aiden0526으로 LogicReward를 포함한 여러 프로젝트의 코드와 데이터를 공개 관리하며, EvoArena 전용 웹사이트(aiden0526.github.io/EvoArena)도 운영합니다.

생애

싱가포르국립대학교 컴퓨팅학부에서 석사 학위를 취득한 뒤, 같은 학교 박사과정에 진학하여 Mong-Li Lee, Wynne Hsu 교수의 지도를 받고 있습니다. 석사 재학 중에는 멀티모달 LLM의 구조적 환각 탐지에 관한 논문으로 Best Workshop Paper Award를 수상하며 LLM 신뢰성 문제에 집중하기 시작했습니다.

박사과정 진학 후에는 ACL 2025에 "Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework"를 발표하며 논리 추론 분야에서 본격적인 활동을 시작했습니다. University College London, University of Manchester, University of Melbourne, UC Santa Barbara 등 다양한 기관의 연구자들과 공동 연구를 활발히 진행하며 국제 협력 네트워크를 빠르게 구축하고 있습니다.

이후 단계별 기호 감독 기반 강화학습 프레임워크인 LogicReward와 동적 환경 에이전트 벤치마크인 EvoArena를 잇달아 공개했습니다. NUS 컴퓨팅학부는 동남아시아 AI 연구의 거점으로 빠르게 성장하고 있으며, 쉬준동은 이 환경 안에서 LLM 추론 신뢰성 연구를 이끄는 신진 연구자로 자리를 잡아가고 있습니다.

업적

LogicReward(ICLR 2026)는 LLM의 추론 각 단계를 기호 논리 정리 증명기로 감독하여 단계별 보상을 제공하는 강화학습 프레임워크입니다. 기존 방법이 최종 답의 정오만을 보상 기준으로 삼는 것과 달리, 중간 추론 단계의 논리적 정합성을 개별적으로 평가합니다. LLaMA-3.1-8B 기준 8개 논리 추론 및 자연어 추론 벤치마크에서 평균 +11%, Qwen-3-8B에서 +3.2% 향상을 달성했습니다.

2026년 6월에는 Qingchuan Li와 공동 1저자로 EvoArena를 arXiv에 공개했습니다. EvoArena는 워크플로, 소프트웨어 리포지토리, 사용자 선호도가 지속적으로 변화하는 조건에서 LLM 에이전트를 평가하는 벤치마크 스위트입니다. 에이전트 메모리에 패치 이력을 보존하는 EvoMem 메커니즘이 포함되어 있으며, 정적 환경 평가가 지배적이었던 기존 에이전트 벤치마크와 달리 환경 자체가 시간에 따라 진화한다는 점에서 차별성을 가집니다.

2025년에는 기호론(semiotics) 프레임워크를 활용한 의미 인식 논리 추론 방법론과 "From Answer to Think: Multidimensional Supervision of Reasoning Process for LLM Optimization" 연구도 발표했습니다. 추론의 각 단계를 얼마나 정밀하게 평가하고 개선할 수 있는가라는 문제의식이 그의 연구 전반을 관통합니다.

여담

LogicReward가 주목받는 이유 중 하나는 "정답이 맞으면 추론 과정도 맞다"는 암묵적 전제에 정면으로 의문을 제기한다는 점입니다. 모델이 잘못된 추론 경로로 우연히 맞는 답을 낼 수 있다는 이른바 "lucky guess" 현상을 체계적으로 억제하려는 시도로, 수학 추론이나 코딩 태스크에서 단순 정답률로는 포착하기 어려운 추론 품질 개선 방향으로 확장될 수 있습니다.

짧은 연구 경력에도 불구하고 ICLR, ACL 등 최상위 학회에 복수의 논문을 게재하고, 국제 공동 연구 네트워크를 폭넓게 구성한 것은 눈에 띄는 성과입니다. 개인 홈페이지(aiden0526.github.io)에서 진행 중인 연구와 발표 일정을 공개하며 커뮤니티와 소통합니다.

EvoArena의 EvoMem 설계는 단순히 과거 상태를 기록하는 것이 아니라 변화의 이유와 맥락까지 함께 저장한다는 점에서 기존 에이전트 메모리 설계와 다릅니다. 실세계 배포 시나리오에서 환경이 끊임없이 업데이트되는 소프트웨어 시스템을 다뤄야 하는 에이전트의 한계를 측정하려는 시도입니다.

주요 논문

Fine-grained Structural Hallucination Detection for Unified Visual Comprehension and Generation in Multimodal LLM (Best Workshop Paper)
Semantic-Aware Logical Reasoning via a Semiotic Framework (2025)
Aristotle: Mastering Logical Reasoning with A Logic-Complete Decompose-Search-Resolve Framework (ACL 2025)
From Answer to Think: Multidimensional Supervision of Reasoning Process for LLM Optimization (2025)
Good Reasoning Makes Good Demonstrations: Implicit Reasoning Quality Supervision via In-Context Reinforcement Learning (2026)
LogicReward: Incentivizing LLM Reasoning via Step-Wise Logical Supervision (ICLR 2026)
InT: Self-Proposed Interventions Enable Credit Assignment in LLM Reasoning (arXiv 2026)
EvoArena: Tracking Memory Evolution for Robust LLM Agents in Dynamic Environments (arXiv 2026)