양둥차오

개요

Dongchao Yang(양둥차오)은 홍콩중문대학교(CUHK) 소속 오디오 생성 연구자입니다. 음성(speech), 음향(sound), 음악(music), 노래(singing) 네 영역을 단일 LLM으로 통합 생성하는 파운데이션 모델 UniAudio의 1저자로, 범용 오디오 생성이라는 연구 방향의 선구적 작업으로 평가받습니다.

UniAudio는 ICML 2024에 채택되었고, Stanford AI Index 2024 리포트에서 구글 MusicLM, 메타 MusicGen과 함께 오디오 논문 3편 중 하나로 선정되었습니다. 2026년에는 UniAudio 2.0과 DualSpeechLM 등을 발표하며 연구를 이어가고 있습니다.

생애

베이징대학교(PKU) 전기공학 및 컴퓨터과학 전공으로 석사 학위를 취득한 뒤, 홍콩중문대학교 인간-컴퓨터 통신 연구소(HCCL)에서 연구를 이어가고 있습니다. 이메일은 dcyang@se.cuhk.edu.hk로 알려져 있습니다.

UniAudio 연구는 텍스트 설명, 음소, 오디오 등 다양한 조건을 입력받아 단일 모델로 여러 유형의 오디오를 생성하는 방향으로 시작되었습니다. 이 아이디어를 정식 논문으로 발전시켜 ICML 2024에 발표하면서 오디오 AI 분야에서 이름을 알렸습니다.

이후 NeurIPS 2024에서 UniAudio 1.5를, IEEE ICASSP 2025와 IEEE ICME 2025에 음성 생성 및 오디오 이해 관련 논문들을 발표했습니다. 2026년에는 AAAI 2026에서 DualSpeechLM을 발표하고 UniAudio 2.0 프리프린트를 공개하는 등 활발한 연구 활동을 이어가고 있습니다.

업적

UniAudio(2023~2024)는 단일 오디오 생성 모델이 특정 태스크에 국한되던 관행을 깬 작업입니다. TTS(텍스트-투-스피치), 음성 변환, 노래 합성, 음성 향상, 음성 분리, 텍스트-투-사운드, 텍스트-투-뮤직, 음성 편집, 오디오 편집, 지시 기반 TTS, 음성 잔향 제거까지 12개 이상의 태스크를 한 모델이 처리합니다. ICML 2024 채택 직후 Stanford AI Index 2024에 언급되면서 분야 밖에서도 주목을 받았습니다.

UniAudio 1.5(NeurIPS 2024)는 LLM 기반 오디오 코덱을 few-shot 오디오 태스크 학습기로 발전시킨 후속 연구입니다. 원본 UniAudio의 범용 생성 능력을 유지하면서 적은 샘플로도 새로운 태스크에 빠르게 적응하는 능력을 추가했습니다.

2026년 2월 공개된 UniAudio 2.0(arXiv:2602.04683)은 범용 오디오 언어모델의 두 가지 근본 문제를 해결하고자 합니다. 첫째, 이해와 생성 모두에 쓸 수 있는 오디오 토크나이저 설계 문제입니다. 둘째, few-shot 및 zero-shot 환경에서 일반화되는 오디오 파운데이션 모델 구축 문제입니다. 이를 위해 ReasoningCodec이라는 이산 오디오 코덱을 제안하며, 이해용 추론 토큰과 파형 복원용 재구성 토큰으로 분리합니다. 음성, 음향, 음악 전 영역에 걸쳐 인도메인과 제로샷 모두에서 경쟁력 있는 성능을 보였습니다.

DualSpeechLM(AAAI 2026)은 음성 이해와 음성 생성을 단일 LLM에서 통합하는 이중 토큰 모델링 방법론을 제안합니다.

Audio Interaction Model 논문에도 오디오 생성·이해 양쪽 경험을 인정받아 공동 저자로 합류했습니다.

여담

단일 모델로 모든 오디오 태스크를 처리한다는 UniAudio의 발상은 LLM이 NLP 태스크를 통합하는 방식을 오디오 도메인에 그대로 가져온 것입니다. 이 접근법이 Stanford AI Index에 선정될 만큼 주목받은 것은, 오디오 AI 연구에서 오랫동안 분리되어 있던 TTS, 음악 생성, 음향 생성 분야를 하나의 모델로 묶는 시도가 드물었기 때문입니다.

GitHub(github.com/yangdongchao)에 UniAudio 코드를 공개해 재현 가능성을 높인 점도 커뮤니티에서 긍정적으로 평가받는 요소입니다.

음성 모델 연구자 셰즈페이, 시니어 옌수이청과 함께 작업했습니다.

주요 논문

UniAudio: An Audio Foundation Model Toward Universal Audio Generation (ICML 2024, arXiv:2310.00704)
UniAudio 1.5 (NeurIPS 2024)
UniAudio 2.0: A Unified Audio Language Model with Text-Aligned Factorized Audio Tokenization (arXiv:2602.04683, 2026)
DualSpeechLM: Towards Unified Speech Understanding and Generation via Dual Speech Token Modeling with Large Language Models (AAAI 2026)
LauraGPT: Listen, Attend, Understand, and Regenerate Audio with GPT (arXiv:2310.04673)
Audio Interaction Model (공동 저자)
Codec-SUPERB @ SLT 2024 (공동 저자)