Dongchao Yang

🏷️ 인물 멀티모달

Dongchao Yang은 홍콩중문대학교(CUHK) 소속 오디오 생성 연구자입니다(dcyang@se.cuhk.edu.hk).

대표 연구는 UniAudio입니다. 음소·텍스트 설명·오디오 등 다양한 조건을 입력받아 음성, 음향(sound), 음악, 노래까지 한 모델로 생성하는 범용 오디오 생성 LLM으로, ICML 2024에 채택되고 Stanford AI Index 2024 리포트에 구글 MusicLM, 메타 MusicGen과 함께 오디오 논문 3편 중 하나로 꼽혔습니다. 후속작 UniAudio 1.5(LLM 기반 오디오 코덱을 few-shot 오디오 과제 학습기로)는 NeurIPS 2024에 채택되었습니다.

본 논문 Audio Interaction Model에는 오디오 생성·이해 양쪽의 대표 연구자로 합류했습니다. StreamAudio-2M 데이터셋이 검색으로 못 채우는 희귀 음향 이벤트를 생성 모델로 합성해 채우는 설계나, 오프라인 오디오 이해 능력을 스트리밍으로 보존하는 부분은 UniAudio류의 통합 오디오 생성·이해 경험과 맞닿아 있습니다.

음성 모델 연구자 Zhifei Xie, 시니어 Shuicheng Yan과 함께 작업했습니다.