양둥차오
Dongchao Yang은 홍콩중문대학교(CUHK) 소속 오디오 생성 연구자입니다(dcyang@se.cuhk.edu.hk).
대표 연구는 UniAudio입니다. 음소·텍스트 설명·오디오 등 다양한 조건을 입력받아 음성, 음향(sound), 음악, 노래까지 한 모델로 생성하는 범용 오디오 생성 LLM으로, ICML 2024에 채택되고 Stanford AI Index 2024 리포트에 구글 MusicLM, 메타 MusicGen과 함께 오디오 논문 3편 중 하나로 꼽혔습니다. 후속작 UniAudio 1.5(LLM 기반 오디오 코덱을 few-shot 오디오 과제 학습기로)는 NeurIPS 2024에 채택되었습니다.
본 논문 Audio Interaction Model에는 오디오 생성·이해 양쪽의 대표 연구자로 합류했습니다. StreamAudio-2M 데이터셋이 검색으로 못 채우는 희귀 음향 이벤트를 생성 모델로 합성해 채우는 설계나, 오프라인 오디오 이해 능력을 스트리밍으로 보존하는 부분은 UniAudio류의 통합 오디오 생성·이해 경험과 맞닿아 있습니다.