Zhifei Xie

Zhifei Xie는 난양공과대학교(NTU) 소속 연구자입니다. 실시간으로 듣고 말하는 오디오 언어모델 연구를 주도해 왔습니다.

대표 연구는 Mini-Omni 계열입니다. 2024년 Mini-Omni(Language Models Can Hear, Talk While Thinking in Streaming)를 시작으로 Mini-Omni2, Audio-Reasoner, Mini-Omni-Reasoner로 이어지며, 텍스트로 지시받아 음성을 생성하는 방식과 배치 병렬 추론으로 실시간 음성 대화를 구현하는 흐름을 만들었습니다. 초기 Mini-Omni 시기에는 칭화대 소속으로 표기되었고 이후 NTU로 옮겼습니다.

본 논문 Audio Interaction Model에서는 공동 1저자로, 오프라인 LALM과 단일 과제 스트리밍 모델을 하나의 always-on 모델로 통합하는 Audio Interaction Model 개념과 SoundFlow 프레임워크를 제안했습니다. Mini-Omni에서 쌓은 "들으면서 동시에 말한다"는 풀듀플렉스 음성 모델 경험이 이 논문의 perceive-decide-respond 루프로 이어졌습니다.

교신저자 Chunyan Miao, Deheng Ye와 NTU 라인을 공유하고, 음성 생성 분야의 Dongchao Yang, 시니어 연구자 Shuicheng Yan과 함께 작업했습니다.