Haiwen Diao

🏷️ 인물 LLM 멀티모달

Haiwen Diao(디아오 하이웬)는 픽셀과 단어를 별도의 vision encoder 없이 곧장 한 트랜스포머 안에서 다루는 native vision-language 모델 노선을 끌어온 연구자입니다. Dalian University of Technology 박사과정과 SenseTime 연구 인턴십을 거치며 Ziwei Liu, Dahua Lin과 협력해 왔습니다.

대표 연구는 encoder-free VLM 계열입니다. EVE(NeurIPS 2024)는 ViT 같은 외부 vision encoder 없이 디코더만으로 vision-language 학습이 가능하다는 것을 보였고, EVEv2(ICCV 2025)는 데이터 효율과 추론 정확도에서 모듈형 VLM과의 격차를 더 좁혔습니다. 2025년의 NEO 논문(arXiv:2510.14979)에서는 픽셀과 단어를 처음부터 같은 stream으로 학습하는 "native pixel-word primitive"를 제안했고, 이 NEO 위에 unified understanding-generation 레이어를 얹은 NEO-unify(2026년 3월 HuggingFace 블로그 공개)가 SenseNova-U1의 골격이 됩니다.

SenseNova-U1에서는 Project Lead로 이름을 올렸습니다. 자신이 직접 설계한 NEO/NEO-unify 위에서 dense 8B와 30B-A3B MoE 두 변종을 끌고 가는 작업이라, 사실상 본인 박사 연구 라인의 산업적 결정판에 가깝습니다. SenseTime이 Apache 2.0으로 풀어버린 결정도 이 noise·VAE·visual encoder 모두 들어낸 first-principle 디자인을 커뮤니티에 그대로 넘기겠다는 그의 노선과 일치합니다.