Xuerui Qiu

🏷️ 컴퓨터비전 멀티모달

중국과학원(CASIA) 자동화연구소와 중관촌학원 소속 박사과정생으로, Limin Wang 교수 지도하에 연구합니다. 2024년 전자과기대학교(UESTC)에서 학부를 마쳤으며, 뉴로모픽 컴퓨팅·컴퓨터비전·LLM 양자화를 아우르는 폭넓은 연구를 이어가고 있습니다.

대표 연구로는 HYDRA 시리즈(arXiv:2603.15228, 2026)가 있습니다. 단일 시각 토크나이저로 이미지·비디오 이해와 생성을 통합하는 접근으로, 튜블릿 인과 어텐션(tubelet causal attention)과 계층적 2×2 패치파이(hierarchical patchify) 구조를 도입해 재구성 품질과 생성 다양성을 동시에 끌어올렸습니다.

HYDRA-X(arXiv:2606.13289, 2026)에서는 Guozhen Zhang, Yutao Cui와 함께 공동 제1저자로 참여했습니다. HYDRA-XTok이라는 전체론적 시각 토크나이저와 잠재 공간 기반 시각 편집 방식인 STI(State Token Injection)를 설계해, 이미지·비디오 이해·생성·편집을 단일 모델에서 구현하는 데 핵심 역할을 담당했습니다. 지도교수인 Limin Wang이 교신저자로 함께했습니다.