OmniLottie 게시용 요약
게시용 요약
파트 1 (인사 및 핵심 요약)
오늘의 소개는 OmniLottie입니다. AI로 벡터 애니메이션을 만든다는 게 가능해졌네요. CVPR 2026 accept이라 내용에 무게가 있습니다. - 텍스트, 이미지, 영상에서 Lottie 벡터 애니메이션을 직접 생성하는 최초의 엔드투엔드 프레임워크 - Lottie JSON을 파라미터화된 토큰으로 변환하는 전용 토크나이저가 핵심 - 기존 LLM/VLM이 Lottie 생성 성공률 0~30%인데, OmniLottie는 88~93% - 4B 모델, 15.2GB GPU면 돌아감. 코드/모델 전부 오픈소스
댓글에 더 달아두었습니다.
파트 2 (방법론)
핵심은 Lottie Tokenizer입니다. Lottie JSON은 간단한 아이콘 애니메이션도 수천 줄인데, 대부분은 중괄호나 구조적 메타데이터입니다. 토크나이저가 이 노이즈를 전부 날리고 도형 좌표, 베지어 곡선, 키프레임 같은 핵심 정보만 추출해서 명령어+파라미터 시퀀스로 변환합니다. Qwen2.5-VL-3B을 백본으로 여기에 Lottie 어휘 임베딩을 얹어서 오토리그레시브 생성을 합니다.
파트 3 (데이터와 성능)
200만 개 Lottie 애니메이션 데이터셋(MMLottie-2M)을 직접 구축했습니다. LottieFiles, IconScout 등 5개 플랫폼에서 수집하고, SVG를 Lottie로 변환하면서 랜덤 애니메이션을 붙여 규모를 키웠습니다. Text-to-Lottie에서 FVD 202.14로 상용 도구 Recraft(300.70)를 크게 앞섰고, Video-to-Lottie에서도 SSIM 0.82, DINO 0.92로 최고 성능입니다.
파트 4 (한계와 전망)
토크나이저가 JSON을 변환하는 과정에서 복잡한 표현식이나 중첩 구조의 정보 손실이 있을 수 있고, 256토큰당 8.34초는 실시간 도구에는 아직 느립니다. 데이터셋이 CC BY-NC-SA 4.0이라 상업 활용에도 제약이 있죠. 다만 "도메인 특화 토크나이저 + VLM 백본"이라는 패턴은 SVG, CSS 애니메이션 등 다른 구조화된 포맷에도 확장 가능해 보입니다. 벡터 애니메이션 AI 생성의 방향성을 잡아준 연구라고 봅니다.