Grok Imagine Video 1.5 - Image-to-Video Arena 1위, Sora 대비 86% 저렴
2026년 6월 17일, xAI가 Grok Imagine Video 1.5를 일반 공개했습니다. Image-to-Video Arena 리더보드 1위를 차지했고, 가격은 Sora 2 대비 86% 저렴합니다. 영상 AI 시장의 분위기가 또 한 번 흔들렸습니다.
- 무료: grok.com/imagine에서 X Premium 구독 없이 사용 가능 (생성 한도 있음)
- SuperGrok: 월 $30, 상위 생성 한도
- API: $4.20/min, Imagine API를 통해 프로그래밍 방식 접근 가능
Aurora 엔진이 오디오를 한 번에 만드는 방식
Grok Imagine Video 시리즈의 기반 엔진은 Aurora입니다. Aurora는 자기회귀(autoregressive) 방식으로 각 프레임을 순차 생성합니다. 이전 프레임 전체를 컨디션으로 삼아 다음 프레임을 만들기 때문에, 카메라 움직임과 피사체 위치가 클립 전체에서 일관성 있게 유지됩니다.
1.5에서 결정적으로 달라진 점은 오디오를 별도 패스로 생성하지 않는다는 겁니다. 배경 음악, 효과음, 립싱크 대화까지 영상 생성과 같은 단일 패스에서 출력됩니다. 종래 AI 영상 도구는 렌더링 후 오디오를 후처리로 붙이는 구조였습니다. 이 경우 소리와 동작이 살짝 어긋나는 "후처리 느낌"이 생기는 게 일반적입니다. 단일 패스 구조는 이 어긋남을 원천 차단합니다. 발화자가 입을 움직이는 순간에 목소리가 들리고, 물체가 부딪히는 프레임에 충격음이 깔립니다.
기술적으로는 오디오 토큰과 영상 토큰을 같은 시퀀스에서 학습한 결과입니다. 자기회귀 모델이 "다음 프레임"을 예측할 때 오디오 토큰도 함께 예측하도록 훈련한 구조입니다. Sora 계열이나 DiT 기반 모델들이 영상 diffusion을 먼저 돌리고 오디오를 붙이는 two-stage 파이프라인과 근본적으로 다른 접근입니다.
Arena Elo +52: 숫자가 의미하는 것
Image-to-Video Arena는 두 모델의 클립을 나란히 보여주고 사람이 더 좋은 쪽을 고르는 블라인드 테스트입니다. Chatbot Arena와 같은 방식입니다. Elo 점수는 승패 누적으로 계산되므로, +52는 상당한 차이입니다.
Grok Imagine Video 1.5는 Arena 현재 1위(Elo 1473)로, Sora 2, Veo 3.1, Seedance 2.0, Kling을 모두 제쳤습니다. 이전 버전 1.0 대비 52점 상승했습니다.
숫자 자체보다 주목할 것은 비교 대상입니다. Sora 2는 OpenAI가 만든 모델이고, Veo 3.1은 Google DeepMind 작품입니다. xAI의 영상 모델이 두 빅테크를 맹추격하는 블라인드 테스트 결과는, 점수 이상의 의미를 가집니다.
다만 Arena 점수는 "사람이 보기에 더 낫다"는 주관 평가입니다. 실제 제작 환경에서 중요한 일관성, 긴 클립 안정성, 프롬프트 추종도 같은 지표와 반드시 일치하지는 않습니다.
속도와 스펙
항목 |
Grok Imagine Video 1.5 |
Grok Imagine Video 1.5 Fast |
|---|---|---|
해상도 |
720p |
720p |
프레임레이트 |
24fps |
24fps |
클립 길이 |
최대 15초 |
6초 |
생성 시간 |
- |
~25초 (이전 40초 이상 → 단축) |
오디오 |
단일 패스 동기화 |
단일 패스 동기화 |
1.5 Fast는 6초 720p 클립을 약 25초에 생성합니다. 이전 모델이 같은 길이를 40초 이상 걸리던 것과 비교하면 거의 두 배 속도입니다. grok.com/imagine, iOS, Android 앱에서 바로 쓸 수 있습니다.
$4.20/min, 지속 가능한가
Sora 2의 API 가격은 분당 \(30입니다. Grok Imagine Video 1.5는\)4.20/min입니다. 86% 저렴합니다.
이 가격 격차가 지속 가능한지는 의문입니다. 두 가지 가능성이 있습니다.
첫째, xAI가 컴퓨트 비용에서 실제 우위를 갖고 있는 경우입니다. Aurora의 자기회귀 구조가 diffusion 기반 모델보다 추론 비용이 낮을 가능성이 있습니다. 다만 이를 뒷받침하는 공개 정보는 현재 없습니다.
둘째, 의도적 저가 전략입니다. xAI는 늦게 시장에 진입한 후발주자입니다. Sora나 Veo가 먼저 점유한 API 사용자층을 빼앗아야 합니다. 이 관점에서 $4.20은 시장 점유율을 위한 투자입니다. API 사용자가 xAI에 빌드하고 나면 전환 비용이 생깁니다.
어느 쪽이 사실인지는 몇 분기 후 가격 변동을 보면 어느 정도 판단할 수 있을 겁니다.
xAI의 미디어 파이프라인 전략
xAI의 이미지·영상 제품 로드맵을 보면 분명한 방향이 있습니다. 이미지 생성(Aurora), 이미지-to-영상(Grok Imagine Video), 그리고 이제 오디오가 통합됐습니다. 단편적인 기능 추가가 아니라 미디어 생성 파이프라인 전체를 수직 통합하는 그림입니다.
X(Twitter) 플랫폼과의 시너지가 여기서 드러납니다. X는 숏폼 영상 트래픽이 상당한 플랫폼입니다. Grok Imagine Video를 X 안에서 쓸 수 있게 되면, 크리에이터가 X를 떠나지 않고 영상 콘텐츠를 만들 수 있습니다. Grok의 텍스트 AI, Aurora의 이미지, Video 1.5의 클립이 하나의 워크플로로 묶이는 흐름입니다.
Projects, 병렬 에이전트, 히스토리 검색 같은 워크플로 기능이 이번 릴리스에 포함된 것도 이 맥락입니다. 단발성 사용이 아니라 반복 작업을 위한 도구로 포지셔닝하겠다는 의도입니다.