LiveEdit - Towards Real-Time Diffusion-Based Streaming Video Editing

🏷️ 논문 영상처리 확산모델

X. Wang, C. Zhao, F. Zhan, and Y. Ma, "LiveEdit: Towards Real-Time Diffusion-Based Streaming Video Editing," arXiv:2606.26740, 2026.

저자

Xinyu Wang과 Chongbo Zhao는 청화대학교(THU) 소속으로, Fangneng Zhan과 교신 저자 Yue Ma는 HKUST 소속입니다. 논문은 ECCV 2026에 채택됐습니다.

Yue Ma는 Qifeng Chen 교수 연구실의 HKUST 박사 과정생으로, Follow-Your-Pose(NeurIPS 2023) 등 "Follow Your" 시리즈를 통해 비디오 생성·제어 분야에서 꾸준히 성과를 내온 연구자입니다. Fangneng Zhan은 HKUST Division of Arts and Machine Creativity 조교수이며, NTU에서 박사를 마친 뒤 Max Planck Institute for Informatics에서 포스닥을 수행했습니다.

두 팀이 이 논문에서 합류한 맥락은 분명합니다. 비디오 생성 모델의 스트리밍 추론 가속 쪽에서 축적된 기술(HKUST)과, 편집 모델 증류를 실제로 구현하는 공학(THU)이 만나 실시간 편집이라는 목표를 향한 것입니다.

배경

스트리밍 비디오 편집에는 두 가지 상충되는 요건이 있습니다.

첫째는 배경 일관성입니다. 편집 명령("흰 블라우스를 진보라색으로")을 받으면 대상 영역만 바꾸고 나머지는 원본과 동일하게 유지해야 합니다. 이를 보장하려면 모델이 전체 시퀀스를 미리 보고 처리하는 양방향(bidirectional) 구조가 유리합니다.

둘째는 저지연입니다. 라이브 방송 편집이나 증강현실 응용에서는 수십 FPS 수준의 실시간 처리가 필수입니다. 이를 위해서는 과거 프레임만 보고 다음 프레임을 순차적으로 생성하는 단방향(causal) 구조가 필요합니다.

기존 양방향 편집 모델(InsV2V, LucyEdit, VideoCoF)은 품질은 높지만 0.13~1.05 FPS에 그칩니다. 기존 스트리밍 생성 모델(StreamDiffusion, StreamV2V)은 빠르지만 정밀한 지역별 편집에 실패하거나 배경이 무너집니다. 이 두 문제를 동시에 해결한 선행 연구는 없었습니다.

어떻게 만들었나

LiveEdit의 핵심 아이디어는 두 가지입니다. 첫째는 양방향 편집 모델의 지식을 단방향 스트리밍 모델로 옮기는 3단계 증류 파이프라인, 둘째는 정적 배경 영역의 계산을 재사용하는 AR-oriented Mask Cache입니다.

3단계 증류 파이프라인

1단계: Foundation Tuning. 양방향 Diffusion Transformer(Bidirectional DiT)를 전체 시퀀스 입력으로 학습합니다. 어텐션 메커니즘과 텍스트 임베딩을 활용해 복잡한 편집 매핑을 LM SE(Latent Mean Squared Error) 손실로 습득합니다. 100 NFEs(Network Function Evaluations), CFG 사용. 지연은 197.48ms로 스트리밍에는 부적합하지만, 높은 편집 품질을 확보합니다.

2단계: Teacher Forcing. 1단계에서 학습한 가중치를 Teacher로 활용해, 청크 단위(3 프레임 단위) Causal DiT 구조로 전환합니다. 순차적 처리가 가능해지지만 아직 100 NFEs, CFG가 그대로여서 지연은 200.36ms에 머뭅니다.

3단계: DMD(Distribution Matching Distillation). 2단계 가중치에서 직접 시작해 4 NFEs, CFG 없이 동작하도록 가속합니다. 기존 Self-Forcing 방식이 필요로 하는 ODE 초기화 비용을 우회하는 것이 핵심입니다. Teacher의 점수 기반 기울기 \(\nabla_\theta \mathcal{L}_{DMD}\)로 분포 매칭 훈련을 수행합니다. 학습률 \(10^{-5}\), 10K 스텝, 타임스텝 의존 가중치 함수 \(w(t)\) 적용. 지연이 7.89ms로 급감합니다.

AR-oriented Mask Cache

4-step 스트리밍 추론 중에도 배경 영역은 청크 간 거의 변하지 않습니다. 논문이 직접 측정한 값으로, Temporal IoU는 평균 0.016%, Pixel Difference는 평균 0.126%에 불과합니다. 이 성질을 이용해 정적 영역의 토큰 계산을 이전 청크 결과로 대체합니다.

이진 마스크 \(M^k_{u,v}\)로 어느 위치를 재계산할지 결정합니다:

\[f^k_{u,v} = \begin{cases} F(z^k_{u,v}) & \text{if } M^k_{u,v} = 1 \\ f^{k-1}_{u,v} & \text{if } M^k_{u,v} = 0 \end{cases}\]

여기서 \(z^k_{u,v}\)는 현재 청크의 입력 토큰, \(f^k_{u,v}\)는 출력 특징, \(F\)는 전체 블록 변환입니다. L2 거리 임계값 \(\tau\)를 동적으로 설정해 전체 공간 토큰의 정확히 70%를 가지치기합니다.

적용 위치가 중요합니다. Self-Attention(SA) 레이어에만 적용하고 FFN에는 적용하지 않습니다. 연속된 스텝 간 SA 토큰의 코사인 유사도는 평균 0.893으로 높아 재사용이 안전합니다. 반면 FFN 토큰의 유사도는 평균 0.153에 불과해(FFN이 고주파 공간 정보를 담고 있음), 캐시를 적용하면 품질이 급격히 떨어집니다. 이 메커니즘을 추가하면 7.89ms에서 6.41ms, 12.66 FPS로 추가 가속됩니다.

결과

속도 비교

방법	FPS	지연 (ms)
InsV2V	0.13	603.51
LucyEdit	1.05	77.23
StreamDiffusion	7.34	13.76
StreamDiffusionV2	6.89	11.76
Ours (캐시 없음)	10.27	7.89
Ours	12.66	6.41

InsV2V 대비 지연 97.38배 단축. StreamDiffusion보다 FPS는 72% 높고 지연은 절반 수준입니다.

품질 비교 (120쌍 벤치마크)

방법	TA↑	BC↑	MS↑	DD↑	AQ↑	IQ↑
LucyEdit	0.253	0.943	0.990	0.266	0.529	0.707
VideoCoF	0.245	0.953	0.991	0.094	0.542	0.709
InsV2V	0.259	0.943	0.986	0.196	0.577	0.708
StreamDiffusion	0.239	0.886	0.975	0.239	0.590	0.717
StreamDiffusionV2	0.252	0.951	0.992	0.264	0.539	0.653
StreamV2V	0.244	0.934	0.989	0.153	0.548	0.712
Ours (캐시 없음)	0.265	0.956	0.991	0.282	0.584	0.720
Ours (캐시 적용)	0.270	0.956	0.992	0.256	0.581	0.708

TA=텍스트 정렬(CLIP), BC=배경 일관성, MS=동작 부드러움, DD=동적 정도, AQ=미적 품질(LAION), IQ=영상 품질(VBench)

주목할 점이 둘 있습니다. 첫째, 양방향 모델들이 이론상 미래 프레임 컨텍스트를 활용할 수 있음에도 LiveEdit가 텍스트 정렬(TA)에서 이를 앞섭니다. 스트리밍 구조가 편집 명령을 더 정확히 따른다는 뜻입니다. 둘째, AR-oriented Mask Cache를 적용하면 DD가 0.282에서 0.256으로 소폭 하락합니다. 캐시가 정적 영역 보존에 집중하는 만큼, 동적인 변화 정도는 약간 줄어드는 트레이드오프가 있습니다.

단계별 ablation

	1단계	2단계	3단계
스트리밍	x	v	v
NFEs	100	100	4
CFG	사용	사용	미사용
지연 (ms)	197.48	200.36	7.89
TA	0.268	0.264	0.265
IQ	0.716	0.702	0.720

3단계 DMD를 거치면 지연이 약 25분의 1로 줄면서도 TA와 IQ는 1단계와 거의 같은 수준을 유지합니다. ODE 초기화 없이 2단계 가중치에서 직접 시작하는 방식이 유효했음을 보여줍니다.

20명을 대상으로 한 사용자 연구에서도 Instruction Consistency 100% 상위 3, Background Preservation 87.5% 상위 3, 75% 단독 1위를 기록해 수치 평가를 뒷받침합니다.

회고

AR-oriented Mask Cache가 작동하는 핵심 전제는 정적 배경의 시간적 안정성입니다. 논문이 직접 측정한 Temporal IoU 0.016%, Pixel Difference 0.126% 수치는 편집 영역 외 배경이 거의 변하지 않는다는 것을 확인해줍니다. 단, 카메라가 크게 이동하거나 배경 자체가 역동적으로 변화하는 영상에서는 캐시의 전제가 무너져 효과가 줄거나 품질이 저하될 수 있습니다. 저자들이 논문 내에서 이를 명시적으로 경계 조건으로 제시하진 않지만, Figure 5의 Temporal IoU 분포 분석이 이 가정이 얼마나 취약해질 수 있는지를 암묵적으로 보여줍니다.

캐시 적용 위치(SA vs FFN) 실험(Table 3)은 음성 결과(negative result)로서 가치가 있습니다. FFN에 캐시를 적용하면 BC가 0.956에서 0.841로, DD가 0.282에서 0.017로 붕괴합니다. SA 토큰 유사도(0.893)와 FFN 토큰 유사도(0.153)의 극명한 차이가 이를 설명합니다. 단순히 "SA만 적용한다"는 결론보다, 왜 FFN은 불가능한지를 수치로 뒷받침한 점이 설계 근거를 명확히 합니다.

Self-Forcing과의 차별점도 솔직하게 서술됩니다. Self-Forcing은 ODE 초기화가 텍스트-투-비디오(T2V) 생성에는 관리 가능하지만, 고해상도 장시간 소스 영상을 입력으로 받는 비디오 편집 문맥에서는 계산 비용이 감당하기 어려운 수준으로 늘어납니다. LiveEdit는 2단계 Teacher Forcing 가중치에서 직접 시작해 이 병목을 우회합니다.

정리

3단계 증류: 양방향 편집 모델 → 청크 단위 Causal DiT → 4 NFEs DMD. 각 단계가 제거하는 병목(글로벌 처리, 느린 추론, CFG)이 명확합니다.
AR-oriented Mask Cache: Self-Attention 레이어에서 70%의 공간 토큰을 동적으로 재사용해 6.41ms, 12.66 FPS를 달성합니다.
ECCV 2026 채택 논문으로, 스트리밍 비디오 편집에서 실시간 처리와 배경 보존을 동시에 달성한 첫 사례 중 하나입니다. 라이브 방송 편집, 증강현실 영상 필터 등 즉각적 피드백이 필요한 응용 분야에 직접 연결될 수 있는 기술입니다.