OmniNFT - Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation

🏷️ 논문 영상처리 머신러닝

G. Zhang, X. Ma, J. Huang, H. Xu, H. Yu, S. Fu, Y. Li, Z. Xue, L. Song, H. Huang, N. Duan, and F. Zhao, "OmniNFT: Modality-wise Omni Diffusion Reinforcement for Joint Audio-Video Generation," arXiv:2605.12480, 2026.

Sora·Veo 3·Movie Gen 흐름을 지나오면서 비디오 생성의 표면이 빠르게 매끄러워졌습니다. 그러나 영상은 영상대로, 음향은 음향대로 만들고 나중에 붙이는 후반 작업 방식이 깨지기 시작한 단계가 바로 joint audio-video generation 흐름입니다. Google DeepMind의 Veo 3, Lightricks의 LTX-2, JavisDiT++ 같은 모델이 영상과 음향을 동시에 생성하기 시작했고, 이제는 영상 품질만 좋은 게 아니라 입 모양과 발화가 맞는가, 물체가 움직일 때 적절한 사운드 텍스처가 따라붙는가를 같이 만족해야 하는 시대로 넘어가고 있습니다.

본 글에서 다루는 OmniNFT는 그 흐름 위에 RL fine-tuning을 깔끔하게 얹는 방법을 제안한 USTC + JD Explore Academy 합작입니다. 핵심은 단순합니다. joint audio-video diffusion에 vanilla GRPO를 그대로 가져가면 왜 잘 안 되는가를 세 가지 mismatch로 분해하고, 각각에 대응되는 세 가지 디자인을 modality 단위로 끼워 넣은 것입니다.

저자

USTC + JD Explore Academy 합작 라인업입니다. 1저자 Guohui Zhang은 USTC Feng Zhao 연구실 박사과정으로, MaskFocus(2025)·Group Critical-Token Policy Optimization(2025) 등 image generation에서 정책 최적화를 critical 영역에 집중시킨다는 연구를 이어온 사람입니다. 본 논문의 region-wise loss reweighting은 그 발상의 연장입니다.

교신 저자 Feng Zhao는 USTC 자동화학과 정교수로 컴퓨터 비전·멀티모달 모델 연구 그룹을 이끌고 있습니다. 같은 연구실에서 Hu Yu, Xiaoxiao Ma, Jie Huang, Hang Xu가 함께 OmniNFT에 이름을 올렸습니다.

산업 랩 측에서는 Lin Songproject leader로 들어왔습니다. CVPR 2024 YOLO-World의 공동·교신 저자로 알려진 비전 연구자입니다. 시니어 라인의 Nan Duan은 JD Explore Academy Vision and Multimodal Lab 디렉터로, 마이크로소프트 리서치 아시아 NLP 그룹과 StepFun을 거쳐 합류한 인물입니다. 19B 규모 LTX-2 backbone에 RL fine-tuning을 도는 컴퓨트 무거운 셋업이라, 학교 측 RL 연구 라인과 산업 측 인프라·데이터가 맞물려야 굴러가는 구조가 자연스럽게 만들어졌습니다.

배경

영상 + 음향 동시 생성에서 현실적으로 만족해야 하는 요구는 셋입니다.

세 요구를 동시에 다 잘하기 어려워서 LLM 쪽에서 등장한 RL with Verifiable Rewards(RLVR), 그 중에서도 GRPO 계열이 비주얼 생성에서도 post-training 표준으로 자리잡는 흐름이 있었습니다. DanceGRPO, Flow-GRPO, DiffusionNFT가 이미지·비디오 생성에 GRPO를 적용했고 어느 정도 효과를 봤습니다.

그런데 OmniNFT 저자들은 이 흐름을 joint audio-video로 그대로 가져갈 때 어디서 무너지는지를 먼저 따지고 시작합니다. 그 분석이 본 논문에서 가장 단단한 부분입니다.

omninft-pipeline.png

위 그림이 OmniNFT의 전체 파이프라인입니다. Modality-wise Advantage Routing에서 보상별 advantage를 modality별로 따로 계산해 분배하고, Layer-wise Gradient Surgery에서 video branch gradient가 audio shallow layer로 새는 것을 막고, Region-wise Reweighting에서 V2A cross-attention map을 끌어와 visual loss에 region-wise 가중치를 곱하는 흐름입니다.

어떻게 만들었나

저자들은 vanilla GRPO를 joint audio-video diffusion에 직접 적용해보고 다음 세 가지 optimization mismatch를 발견합니다.

OmniNFT는 이 세 문제에 1:1로 대응하는 세 디자인을 더합니다.

Modality-wise advantage routing. 보상 함수를 video reward, audio reward, AV reward 셋으로 분리합니다. video reward는 VideoAlign + HPSv3, audio reward는 Audiobox Aesthetics + CLAP, AV reward는 Synchformer 기반 DeSync입니다. 각 reward에서 group-wise advantage를 따로 계산한 뒤, video advantage(A_v)는 video branch로, audio advantage(A_a)는 audio branch로, AV advantage(A_av)는 두 branch에 broadcast해서 routing합니다. 식으로는 Ã_v = A_v + A_av, Ã_a = A_a + A_av입니다.

Layer-wise gradient surgery. dual-stream Transformer의 A2V cross-attention에서 audio hidden state로부터 가져오는 KV에 대해, shallow layer(블록 인덱스 l < L = 10)에서는 stop-gradient를 부분적으로 걸어줍니다. 구체적으로 α_s = 0.1만큼 detach하고 나머지(1 − α_s)만 backward로 흘립니다. deep layer는 그대로 둡니다. shallow는 intra-modal generation 담당이니 video reward의 gradient가 새지 않도록 막고, deep는 cross-modal 담당이니 RL signal이 제대로 흐르게 하는 것입니다.

Region-wise loss reweighting. V2A cross-attention map을 공짜로 얻는 region detector로 활용합니다. deep block(l ≥ L)의 후반 denoising step에서 V2A attention을 평균 내면 발화하는 인물의 입 주변, 소리를 내는 물체 같은 영역이 자연스럽게 강조됩니다. 이 attention score s_i를 정규화해서 w_i = 1 + λ·(s_i − min)/(max − min) 식으로 region-wise weight를 만들고, video branch loss에 곱해 critical 영역에 정책 업데이트를 더 집중시킵니다. λ는 1.50이 default입니다.

학습 자체는 LTX-2 19B backbone에 DiffusionNFT(forward process 위에서 정책 최적화하는 GRPO 변종) 형태로 얹습니다. JavisBench와 VBench를 평가 benchmark로 씁니다.

결과

가장 강한 비교는 같은 backbone에 vanilla RL(GDPO 포함)을 얹은 경우 대비입니다. JavisBench 주요 수치를 표로 정리합니다.

모델

파라미터

VQ ↑

AQ ↑

TA-IB ↑

CLAP ↑

AVHScore ↑

JavisScore ↑

DeSync ↓

LTX-2

19B

2.038

5.197

0.170

0.412

0.223

0.192

0.569

LTX-2 + GDPO

19B

3.209

5.523

0.184

0.428

0.223

0.185

0.412

LTX-2 + OmniNFT

19B

3.326

5.715

0.189

0.445

0.257

0.220

0.269

핵심 변화를 요약하면 다음과 같습니다.

저자가 솔직히 짚는 한계도 같이 봅니다. TV-IB(text-video ImageBind)와 CLIP score는 OmniNFT뿐 아니라 GDPO에서도 개선되지 않습니다. text–video semantic alignment는 여전히 어렵다는 게 본인들 결론입니다. 본 논문의 reward에 text–video 의미 일관성을 직접 잡아주는 항이 없는 영향도 있어 보입니다.

Ablation도 깔끔합니다. vanilla RL에서 시작해 세 디자인을 누적으로 더해갑니다.

Setting

VQ ↑

AQ ↑

TA-IB ↑

AVHScore ↑

JavisScore ↑

DeSync ↓

Time

LTX-2 baseline

2.038

5.197

0.170

0.223

0.192

0.569

  • vanilla RL

3.209

5.523

0.184

0.223

0.185

0.412

23.9h

  • Modality-wise advantage routing

3.264

5.399

0.186

0.240

0.199

0.322

23.9h

  • Layer-wise gradient surgery

3.246

5.917

0.192

0.247

0.209

0.334

24.1h

  • Region-wise loss reweighting (Full)

3.326

5.715

0.189

0.257

0.220

0.269

24.1h

세 디자인을 다 켰을 때 AQ가 5.917에서 5.715로 살짝 내려가는 구간이 보입니다(layer-wise gradient surgery 단계 → full 단계). 저자들은 region-wise reweighting이 video loss를 강하게 만들면서 audio가 일부 양보된다는 식의 trade-off로 해석할 수 있는 지점입니다. 다만 다른 지표(AVHScore, JavisScore, DeSync, TA-IB, CLAP)가 모두 best로 개선되니 full setup이 종합 우위라는 결론은 유지됩니다.

Hyperparameter 분석에서는 gradient surgery를 *shallow layer(L < 10)*에 거는 것이 *deep layer(L > 20)*에 거는 것보다 모든 지표에서 우위였습니다. region-wise λ도 1.50이 sweet spot으로, 더 작으면 critical 영역 강조가 약하고 더 크면 visual quality가 흔들립니다.

회고

본 논문은 별도 limitation 섹션이나 Appendix 회고가 없습니다. 대신 본문에서 저자들이 솔직하게 인정한 부분이 두 가지입니다.

첫째, text–video semantic alignment(TV-IB, CLIP)는 OmniNFT가 해결하지 못했습니다. 저자들은 이를 challenging이라고 표현했고, 본 논문에서 새로 도입한 reward(VideoAlign, HPSv3, Audiobox Aesthetics, CLAP, DeSync) 중 어떤 것도 text–video 의미 정합을 직접 학습 신호로 잡아주지 않는다는 점이 그대로 드러나는 결과입니다. 향후 작업에서 text-video reward를 추가하면 자연스럽게 메울 수 있어 보입니다.

둘째, AQ-VQ trade-off의 존재입니다. ablation에서 Layer-wise gradient surgery 단계가 AQ를 5.917로 끌어올렸는데, region-wise reweighting을 켜면서 5.715로 내려옵니다. 비디오 loss를 강하게 만든 영향이 audio side로 일정 부분 전가된 것으로 해석됩니다. 영상에 맞춰지는 RL signal이 음향을 얼마나 양보시키는가는 multi-objective RL에서 reward hacking과 직접 맞닿는 문제고, 본 논문이 이 trade-off를 완전히 푼 것은 아닙니다.

정리

세 가지를 가지고 갑니다.