PixelREPA 게시용 요약

게시용 요약

파트 1 (인사 및 핵심)

오늘의 소개는 KAIST AI의 PixelREPA입니다. REPA가 잠재 공간 디퓨전에서는 잘 되는데 픽셀 공간에서는 오히려 성능을 망친다는 걸 밝힌 연구입니다. - REPA를 JiT(픽셀 공간 디퓨전)에 적용하면 훈련이 진행될수록 FID가 악화 - 원인은 정보 비대칭: 고차원 픽셀 공간 vs 압축된 시맨틱 타겟 사이의 갭 - PixelREPA로 해결하여 JiT-B/16 FID 3.66 → 3.17, 수렴 속도 2배 이상 향상 - PixelREPA-H/16은 FID 1.81로, 2배 큰 JiT-G/16(1.82)까지 앞섬

댓글에 더 달아두었습니다.

파트 2 (Feature Hacking)

REPA가 픽셀 공간에서 실패하는 핵심 원인은 feature hacking입니다. 잠재 디퓨전에서는 토크나이저가 이미 이미지를 압축하니까 시맨틱 인코더와 자유도가 비슷합니다. 근데 픽셀 공간은 원본 이미지 차원 그대로라 자유도가 훨씬 높죠. 여기서 압축된 시맨틱 타겟에 직접 회귀하면, 특징 공간에서 밀집된 이미지들의 다양성이 붕괴합니다. 32×32에서는 REPA가 작동하는데 256×256에서는 실패한다는 해상도별 비교가 이를 뒷받침합니다.

파트 3 (해결책: MTA)

PixelREPA의 핵심은 Masked Transformer Adapter(MTA)입니다. MLP 대신 2블록 트랜스포머 어댑터로 정렬 대상을 변환하고, 어댑터 입력 토큰의 20%를 랜덤 마스킹합니다. 마스킹이 토큰별 shortcut을 방지하면서 동시에 정보 병목 역할을 하는 게 포인트입니다. 어댑터만으로는 FID 4.68로 vanilla JiT(4.37)에 못 미치지만, 마스킹을 더하면 4.00까지 내려갑니다. MTA는 훈련 시에만 쓰고 추론 비용은 0입니다.

파트 4 (한계와 전망)

ImageNet 256×256에 한정된 실험이라 고해상도나 텍스트 조건부 생성에서의 효과는 미확인입니다. 모델이 커질수록 개선폭이 줄어드는 경향(B: 13.4%, L: 10.6%, H: 2.7%)도 있습니다. 다만 "잠재 공간에서 좋은 기법이 픽셀 공간에서도 좋다"는 가정에 반례를 제시한 점, 그리고 정보 비대칭이라는 원인 분석은 픽셀 디퓨전 연구 전반에 중요한 참고가 될 것 같습니다.