Detect Anything via Next Point Prediction
๊ฐ์ฒด ๊ฒ์ถ์ ์ค๋ซ๋์ YOLO, DETR, Grounding DINO์ ๊ฐ์ ํ๊ท ๊ธฐ๋ฐ ๋ชจ๋ธ์ด ์ฃผ๋ํด์์ต๋๋ค. ์ต๊ทผ MLLM(Multimodal Large Language Model)์ ํ์ฉํ ์๋๋ค์ด ์์์ง๋ง, ๋ฎ์ ์ฌํ์จ, ์ค๋ณต ์์ธก, ์ขํ ๋ถ์ผ์น ๋ฑ์ ๋ฌธ์ ์ ์ง๋ฉดํ์ต๋๋ค. ์ด ๋ ผ๋ฌธ์ ์ด๋ฌํ ๊ฒฉ์ฐจ๋ฅผ ํด์ํ๊ธฐ ์ํด Rex-Omni๋ผ๋ 3B ํ๋ผ๋ฏธํฐ MLLM์ ์ ์ํฉ๋๋ค. Rex-Omni๋ COCO์ LVIS ๋ฒค์น๋งํฌ์์ ์ ๋ก์ท ์ค์ ์ผ๋ก DINO, Grounding DINO์ ๊ฐ์ ํ๊ท ๊ธฐ๋ฐ ๋ชจ๋ธ๊ณผ ๋น์ทํ๊ฑฐ๋ ๋ ๋์ ์ฑ๋ฅ์ ๋ฌ์ฑํฉ๋๋ค.
Q. Jiang, J. Huo, X. Chen, Y. Xiong, Z. Zeng, Y. Chen, T. Ren, J. Yu, and L. Zhang, "Detect Anything via Next Point Prediction", arXiv preprint arXiv:2510.12798, 2025.
์์ฝ
์ํคํ ์ฒ: Rex-Omni๋ Qwen2.5-VL-3B๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ๊ตฌ์ถ๋์์ผ๋ฉฐ, 0๋ถํฐ 999๊น์ง์ ์์ํ๋ ์ขํ๋ฅผ ๋ํ๋ด๋ ํน์ ํ ํฐ์ ์ฌ์ฉํฉ๋๋ค. ๋ง์ง๋ง 1,000๊ฐ์ ์ดํ ํ ํฐ์ ์ฌ์ฌ์ฉํ์ฌ ์ขํ๋ฅผ ํํํฉ๋๋ค.
ํ์คํฌ ์ ์: ๋ชจ๋ ์๊ฐ ์ธ์ ํ์คํฌ๋ฅผ ์ขํ ์์ธก์ผ๋ก ํตํฉํฉ๋๋ค. ํฌ์ธํ ์ ํ ์ , ๊ฒ์ถ์ ๋ ์ ์ผ๋ก ๋ฐ์ด๋ฉ ๋ฐ์ค, ํด๋ฆฌ๊ณค์ ๋ค ๊ฐ ์ด์์ ์ , ํคํฌ์ธํธ๋ ์ฌ๋ฌ ์๋ฏธ์ ์ ์ ์ถ๋ ฅํฉ๋๋ค.
๋ฐ์ดํฐ ์์ง: ์ธ ๊ฐ์ง ์ ๋ฌธ ๋ฐ์ดํฐ ์์ง์ ๊ตฌ์ถํ์ต๋๋ค.
- Grounding Data Engine: DINO-X๋ก ์ฝ 300๋ง ๊ฐ์ ์ด๋ฏธ์ง์ grounding ๋ ์ด๋ธ ์์ฑ
- Referring Data Engine: Qwen2.5-VL-7B์ Molmo๋ฅผ ์ฌ์ฉํ์ฌ ์ฝ 300๋ง ๊ฐ์ referring ๋ฐ์ดํฐ ์์ฑ
- ๊ธฐํ ์์ง: Pointing(500๋ง), OCR(200๋ง) ๋ฐ์ดํฐ ์์ฑ
๊ณต๊ฐ ๋ฐ์ดํฐ์ 890๋ง ๊ฐ์ ํฉ์ณ ์ด 2,200๋ง ๊ฐ์ ๊ณ ํ์ง ํ์ต ๋ฐ์ดํฐ๋ฅผ ํ๋ณดํ์ต๋๋ค.
ํ์ต ๋ฐฉ๋ฒ: 2๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ์ ์ฑํํฉ๋๋ค.
- 1๋จ๊ณ (SFT): 2,200๋ง ๊ฐ ๋ฐ์ดํฐ๋ก ์ง๋ ํ์ต ๋ฏธ์ธ์กฐ์
- 2๋จ๊ณ (GRPO): ๊ธฐํํ์ ์ธ์ ๋ฆฌ์๋๋ฅผ ์ฌ์ฉํ ๊ฐํํ์ต ํ์ฒ๋ฆฌ
ํ๊ฐ ๋ฉํธ๋ฆญ: ์ ํต์ ์ธ mAP ๋์ Recall, Precision, F1 ์ค์ฝ์ด๋ฅผ ์ฌ์ฉํฉ๋๋ค. IoU ์๊ณ๊ฐ 0.5, 0.95, ํ๊ท (0.5~0.95)์์ ํ๊ฐํฉ๋๋ค.
์ฃผ์ ๊ฒฐ๊ณผ:
- COCO: F1@IoU 0.5์์ 72.0%, DINO-R50(60.6%)๊ณผ Grounding DINO(69.8%)๋ฅผ ๋ฅ๊ฐ
- LVIS: F1@IoU 0.5์์ 64.3%, Grounding DINO(47.7%)๋ฅผ ํฌ๊ฒ ์ด๊ณผ
- Dense200: F1@IoU 0.5์์ 78.4%, ๊ธฐ์กด MLLM๋ค์ด ๋๋ถ๋ถ ์คํจํ ๋ฐ์ง ๊ฐ์ฒด ๊ฒ์ถ์์ ์ฐ์ํ ์ฑ๋ฅ
- Referring: HumanRef์์ F1@mIoU 79.9%, SEED1.5-VL(81.6%)์ ๊ทผ์
- GUI Grounding: ScreenSpot V2์์ 86.8%, 3B ๋ชจ๋ธ ์ค ์ต๊ณ
๋ ผ๋ฌธ ์์ธ
Introduction
๊ฐ์ฒด ๊ฒ์ถ์ ์ด๊ธฐ CNN ๊ธฐ๋ฐ ๊ตฌ์กฐ(YOLO, Faster R-CNN)์์ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๋ชจ๋ธ(DETR, DINO)๋ก ๋ฐ์ ํ์ผ๋ฉฐ, ํ์ํ ๊ฒ์ถ์์ ๊ฐ๋ฐฉํ ๊ฒ์ถ๋ก ์งํํ์ต๋๋ค.
๋ชฉํ: ์์์ ๊ฐ์ฒด์ ๊ฐ๋ ์ ์๋ณํ ์ ์๋ ๋ชจ๋ธ ๊ฐ๋ฐ
๊ธฐ์กด ์ ๊ทผ๋ฒ์ ํ๊ณ:
-
๊ฐ๋ฐฉ ์ดํ ๊ฒ์ถ ๋ชจ๋ธ(Grounding DINO ๋ฑ)
- BERT๋ CLIP ๊ฐ์ ํ ์คํธ ์ธ์ฝ๋ ์ฌ์ฉ
- ์์ ์ธ์ด ์ดํด๋ก ๋ณต์กํ ์๋ฏธ ์ค๋ช ์ฒ๋ฆฌ ์ด๋ ค์
- ์: "๋นจ๊ฐ ์ฌ๊ณผ" ์ ๋ ฅ์๋ ๋ชจ๋ ์ฌ๊ณผ ๊ฒ์ถ
-
๊ธฐ์กด MLLM ๊ธฐ๋ฐ ์ ๊ทผ๋ฒ
- ์ขํ๋ฅผ ์ด์ฐ ํ ํฐ์ผ๋ก ํํํ๊ณ ๋ค์ ํ ํฐ ์์ธก์ผ๋ก ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ฑ
- ์ ํํ ๊ฐ์ฒด ์์น ํ์ ์ด๋ ค์
- ๋ฎ์ ์ฌํ์จ, ์ขํ ๋๋ฆฌํํธ, ์ค๋ณต ์์ธก ๋ฌธ์
์ฑ๋ฅ ๊ฒฉ์ฐจ์ ๋ ๊ฐ์ง ๊ทผ๋ณธ ์์ธ:
1. ์ด์ฐ-์ฐ์ ๋งคํ์ ์ด๋ ค์
MLLMs๋ ์ขํ ์์ธก์ ์ด์ฐ ๋ถ๋ฅ ์์ ์ผ๋ก ๋ค๋ฃน๋๋ค. ์ ๋ ์ขํ ๊ฐ์ ์ง์ ์์ฑํ๊ณ ํฌ๋ก์ค์ํธ๋กํผ ์์ค์ ์ฌ์ฉํฉ๋๋ค.
๋ฌธ์ ์ :
- ํ๊ท ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ฐ์์ ์ด๊ณ ๊ธฐํํ์ ์ผ๋ก ์ธ์ํ๋ ์์ค(L1, GIoU) ์ฌ์ฉ
- ์์ ํฝ์ ์ค์ ๋ ฌ๋ ๋ถ๊ท ํํ๊ฒ ํฐ ํฌ๋ก์ค์ํธ๋กํผ ์์ค ๋ฐ์
-
์: GT๊ฐ (32, 66)์ด๊ณ ์์ธก์ด (34, 69)์ธ ๊ฒฝ์ฐ
- ํ๊ท ์์ค: L1(34, 32) + L1(69, 66) = ๋ฎ์ ๊ฐ
- ๋ถ๋ฅ ์์ค: CE(34, 32) + CE(69, 66) = ๋์ ๊ฐ
2. Teacher Forcing์ ํ๊ณ
SFT(Supervised Fine-tuning)๋ teacher forcing ๋ฐฉ์์ ์ฌ์ฉํฉ๋๋ค.
๋ฌธ์ ์ :
- ํ์ต ์ค์๋ ํญ์ ์ ๋ต ์ ๋์ฌ๋ฅผ ์กฐ๊ฑด์ผ๋ก ํจ
- ๋ชจ๋ธ ์์ฒด์ ๋ถ์์ ํ ์์ธก์ ๋ ธ์ถ๋์ง ์์
- ํ์ต๊ณผ ์ถ๋ก ์ ๋ถ์ผ์น
- ์์จ์ ์์ฑ ์ ๊ตฌ์กฐ ์กฐ์ ์คํจ
- ๊ฒฐ๊ณผ: ์ค๋ณต ์์ธก์ด๋ ๊ฐ์ฒด ๋๋ฝ ๋ฐ์
Rex-Omni์ ํต์ฌ ์ค๊ณ
1. ํ์คํฌ ์ ์
์ขํ ํํ ๋ฐฉ์ ์ ํ:
์ธ ๊ฐ์ง ํจ๋ฌ๋ค์ ๋น๊ต:
- ์ง์ ์ขํ ์์ธก (์ฑํ): ์ขํ๋ฅผ LLM ์ดํ์ ์ด์ฐ ํ ํฐ์ผ๋ก ์ฒ๋ฆฌ
- ๊ฒ์ ๊ธฐ๋ฐ: ์ถ๊ฐ ์ ์ ๋ชจ๋ ์ฌ์ฉ, LLM์ด ํ๋ณด ์์ญ์ ์ธ๋ฑ์ค ์์ธก
- ์ธ๋ถ ๋์ฝ๋: LLM์ด ํน์ ํ ํฐ ์์ธก, ์๋ฒ ๋ฉ์ ์ธ๋ถ ๋์ฝ๋์ ์ ๋ฌ
์ขํ ํ์ ์ ํ:
์ธ ๊ฐ์ง ๋ณํ ๋น๊ต:
- ํน์ ํ ํฐ์ ์ฌ์ฉํ ์๋ ์ขํ (์ฑํ): 0~999๋ก ์์ํ, ๊ฐ ์ขํ๋ฅผ ํน์ ํ ํฐ์ผ๋ก ํํ
- ํน์ ํ ํฐ ์๋ ์๋ ์ขํ: 1,000๊ฐ ๊ตฌ๊ฐ์ผ๋ก ์์ํํ์ง๋ง ์ฌ๋ฌ ์์ ํ ํฐ ์ฌ์ฉ
- ์ ๋ ์ขํ: 1921์ (1, 9, 2, 1)๋ก ํ ํฐํ
์ฑํ ์ด์ :
- ์๋ ์ขํ: 1,000๊ฐ ๋ฒ์ฃผ๋ก ์ ํํ์ฌ ํ์ต ๋ณต์ก๋ ๊ฐ์
- ํน์ ํ ํฐ: ํ ํฐ ํจ์จ์ฑ ํฅ์ (๋ฐ์ค๋น 4ํ ํฐ vs 15ํ ํฐ)
์ ๋ ฅ ํ์:
ํ ์คํธ ํ๋กฌํํธ ์์:
Please detect pigeon, person, truck, snow in this image.
Return the output in box format.
๋น์ฃผ์ผ ํ๋กฌํํธ ์์:
Here are some example boxes specifying the location of several objects
in the image: "object1": ["<12><412><339><568>", "<92><55><179><378>"].
Please detect all objects with the same category and return their
bounding boxes in [x0, y0, x1, y1] format.
์ถ๋ ฅ ํ์:
๊ธฐ๋ณธ ๊ตฌ์กฐ:
<|object_ref_start|>PHRASE<|object_ref_end|><|box_start|>COORDS<|box_end|>
๋ฐ์ด๋ฉ ๋ฐ์ค:
<|object_ref_start|>person<|object_ref_end|><|box_start|>
<12><42><512><612>, <24><66><172><623>, ...<|box_end|>
ํฌ์ธํธ:
<|object_ref_start|>button<|object_ref_end|><|box_start|>
<100><150>,<200><250>, ...<|box_end|>
ํคํฌ์ธํธ:
{"person1": {"box": <0><123><42><256>,
"keypoints": {"left eye": <32><43>, "right eye": <66><55>, ...}}}
๋ชจ๋ธ ์ํคํ ์ฒ:
Qwen2.5-VL-3B-Instruct ๊ธฐ๋ฐ์ผ๋ก ์ต์ํ์ ์์ :
- ์ดํ์ ๋ง์ง๋ง 1,000๊ฐ ํ ํฐ์ 0~999 ์ขํ๋ฅผ ๋ํ๋ด๋ ํน์ ํ ํฐ์ผ๋ก ์ฌ์ฌ์ฉ
- ์ถ๊ฐ ํ๋ผ๋ฏธํฐ ์์
- ๋ค์ดํฐ๋ธ ํด์๋ ViT ์ฌ์ฉ
2. ํ์ต ๋ฐ์ดํฐ
๊ณต๊ฐ ๋ฐ์ดํฐ์ : ์ฝ 890๋ง ์ํ
- Object Detection: APTv2, BDD100K, O365, COCO ๋ฑ
- Referring: RefCOCOg, HumanRef
- OCR: HierText, ICDAR2013/2015, TextOCR ๋ฑ
- GUI Grounding: Os-Atlas, UI-Ref Exp, ShowUI
- Keypointing: COCO-Keypoint, MPII, CrowdPose ๋ฑ
Grounding Data Engine: ์ฝ 300๋ง ์ด๋ฏธ์ง
- ์ด๋ฏธ์ง ์บก์ ๋: Qwen2.5-VL-7B๋ก ์ค๋ช ์์ฑ
- ๊ตฌ๋ฌธ ์ถ์ถ: SpaCy๋ก ๋ช ์ฌ๊ตฌ ์ถ์ถ
-
๊ตฌ๋ฌธ ํํฐ๋ง: ํ์ฉ์ฌ ๋ฑ ์์ฑ ํฌํจ ๊ตฌ๋ฌธ ์ ๊ฑฐ (์: "green lemon" ์ ๊ฑฐ, "lemon" ์ ์ง)
- ์ด์ : ํ์ฌ grounding ๋ชจ๋ธ๋ค์ด ์์ฑ ์ดํด ๋ถ์กฑ
- ๊ตฌ๋ฌธ grounding: DINO-X๋ก ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ฑ
Referring Data Engine: ์ฝ 300๋ง ์ด๋ฏธ์ง
- ํํ ์์ฑ: Qwen2.5-VL-7B๋ก referring expression ์์ฑ
- ํฌ์ธํ : Molmo๋ก ๊ฐ ํํ์ ๊ณต๊ฐ ํฌ์ธํธ ์์ฑ
- ๋ง์คํฌ ์์ฑ: SAM์ผ๋ก ๊ฐ GT ๋ฐ์ค์ ๋ง์คํฌ ์์ฑ
- ํฌ์ธํธ-๋ฐ์ค ์ฐ๊ฒฐ: Molmo์ ํฌ์ธํธ๊ฐ ๋ง์คํฌ ๋ด์ ์์ผ๋ฉด ๋ฐ์ค์ referring expression ์ฐ๊ฒฐ
๊ธฐํ ๋ฐ์ดํฐ ์์ง:
- Pointing: ์ฝ 500๋ง ์ํ. SAM์ผ๋ก ๋ง์คํฌ ์์ฑ, ํ์ ์ฌ๊ฐํ์ ๋๊ฐ์ ๊ต์ ์ ํฌ์ธํธ๋ก ์ฌ์ฉ
- OCR: ์ฝ 200๋ง ์ํ. PaddleOCR๋ก ํ ์คํธ ์์ญ๊ณผ ์ ์ฌ ์ถ์ถ
์ด ๋ฐ์ดํฐ: 2,200๋ง ๊ณ ํ์ง ์ฃผ์ ์ด๋ฏธ์ง
3. ํ์ต ํ์ดํ๋ผ์ธ
1๋จ๊ณ: Supervised Fine-tuning (SFT)
์จ๋ผ์ธ ๋ํ ๋ฐ์ดํฐ ๊ตฌ์ฑ ์ ๋ต:
- ๋ค์ํ ์ง๋ฌธ ํ ํ๋ฆฟ ์ฌ์ฉ
- ์ด๋ฏธ์ง๋น 1~N๊ฐ์ ๊ตฌ๋ฌธ ๋ฌด์์ ์ํ๋ง
- ๋น์ฃผ์ผ ํ๋กฌํํ ํ๋ จ ํฌํจ
ํ์ต ์ค์ :
- 8๋ ธ๋ ร 8 A100 GPU
- ์ฝ 8์ผ ํ์ต
- ๋ชจ๋ ํ๋ผ๋ฏธํฐ ์ ๋ฐ์ดํธ
- ํ์ต๋ฅ : Vision Encoder 2e-6, Projection & LLM 2e-5
- AdamW ์ตํฐ๋ง์ด์
- ์ ๋ ฅ ํฝ์ : 16ร28ร28 ~ 2560ร28ร28
2๋จ๊ณ: GRPO ๊ธฐ๋ฐ ๊ฐํํ์ต ํ์ฒ๋ฆฌ
SFT์ ํ๊ณ:
-
๊ธฐํํ์ ์ด์ฐํ ๋ฌธ์
- ์ขํ๋ฅผ ๋ฒ์ฃผ ํ ํฐ(<0>~<999>)์ผ๋ก ํํ
- GT๊ฐ <33>์ด๊ณ ์์ธก์ด <32>๋ฉด ํฝ์ ์ฐจ์ด๋ ๋ฌด์ํ ์ ์์ง๋ง CE ์์ค์ ์์ ํ ํ๋ฆฐ ๊ฒ์ผ๋ก ์ฒ๋ฆฌ
- GT๊ฐ <0><0><100><100>์ด๊ณ ์์ธก์ด <0><0><100><1000>์ด๋ฉด ํ๋์ ํ ํฐ๋ง ํ๋ ธ์ง๋ง ๋ฐ์ค๋ ์ฌ๊ฐํ๊ฒ ์๋ชป๋จ
-
ํ๋ ์กฐ์ ๊ฒฐํ
- Teacher forcing์ผ๋ก ๋ฐ์ค ์๊ฐ GT์ ๋์ผํ๊ฒ ๊ณ ์
- ๋ชจ๋ธ์ด ์์จ์ ์ผ๋ก ๊ฐ์ฒด ์ ํ์ต ๋ชปํจ
- ์ถ๋ก ์: (1) ์์ธก ๋ฐ์ค ๋ถ์กฑ ๋๋ (2) ๊ณผ๋ํ ์์ธก (๋์ผ/์ฝ๊ฐ ์ด๋ํ ์ขํ ๋ฐ๋ณต)
GRPO ์๋ ๋ฐฉ์:
์ด๋ฏธ์ง์ ์ง๋ฌธ \((I, x)\)๊ฐ ์ฃผ์ด์ง๋ฉด:
- ํ์ฌ ์ ์ฑ \(\pi_\theta\)์์ \(G\)๊ฐ์ ์์ ํ ์๋ต ์ํ๋ง
- ๊ฐ ์ถ๋ ฅ \(o_i\)์ ๋ํด ์ค์นผ๋ผ ๋ฆฌ์๋ \(r_i\) ๊ณ์ฐ
- ๊ทธ๋ฃน ์ ์ฒด์์ ์ ๊ทํํ์ฌ ์๋์ ์ด์ ๊ณ์ฐ:
\[A_i = \frac{r_i - \text{mean}(r_1, \ldots, r_G)}{\text{std}(r_1, \ldots, r_G)}\]
- GRPO ๋ชฉ์ ํจ์:
\[\mathcal{J}_{\text{GRPO}}(\theta) = \frac{1}{G} \sum_{i=1}^{G} \frac{1}{|o_i|} \sum_{t=1}^{|o_i|} [\min(\rho_{i,t} \hat{A}_{i,t}, \text{clip}(\rho_{i,t}, 1-\epsilon, 1+\epsilon) \hat{A}_{i,t}) - \beta D_{KL}[\pi_\theta | \pi_{\text{ref}}]\]
๊ธฐํํ์ ์ธ์ ๋ฆฌ์๋:
-
Box IoU Reward (๊ฒ์ถ, grounding, referring, OCR)
- GT ๋ฐ์ค์ ์์ธก ๋ฐ์ค ๋งค์นญ
- ์นดํ ๊ณ ๋ฆฌ ์ผ์นํ๋ฉด IoU๋ฅผ ๋ฆฌ์๋๋ก, ์๋๋ฉด 0
- Recall, Precision, F1 ๊ณ์ฐ:
\[\text{Recall} = \frac{\sum_{j=1}^{n} r_j}{n}, \quad \text{Precision} = \frac{\sum_{j=1}^{n} r_j}{m}, \quad r_{\text{IoU}} = \frac{2 \cdot \text{Precision} \cdot \text{Recall}}{\text{Precision} + \text{Recall} + \epsilon}\]
-
Point-in-Mask Reward (ํฌ์ธํ ํ์คํฌ)
- SAM์ผ๋ก GT ๋ฐ์ค์ ๋ง์คํฌ ์ถ์ถ
- ์์ธก ํฌ์ธํธ๊ฐ ๋ง์คํฌ ๋ด๋ถ์ด๊ณ ์นดํ ๊ณ ๋ฆฌ ์ผ์นํ๋ฉด 1, ์๋๋ฉด 0
-
Point-in-Box Reward (GUI Grounding)
- ์์ธก ํฌ์ธํธ๊ฐ GT ๋ฐ์ค ๋ด๋ถ๋ฉด 1, ์๋๋ฉด 0
ํ์ต ์ค์ :
- SFT ๋ฐ์ดํฐ์ ์์ 66K ์ํ ์ฌ์ฉ
- 8 A100 GPU, ์ฝ 24์๊ฐ
- Rollout ํฌ๊ธฐ: 8
- KL ํ๋ํฐ \(\beta\): 0.01
- ๋ฐฐ์น ํฌ๊ธฐ: 64
๋ฒค์น๋งํฌ ๊ฒฐ๊ณผ
Common Object Detection (COCO)
ํ๊ฐ ์ค์ :
- 5,000๊ฐ ํ ์คํธ ์ด๋ฏธ์ง, 80๊ฐ ์นดํ ๊ณ ๋ฆฌ
- Rex-Omni-SFT: SFT๋ง ๊ฑฐ์น ๋ชจ๋ธ
- Rex-Omni: SFT + GRPO ๋ชจ๋ธ
- Temperature 0์ผ๋ก ํ๊ฐ
์ฃผ์ ๊ฒฐ๊ณผ:
- F1@IoU 0.5: Rex-Omni 72.0% > DINO-R50 60.6%, Grounding DINO 69.8%
- F1@IoU 0.95: Rex-Omni 15.9%, DAB-DETR 13.4%๋ฅผ ์ฝ๊ฐ ์ํ
- F1@mIoU: Rex-Omni 52.9% > Grounding DINO 48.1%
์๋ฏธ:
- MLLM ๊ธฐ๋ฐ ๊ฒ์ถ์ด ์ ๋ก์ท์ผ๋ก ํ๊ท ๊ธฐ๋ฐ ๋ชจ๋ธ ๋ฅ๊ฐ ๊ฐ๋ฅ
- IoU 0.95์์๋ ํ๊ท ๋ชจ๋ธ์ ์ฝ๊ฐ ๋ค์ฒ์ง (์ ๋ฐํ ๋ฐ์ค ์์น์์๋ ํ๊ณ)
-
GRPO ํ์ฒ๋ฆฌ๋ก ํฐ ์ฑ๋ฅ ํฅ์ (SFT 68.2% โ GRPO 72.0%)
Long-tailed Object Detection (LVIS)
๋ฒค์น๋งํฌ: 1,203๊ฐ ์นดํ ๊ณ ๋ฆฌ, 19,626๊ฐ ํ ์คํธ ์ด๋ฏธ์ง
์ฃผ์ ๊ฒฐ๊ณผ:
- F1@IoU 0.5: Rex-Omni 64.3% > Grounding DINO 47.7%
- F1@mIoU: Rex-Omni 46.9% > Grounding DINO 31.9%
์๋ฏธ:
- MLLM์ ๊ฐ๋ ฅํ ์ธ์ด ์ดํด๊ฐ ์ ๋น๋ ์นดํ ๊ณ ๋ฆฌ์์ ์ฐ์ํ ์ผ๋ฐํ
-
mIoU์์ ์ต๊ณ ์ฑ๋ฅ ๋ฌ์ฑ (์ ๋ฐํ ๋ฐ์ค ์์น)
Dense and Tiny Object Detection
๋ฒค์น๋งํฌ:
- VisDrone: 1,610๊ฐ ํญ๊ณต ๊ตํต ์ด๋ฏธ์ง, ํ๊ท ๋ฐ์ค ํฌ๊ธฐ 30.7ร32.4
- Dense200: 200๊ฐ ์ด๋ฏธ์ง, ํ๊ท 91.2๊ฐ ๋ฐ์ค/์ด๋ฏธ์ง, ํ๊ท ํฌ๊ธฐ 66.8ร64.5
์ฃผ์ ๊ฒฐ๊ณผ:
- Dense200: Rex-Omni F1@0.5 78.4% >> ๋๋ถ๋ถ MLLM < 30%
- VisDrone: Rex-Omni F1@0.5 61.6% >> ๋๋ถ๋ถ MLLM < 40%
์คํจ ๋ชจ๋ ๋ถ์:
- Large-box prediction: ์ฌ๋ฌ ์ธ์ ๊ฐ์ฒด๋ฅผ ํ๋์ ํฐ ๋ฐ์ค๋ก ์ปค๋ฒ
- Structured duplicate predictions: ์ต์ ์คํ์ ์ผ๋ก ์ขํ ๋ฐ๋ณต
GRPO์ ํจ๊ณผ:
- SFT-only ๋ชจ๋ธ์ ์ด๋ฌํ ๋ฌธ์ ์ฌ๊ฐ
-
GRPO ํ์ฒ๋ฆฌ๋ก ์ค๋ณต ์์ธก ๊ฑฐ์ ์ฌ๋ผ์ง
Referring Object Detection
๋ฒค์น๋งํฌ:
- RefCOCOg: 4,889 val, 9,577 test expressions
- HumanRef: 5,000๊ฐ ์ด๋ฏธ์ง, 6๊ฐ ์๋ธ์ (์์ฑ, ์์น, ์ํธ์์ฉ, ์ถ๋ก , ์ ๋ช ์ธ)
์ฃผ์ ๊ฒฐ๊ณผ:
- HumanRef: Rex-Omni F1@mIoU 79.9%, SEED1.5-VL 81.6%์ ๊ทผ์
- RefCOCOg val: Rex-Omni F1@0.5 86.6% > Grounding DINO 52.9%
- RefCOCOg test: Rex-Omni F1@0.5 86.8% > Grounding DINO 53.8%
Visual Prompting
ํ๊ฐ:
- FSC147: 1,190๊ฐ ์ด๋ฏธ์ง, ๊ฐ์ฒด ์นด์ดํ ๋ฐ์ดํฐ์
- COCO, LVIS, Dense200: ๊ฐ ์นดํ ๊ณ ๋ฆฌ๋น ํ๋์ ๋ฐ์ค๋ฅผ ๋น์ฃผ์ผ ํ๋กฌํํธ๋ก ์ํ๋ง
์ฃผ์ ๊ฒฐ๊ณผ:
- ์ ํต ์ ๋ฌธ๊ฐ ๋ชจ๋ธ T-Rex2์๋ ๋ฏธ์น์ง ๋ชปํ์ง๋ง ๊ฐ๋ ฅํ ์ฑ๋ฅ
- ํนํ ๋ฐ์ง ์ฅ๋ฉด๊ณผ ๋กฑํ ์ผ ์๋๋ฆฌ์ค์์ ์ฐ์
Object Pointing
ํ๊ฐ: COCO, LVIS, Dense200, VisDrone, RefCOCOg, HumanRef์์ ํฌ์ธํธ ์์ธก
์ฃผ์ ๊ฒฐ๊ณผ:
- COCO: Rex-Omni 80.5% > Molmo-7B 77.3%, SEED1.5-VL 78.2%
- LVIS: Rex-Omni 70.8%, SEED1.5-VL 70.7%
- Dense200: Rex-Omni 82.5% >> SEED1.5-VL 72.1%
- HumanRef: Rex-Omni 83.8% > SEED1.5-VL 83.1%
๋ชจ๋ ๋ฒค์น๋งํฌ์์ ์ต๊ณ F1 ์ค์ฝ์ด ๋ฌ์ฑ
GUI Grounding
๋ฒค์น๋งํฌ:
- ScreenSpot-V2: ๋ชจ๋ฐ์ผ, ๋ฐ์คํฌํฑ, ์น ์๋๋ฆฌ์ค, 1,272๊ฐ ์ด๋ฏธ์ง
- ScreenSpot-Pro: ์ด๊ณ ํด์๋ ์ธํฐํ์ด์ค, 1,581๊ฐ ์ด๋ฏธ์ง
์ฃผ์ ๊ฒฐ๊ณผ:
- ScreenSpot-V2 ํ๊ท : Rex-Omni 86.8%, 3B ๋ชจ๋ธ ์ค ์ต๊ณ
- ScreenSpot-Pro ํ๊ท : Rex-Omni 55.9%, 3B ๋ชจ๋ธ ์ค ์ต๊ณ
๊ธฐํ ํ์คํฌ
Layout Grounding (DocLayNet, M6Doc):
- Rex-Omni๊ฐ ๋ค๋ฅธ MLLM ํฌ๊ฒ ๋ฅ๊ฐ
- Closed-set ๋ชจ๋ธ๊ณผ๋ ๊ฒฉ์ฐจ ์์ง๋ง ๊ฐ๋ฐฉํ ์ผ๋ฐํ ๋ฅ๋ ฅ์ผ๋ก ์ฅ์
OCR (HierText, ICDAR2015, TotalText, SROIE):
- BBOX ํ์: PaddleOCRv5์ ๋น์ทํ๊ฑฐ๋ ์ฐ์
- POLY ํ์: ICDAR2015์์ ์ต๊ณ ์ฑ๋ฅ
Spatial Pointing (RefSpatial-Bench):
- Location: Rex-Omni 54.0% > Molmo-72B 45.8%
- Placement: Rex-Omni 50.0% > Molmo-72B 14.7%
- Unseen: Rex-Omni 36.4% > Molmo-72B 21.2%
Keypoint (COCO, AP10K):
- AP10K์์ Rex-Omni 30.1% >> X-Pose 17.0%
- ํฌ๋ก์ค ๋๋ฉ์ธ ์ผ๋ฐํ ์ฐ์
์ฌ์ธต ๋ถ์
GRPO๊ฐ ์๋ํ๋ ์ด์
1. ํ์ต ์ญํ
SFT ๋จ๊ณ: ๊พธ์คํ๊ณ ์ ์ง์ ์ธ ๊ฐ์ GRPO ๋จ๊ณ: ์ ์ ๋จ๊ณ๋ก ๊ธ๊ฒฉํ ์ฑ๋ฅ ํฅ์
ํด์: SFT ๋ชจ๋ธ์ ์ด๋ฏธ ๊ฐ๋ ฅํ ์ ์ฌ ๋ฅ๋ ฅ์ ๋ณด์ ํ์ง๋ง ์ถฉ๋ถํ ํ์ฉ๋์ง ์์. GRPO๊ฐ ํ๋ ์ธ์ ๋ฆฌ์๋์ ์ํ์ค ๋ ๋ฒจ ํผ๋๋ฐฑ์ผ๋ก ์ด๋ฅผ ํด์ .
2. ํ๋ ๊ต์
์ค๋ณต ์์ธก ์ ๊ฑฐ ์คํ:
- SFT: COCO +1.23%, LVIS +1.38%, VisDrone +15.3% ๊ฐ์
- GRPO: COCO +0.08%, VisDrone +0.1% ๊ฐ์
โ GRPO๊ฐ ์ค๋ณต ์์ธก์ ํจ๊ณผ์ ์ผ๋ก ์ต์
Large-box ์์ธก ์ ๊ฑฐ ์คํ (Dense200):
- SFT: 20.5%๊ฐ large box, ์ ๊ฑฐ ์ F1@mIoU 44.9โ56.7
- GRPO: 3.5%๋ง large box, ์ ๊ฑฐ ์ F1@mIoU 58.3โ60.0
โ GRPO๊ฐ ๊ณผ๋ํ๊ฒ ํฐ ๋ฐ์ค ์์ธก ์ต์
3. ์ขํ ์ ๋ฐ๋ ๊ฐ์ ?
์ ์ด ์คํ: ๋ ๋ชจ๋ธ์ด ๋ชจ๋ GT ๋งค์นญ์ ์ฑ๊ณตํ ๊ฒฝ์ฐ๋ง ๋น๊ต
- COCO: SFT 63.0% โ GRPO 63.5% (๋ฏธ๋ฏธํ ํฅ์)
- LVIS: SFT 56.6% โ GRPO 56.9% (๋ฏธ๋ฏธํ ํฅ์)
โ GRPO์ ์ฃผ์ ์ด์ ์ ์ขํ ์ ๋ฐ๋ ํฅ์์ด ์๋๋ผ ํ๋ ๊ฒฐํจ ๊ต์
4. ์ฌ๋ฐ๋ฅธ ์์ธก์ ๊ฐ๋ฅ์ฑ ํฅ์
๊ณ ์จ ์ํ๋ง ์คํ:
- SFT-Sampling-Best: 8ํ ์ ์ฒด ๋ฐ์ดํฐ์ ํ ์คํธ ์ค ์ต๊ณ F1
- SFT-Sampling-Vote: ๊ฐ ์ํ๋ง๋ค 8๊ฐ ์ถ๋ ฅ ์ค ์ต๊ณ ์ ํ
๊ฒฐ๊ณผ:
- COCO: SFT-Sampling-Vote 72.6% > GRPO 72.0% (SFT๊ฐ ์ ์ฌ ๋ฅ๋ ฅ ๋ณด์ )
- LVIS/Dense200: SFT-Sampling์ GRPO์ ๋ฏธ์น์ง ๋ชปํจ
โ GRPO๋ ๊ฐ๋จํ ๋ฐ์ดํฐ์ ์์๋ ์ํ๋ง ์ผ๊ด์ฑ ํฅ์, ๋ณต์กํ ํ์คํฌ์์๋ ๋ณธ์ง์ ์ผ๋ก ๋ ์ ํํ ์์ธก ๊ฐ๋ฅ
์ถ๋ก ํจ์จ์ฑ๊ณผ ์๋
ํ ํฐํ ํจ์จ์ฑ:
- COCO: Rex-Omni 7.6 tokens/box vs SEED1.5-VL 148.8 tokens/box
- Dense200: Rex-Omni 5.1 tokens/box vs SEED1.5-VL 74.5 tokens/box
์ถ๋ก ์๋ (A100 GPU, vLLM, BF16):
- 0-29 ๋ฐ์ค: < 2์ด
- 410-419 ๋ฐ์ค: > 16์ด
์๋๋ ์์ธก ๊ฐ์ฒด ์์ ์ ํ ๋น๋ก. ํ์ฌ MLLM ๊ธฐ๋ฐ ๊ฒ์ถ๊ธฐ๋ ์ ํต ์ต์ ํ๋ ๊ฒ์ถ๊ธฐ๋ณด๋ค ๋๋ฆฌ์ง๋ง, ์์ํ๋ ์ฆ๋ฅ๋ก ๊ฐ์ ๊ฐ๋ฅ.
๊ด๋ จ ์ฐ๊ตฌ
Regression-based Object Detection
CNN ๊ธฐ๋ฐ ์ด๊ธฐ ๋ชจ๋ธ(YOLO, SSD, Faster R-CNN)์์ ์ต์ปค ํ๋ฆฌ ์ ๊ทผ๋ฒ(CornerNet, CenterNet, FCOS)์ ๊ฑฐ์ณ ํธ๋์คํฌ๋จธ ๊ธฐ๋ฐ ๊ฒ์ถ๊ธฐ(DETR, Deformable DETR, DINO)๋ก ์งํํ์ต๋๋ค.
์ง์์ ๊ฐ์ ์ ์ํ ํ์ ๋ค:
- ์ํคํ ์ฒ: FPN
- ์์ค ํจ์: Focal Loss
- ๋ฐ์ดํฐ ์ฆ๊ฐ: MixUp, Mosaic
Open-set Object Detection
ํ ์คํธ ํ๋กฌํํธ๋ฅผ ์ฌ์ฉํ ๊ฐ๋ฐฉ ์ดํ ๊ฒ์ถ:
- GLIP: ๊ตฌ๋ฌธ grounding ๋ฐ์ดํฐ๋ก ํ์ต
- Grounding DINO: DINO์ GLIP ๊ฒฐํฉ
- DINO-X: ํ์ฅ๋ ๊ฐ๋ฐฉ ์ดํ ๊ฒ์ถ
MLLM-based Object Detection
์ง์ ์ขํ ์์ธก:
- Pix2Seq: ์๋ ์ขํ๋ฅผ ํน์ ํ ํฐ์ผ๋ก
- GPT4RoI: ROI ํน์ง ์ฌ์ฉ
- Shikra, Ferret, Qwen2.5-VL: ๋ค์ํ ์ขํ ํํ
๊ฒ์ ๊ธฐ๋ฐ:
- KOSMOS-2: ๊ฐ์ฒด๋ฅผ ํ ์คํธ๋ก ์ฐ๊ฒฐ
- Osprey: ๋ง์คํฌ ๊ธฐ๋ฐ ์ ์
- VistaLLM: ์์ญ ํน์ง๊ณผ LLM ์ ๋ ฌ
์ธ๋ถ ๋์ฝ๋:
- LLaVA-Grounding: ๋ฐ์ด๋ฉ ๋ฐ์ค ์์ฑ ๋ชจ๋
- VisionLLM: ๋ค์ํ ๋น์ ์ค์ฌ ์์
- PSALM: ์ธ๊ทธ๋ฉํ ์ด์ ๊ธฐ๋ฐ ๊ฒ์ถ
๊ฒฐ๋ก
Rex-Omni๋ MLLM ๊ธฐ๋ฐ ๊ฐ์ฒด ๊ฒ์ถ์ ๋ฌธ์ ๋ฅผ ์ฒด๊ณ์ ์ผ๋ก ํด๊ฒฐํฉ๋๋ค.
ํต์ฌ ๊ธฐ์ฌ:
- ํจ์จ์ ์ธ ์ขํ ํ ํฐํ: ํน์ ํ ํฐ์ผ๋ก ํ์ต ๋ณต์ก๋ ๊ฐ์ ๋ฐ ํจ์จ์ฑ ํฅ์
- ๋๊ท๋ชจ ๋ฐ์ดํฐ ์์ฑ: ๋ง์ถคํ ์์ง์ผ๋ก 2,200๋ง ๊ฐ ๊ณ ํ์ง ๋ฐ์ดํฐ ํ๋ณด
- 2๋จ๊ณ ํ์ต ํ์ดํ๋ผ์ธ: SFT + GRPO๋ก ์ ํํ ์์น ํ์ ๊ณผ ๊น์ ์ธ์ด ์ดํด ๋ฌ์ฑ
- ํ๋ ๊ต์ : GRPO๊ฐ SFT ์ ๋ ๊ฒฐํจ(์ค๋ณต ์์ธก, large-box ์์ธก) ํจ๊ณผ์ ์ผ๋ก ๊ต์
์คํ ๊ฒ์ฆ:
- ๋ค์ํ ์๊ฐ ์ธ์ ํ์คํฌ์์ ์ต๊ณ ๋๋ ๊ฒฝ์๋ ฅ ์๋ ์ ๋ก์ท ์ฑ๋ฅ
- GRPO์ ํ์์ฑ ์ ์ฆ
ํ๊ณ์ ํฅํ ๊ณผ์ :
- ์ถ๋ก ์๋: ๋ชจ๋ธ ๊ฐ์ํ ๋ฐ ๊ณ ๊ธ ๋ฆฌ์๋ ๊ธฐ๋ฐ ์ํ๋ง ํ์
- MLLM์ ํ๋ ๋ฐ ๊ธฐํํ์ ํ๊ณ ๊ทน๋ณต ๊ฐ๋ฅ์ฑ ์ ์ฆ
Rex-Omni๋ ๋ค์ฌ๋ค๋ฅํ๊ณ ์ธ์ด ์ธ์ ๋ฅ๋ ฅ์ ๊ฐ์ถ ์ฐจ์ธ๋ ์ธ์ ์์คํ ์ผ๋ก ๊ฐ๋ ์ค์ํ ๋จ๊ณ์ ๋๋ค.