Real Deep Research for AI, Robotics and Beyond
RDR์ embedding ๊ธฐ๋ฐ์ ์๋ํ๋ ๋ถ์ ํ์ดํ๋ผ์ธ์ผ๋ก, ๋ ผ๋ฌธ ์์ง, ์ฝํ ์ธ ๋ถ์, embedding ๊ธฐ๋ฐ ํด๋ฌ์คํฐ๋ง, ์ถ์ธ ๋ถ์์ ํตํด ์ฐ๊ตฌ ๋ถ์ผ๋ฅผ ์ข ํฉ์ ์ผ๋ก ํ์ ํฉ๋๋ค. Foundation Models๊ณผ Robotics๋ฅผ ์ค์ฌ์ผ๋ก ์ ์ฉ๋์์ผ๋ฉฐ, Computer Vision, NLP, Machine Learning ๋ฑ ๋ค์ํ ๋ถ์ผ๋ก ํ์ฅ๋์์ต๋๋ค.
X. Zou, J. Ye, H. Zhang, X. Xiang, M. Ding, Z. Yang, Y. J. Lee, Z. Tu, S. Liu, and X. Wang, "Real Deep Research for AI, Robotics and Beyond", arXiv preprint arXiv:2510.20809, 2025.
์์ฝ
RDR์ ๋๊ท๋ชจ ๋ ผ๋ฌธ ๋ฐ์ดํฐ๋ฅผ ์๋์ผ๋ก ๋ถ์ํ์ฌ ์ฐ๊ตฌ ํธ๋ ๋๋ฅผ ํ์ ํ๊ณ ํ์ ๊ฐ ์ฐ๊ตฌ ๊ธฐํ๋ฅผ ๋ฐ๊ฒฌํ๋ ํ์ดํ๋ผ์ธ์ ๋๋ค. ์ฃผ์ ๊ตฌ์ฑ์์๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
์ํคํ ์ฒ: 4๋จ๊ณ ํ์ดํ๋ผ์ธ์ผ๋ก ๊ตฌ์ฑ๋ฉ๋๋ค - (1) ๋ฐ์ดํฐ ์ค๋น ๋ฐ ํํฐ๋ง, (2) LLM ๊ธฐ๋ฐ ์ฝํ ์ธ ์ถ๋ก , (3) ์๋ฒ ๋ฉ ๊ณต๊ฐ์ผ๋ก์ ํฌ์, (4) ์๋ฒ ๋ฉ ๋ถ์ ๋ฐ ์๊ฐํ
์ฌ์ฉ ๋ชจ๋ธ:
- ๊ฒฝ๋ ์์ ์ฉ Doubao ์ธ์ด ๋ชจ๋ธ
- ๋ณต์กํ ์ถ๋ก ์์ ์ฉ o3 ๋ชจ๋ธ
- ํ ์คํธ ์๋ฒ ๋ฉ์ฉ nvidia/NV-Embed-v2
๋ฐ์ดํฐ์ : 2021-2025๋ ์ฃผ์ ํํ(CVPR, ECCV, ICCV, CoRL, RSS, ICRA, NeurIPS, ICLR, ACL ๋ฑ)์์ ์์งํ 37,569ํธ์ ๋ ผ๋ฌธ. ํํฐ๋ง ํ foundation model ๊ด๋ จ 4,424ํธ, ๋ก๋ด๊ณตํ ๊ด๋ จ 1,186ํธ ์ถ์ถ
ํ๊ฐ ๋งคํธ๋ฆญ:
- ์ค๋ฌธ ํ์ง: ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ๋ค์ ์๋ณ ๋น๊ต๋ฅผ ํตํ ์น๋ฅ (winning rate)
- ์๋ฒ ๋ฉ ํ์ง: AG News ๋ฐ 20 News Groups ๋ฐ์ดํฐ์ ์์ ACC, NMI, ARI ์งํ๋ก ํ๊ฐ
์ฃผ์ ๊ฒฐ๊ณผ:
- RDR์ GPT-4 ๋ฐ Gemini ๊ธฐ๋ฐ ์์ฉ ๋๊ตฌ ๋๋น ํ๊ท ์์ 1.30์ผ๋ก ์ต๊ณ ์ฑ๋ฅ ๋ฌ์ฑ
- AG News์์ 84.86% ์ ํ๋, 20 News Groups์์ 52.91% ์ ํ๋๋ก ๋น์ง๋ ํด๋ฌ์คํฐ๋ง ๋ฒค์น๋งํฌ ์ต๊ณ ์ฑ๋ฅ
- ๋ก๋ด๊ณตํ์์ teleoperation, dexterous manipulation, low-cost open-source robotics๊ฐ ์์น ํธ๋ ๋๋ก ์๋ณ๋จ
๋ ผ๋ฌธ ์์ธ
1. Introduction
์ฐ๊ตฌ์๋ค์ ์ ํ๋ ์๊ฐ๊ณผ ์ฃผ์๋ ฅ์ผ๋ก ํญ๋ฐ์ ์ผ๋ก ์ฆ๊ฐํ๋ ๋ ผ๋ฌธ์ ๋ฐ๋ผ์ก์์ผ ํ๋ ๊ณผ์ ์ ์ง๋ฉดํด ์์ต๋๋ค. ๊ธฐ์กด์ ์ ๋ฌธ๊ฐ๊ฐ ์์ฑํ ์๋ฒ ์ด ๋ ผ๋ฌธ์ ๊น์ด ์์ง๋ง ๋ง์ ์์์ ์ด ํ์ํ๊ณ ๋น ๋ฅธ ์ฐ๊ตฌ ์งํ์ ์ ์ํ๊ธฐ ์ด๋ ต์ต๋๋ค. ๋ฐ๋ฉด ์๋ํ๋ ์ ๊ทผ๋ฒ์ ๋๋ฉ์ธ ํนํ ์ง์๊ณผ ์ ๋ฌธ๊ฐ ํต์ฐฐ๋ ฅ์ด ๋ถ์กฑํ ๊ฒฝ์ฐ๊ฐ ๋ง์ต๋๋ค.
RDR์ ์ด ๋ ๊ฐ์ง ์ ๊ทผ๋ฒ์ ๊ฐ๊ทน์ ๋ฉ์ฐ๊ณ ์ ํฉ๋๋ค. ์ฒด๊ณ์ ์ธ ์๋ํ์ ์๋ฏธ ์๋ ์ ๋ฌธ๊ฐ ๊ธฐ๋ฐ ๋ถ์์ ๊ฒฐํฉํ์ฌ, ์ต๊ณ ์์ค์ ์ฐ๊ตฌ์๋ค์ด ์๋ก์ด ํธ๋ ๋๋ฅผ ์ถ์ ํ๊ณ ๋ฏ์ ์ฐ๊ตฌ ์์ญ์ ์ง์ ํ๋ ๊ฒ์ ์ง์ํฉ๋๋ค. ํนํ ํ์ ๊ฐ ํ์์ ์ด์ ์ ๋ง์ถฐ, ์ฐ๊ตฌ์๋ค์ด ๋ถ์ผ ๊ฐ ๊ต์ฐจ์ ์์ ์ ๋งํ ํ๋ ฅ ๊ธฐํ๋ฅผ ์ฐพ์ ์ ์๋๋ก ๋์ต๋๋ค.
2. Related Work
Foundation Models ์๋ฒ ์ด: ์ต๊ทผ ์ฌ๋ฌ ์๋ฒ ์ด ์ฐ๊ตฌ๋ค์ด ๋ค์ํ ๋๋ฉ์ธ์์ foundation model์ ์ฒด๊ณ์ ์ผ๋ก ๋ฆฌ๋ทฐํ์ต๋๋ค. ํ์ง๋ง ์ด๋ฌํ ์๋ฒ ์ด๋ค์ ๋ฐฉ๋ํ ์์์ ์ด ํ์ํ๊ณ , foundation model์ ๋น ๋ฅธ ๋ฐ์ ์ผ๋ก ์ธํด ๋น ๋ฅด๊ฒ ๊ตฌ์์ด ๋ฉ๋๋ค. RDR์ ๋ชฉํ๋ ์์ฒ ํธ์ ๋ ผ๋ฌธ์ ์๋์ผ๋ก ๋ถ์ํ๊ณ ๋ค์ํ ์ฐ๊ตฌ ์์ญ์ ๋ํ ์ต์ ์ดํด๋ฅผ ์ ๊ณตํ๋ ํ๋ ์์ํฌ๋ฅผ ์ค๊ณํ๋ ๊ฒ์ ๋๋ค.
๊ณผํ ์ฐ๊ตฌ์์์ LLM: ๋๊ท๋ชจ ์ธ์ด ๋ชจ๋ธ์ ์์ด๋์ด ์์ฑ, ์ฝ๋ฉ, ๋ ผ๋ฌธ ๋ฆฌ๋ทฐ, ์คํ ๊ฒฐ๊ณผ ์์ธก ๋ฑ ๊ณผํ ์ฐ๊ตฌ์ ๋ค์ํ ๋จ๊ณ์ ์ ์ฉ๋์ด ์์ต๋๋ค. ๋ฌธํ ๋ถ์์ ์ค์ฌ์ ์ธ ์ญํ ์ ํ๋ฉฐ, ๋ ผ๋ฌธ ๊ฒ์, ํด๋ฌ์คํฐ๋ง, ํ ํฝ ํธ๋ ๋ ๋ถ์ ๋ฑ์ ์์ ์ ํฌํจํฉ๋๋ค. SciLitLLM์ ์ง๋ ํ์ต์ผ๋ก ๊ณผํ ๋ฌธํ ์ดํด๋ฅผ ์ํ ํนํ LLM์ ๊ตฌ์ถํ๊ณ , PaSa๋ ๊ฐํ ํ์ต์ผ๋ก ๋ณต์กํ ํ์ ์ง์๋ฅผ ๋ตํ ์ ์๋ LLM ์์ด์ ํธ๋ฅผ ํ๋ จ์ํต๋๋ค. ๊ธฐ์กด ์ฐ๊ตฌ๊ฐ ์ฃผ๋ก ์ฐ๊ตฌ ์ง๋ฌธ ๋ต๋ณ์ ์ง์คํ ๋ฐ๋ฉด, RDR์ ์ ์ฒด ์ฐ๊ตฌ ์์ญ์ ๋ํ ๋ ๋๊ณ ์ฒด๊ณ์ ์ธ ์ดํด๋ฅผ ๋ชฉํ๋ก ํฉ๋๋ค.
์ง์ ๊ตฌ์กฐํ์ ๋ฐ๊ฒฌ: LLM์ด ๋ฌธ์๋ฅผ ํด๋ฌ์คํฐ๋งํ๊ณ ์ ์ฌ ํ ํฝ์ ๋ฐ๊ฒฌํ ์ ์๋ค๋ ๊ฒ์ด ์ ์ฆ๋์์ต๋๋ค. Knowledge Navigator๋ LLM๊ณผ ํด๋ฌ์คํฐ๋ง ๊ธฐ๋ฒ์ ๊ฒฐํฉํ์ฌ ๊ณผํ ๋ฌธํ ๊ฒ์์ ์ํ ๋ฌธ์๋ฅผ ๊ตฌ์กฐํํ๊ณ , SciTopic์ ๋ฌธ์ ์๋ฒ ๋ฉ์ ์ ์ ํ์ฌ ํ ํฝ ๊ตฌ์กฐ ์๋ณ์์ LLM์ ํฅ์์ํต๋๋ค. RDR์ LLM์ ์ถ๋ก ๋ฅ๋ ฅ๊ณผ foundation model์ ์๋ฒ ๋ฉ ํํ์ ํ์ฉํ์ฌ ๋ ์ ํํ๊ณ ์๋ฏธ๋ก ์ ์ธ ์ง์ ๊ตฌ์กฐํ๋ฅผ ์ ๊ณตํ๋ ์๋ก์ด ์ ๊ทผ๋ฒ์ ์๊ฐํฉ๋๋ค.
3. Method
3.1. Data Preparation
Selection: foundation model๊ณผ ๋ก๋ด๊ณตํ์ ํตํฉ์ ์ฒด๊ณ์ ์ผ๋ก ์กฐ์ฌํ๊ธฐ ์ํด, ํ๊ณ์ ์ฐ์ ๊ณ์ ์ต์ ํธ๋ ๋์ ์ฐ๊ตฌ ์ฐ์ ์์์ ์ด์ ์ ๋ง์ถฅ๋๋ค. ์ต์ ๊ฐ๋ฐ ์ฌํญ์ ํฌ์ฐฉํ๊ธฐ ์ํด ์ปดํจํฐ ๋น์ , ๋ก๋ด๊ณตํ, ๋จธ์ ๋ฌ๋์ ์ฃผ์ ํํ์์ ์ต๊ทผ ์ถํ๋ฌผ์ ๊ฒํ ํฉ๋๋ค. ๊ตฌ์ฒด์ ์ผ๋ก ์น ํฌ๋กค๋ง์ ํตํด ์ฃผ์ ํํ(CVPR, ECCV, ICCV, CoRL, RSS, ICRA, NeurIPS ๋ฑ)์ ์ฐ์ ์ฐ๊ตฌ ํ๋ซํผ(Nvidia, Meta, OpenAI ๋ฑ)์์ ๋ ผ๋ฌธ์ ์์งํฉ๋๋ค.
Area Filtering: ์์ง๋ ๋ ผ๋ฌธ ์งํฉ \(P\)๋ ์ผ๋ฐ์ ์ผ๋ก ๋น์ , ์ธ์ด, ๋จธ์ ๋ฌ๋, ๋ก๋ด๊ณตํ์ ๋์ ์์ญ์ ์ํ์ง๋ง, ๊ฐ ๋ ผ๋ฌธ์ด foundation model(\(D_f\))๊ณผ ๋ก๋ด๊ณตํ(\(D_r\))์ด๋ผ๋ ํน์ ์ด์ ๊ณผ ์ง์ ์ ์ผ๋ก ์ผ์นํ๋ค๊ณ ๋ณด์ฅํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํด๊ฒฐํ๊ธฐ ์ํด ํจ์จ์ ์ธ LLM๊ณผ ํ๋ ์ด์ ๋ ํ๋กฌํํธ๋ฅผ ํ์ฉํ๋ Area Filtering์ ๋์ ํฉ๋๋ค.
ํํฐ๋ง ํ ๊ฒฐ๊ณผ ๋ ผ๋ฌธ ์งํฉ \(P'\)๋ foundation model ๋๋ฉ์ธ, ๋ก๋ด๊ณตํ ๋๋ฉ์ธ, ๋๋ ๋ ๋ค์ ์ํ๊ฒ ๋ฉ๋๋ค: \(P' = {p | p \in D_f \cup D_r}\)
3.2. Content Reasoning
ํํฐ๋ง๋ ๋ ผ๋ฌธ \(P'\)์ ๋ํด ์ฌ์ธต ๋ถ์์ด ํ์ํฉ๋๋ค. foundation model๊ณผ ๋ก๋ด๊ณตํ์ ๋๋ฉ์ธ ์ ๋ฌธ๊ฐ๋ค์ ์ง๋๋ก, ํ๋ฆฝ๋ ๋๋ฉ์ธ ๊ตฌ์กฐ, ๋ ์ค๋ฅด๋ ํธ๋ ๋, ์งํํ๋ ์ง์๊ณผ ์ผ์นํ๋ ๊ด์ (perspectives)์ ์ ์ํฉ๋๋ค.
Foundation Model: foundation model์ ๊ฐ๋ฐ์ 5๊ฐ์ง ๊ธฐ๋ณธ ๊ด์ ์ผ๋ก ์ฒด๊ณ์ ์ผ๋ก ๋ถ์๋ฉ๋๋ค:
- Input (I): ์์ ๋ฐ์ดํฐ์ ํ ํฐํ ์ ์ฐจ (์ด๋ฏธ์ง, ๋น๋์ค, ์ค๋์ค, LiDAR ๋ฑ)
- Modeling (M): ์ ๋ ฅ์์ ์ค์ํ ์ง์์ ์ถ์ถํ๊ณ , ์ถ๋ก ํ๋ฉฐ, ์ถ๋ ฅ ๊ณต๊ฐ์ผ๋ก ๋์ฝ๋ฉ
- Output (O): ์ ๋ ฅ๊ณผ ๋ชจ๋ธ๋ง์ ๋ฐ๋ผ ๋์ฝ๋ฉ ๊ณต๊ฐ ๊ฒฐ์
- Objective (W): ํ์ต ๋ชฉํ๋ก ๋ชจ๋ธ ๋ถํฌ๋ฅผ ์ ์ฝ
- Recipe (R): ๋ชจ๋ธ ๊ฐ์ค์น๋ฅผ ์กฐ์ ํ๋ ๋ฐฉ๋ฒ์ ๋ํ ์ฟก๋ถ
ํ์์ ์ผ๋ก: \(D^{P'}_{f} = \bigcup_{p \in P'} F(p)\), where \(F(p) = \text{LLM}(p | I, M, O, W, R)\)
Robotics: ๋ก๋ด๊ณตํ ์ฐ๊ตฌ์ ๊ฒฝ์ฐ, ํต์ฌ ๊ด์ ์ ํ๋์จ์ด์ ์ค์ ํ๊ฒฝ๊ณผ์ ์ํธ์์ฉ์ ๊ฐ์กฐํ๋ ๋ฐฉํฅ์ผ๋ก ์ ํ๋ฉ๋๋ค:
- Input Sensor (S): ๋ฌผ๋ฆฌ๋์ด๋ ํ๊ฒฝ ์กฐ๊ฑด์ ์ธก์ ํ๋ ํ๋์จ์ด ์ฅ์น
- Physical Body (B): ํ๊ฒฝ๊ณผ์ ๋ฌผ๋ฆฌ์ ์ํธ์์ฉ์ ๊ฐ๋ฅํ๊ฒ ํ๋ ๊ธฐ๊ณ ๊ตฌ์กฐ
- Action Space (A): ์ฃผ์ด์ง ์ปจํ ์คํธ์์ ๋ก๋ด์ด ์ ํํ ์ ์๋ ๋ชจ๋ ํ์ฉ ๊ฐ๋ฅํ ํ๋
- Joint Output (J): ์คํ๋ ๋ชจํฐ ๋ช ๋ น์ผ๋ก๋ถํฐ ๋ฐ์ํ๋ ๋ก๋ด ๊ด์ ์ ๋ฌผ๋ฆฌ์ ์์ง์
- Environment (E): ๋ก๋ด์ด ์๋ํ๋ ๋ฌผ๋ฆฌ์ ๊ณต๊ฐ
ํ์์ ์ผ๋ก: \(D^{P'}_{r} = \bigcup_{p \in P'} F(p)\), where \(F(p) = \text{LMM}(p | S, B, J, A, E)\)
3.3. Content Projection
์ถ์ถ๋ ์ฝํ ์ธ ๋ฅผ ์ ๋ณด๊ฐ ํ๋ถํ ์ ์ฌ ๊ณต๊ฐ์ผ๋ก ํฌ์ํ๊ธฐ ์ํด, nvidia/NV-Embed-v2์ ๊ฐ์ ์ฌ์ ํ์ต๋ ์๋ฒ ๋ฉ foundation model \(G\)๋ฅผ ์ฌ์ฉํฉ๋๋ค.
์๋ฒ ๋ฉ ์ ์ฐจ: ๋ชจ๋ ํ ์คํธ ์กฐ๊ฐ \(x \in D\)์ ๋ํด \(v_x = G(x) \in \mathbb{R}^d\)
ํต์ฌ ๊ฐ์ ์ ๊ด์ ์ธ์ ์๋ฒ ๋ฉ ํ๋ก์ธ์ค๋ฅผ ํตํด ๋ ผ๋ฌธ ์ฝํ ์ธ ๋ฅผ ํฌ์ํ๊ณ ๊ณ ์ฐจ์ ๋งค๋ํด๋์์ ๋ถ์ํจ์ผ๋ก์จ, ์ฒด๊ณ์ ์ธ ์๊ฐํ์ ํด๋ฌ์คํฐ๋ง ๋ถ์์ ํตํด ์๋ฏธ ์๋ ํจํด, ์ฐ๊ตฌ ํธ๋ ๋, ๋ฌธํ์ ์ ์ฌ์ ๊ฒฉ์ฐจ๋ฅผ ๋ฐ๊ฒฌํ ์ ์๋ค๋ ๊ฒ์ ๋๋ค.
3.4. Embedding Analysis
์๋ฒ ๋ฉ ๋ถ์์ ๋ชฉํ๋ ์ด์ ์ ์ถ์ถ๋ ์๋ฒ ๋ฉ์ ์ดํด๋ฅผ ๊ตฌ์กฐํํ๋ ๊ฒ์ ๋๋ค. ํ์ดํ๋ผ์ธ์ ์ธ ๊ฐ์ง ๊ตฌ์ฑ์์๋ฅผ ํฌํจํฉ๋๋ค:
Clustering for Embeddings: ๋ชจ๋ ๋ ผ๋ฌธ์ ์๋ฒ ๋ฉํ์ฌ ๋ฒกํฐ ํํ \(V\)๋ฅผ ์ป๊ณ ๋ง๋ญ์น๋ฅผ \(k\)๊ฐ์ ํด๋ฌ์คํฐ๋ก ๋ถํ ํฉ๋๋ค. ๊ฐ ํด๋ฌ์คํฐ์์ 50๊ฐ์ ๋ ผ๋ฌธ์ ๋ฌด์์๋ก ์ํ๋งํ๊ณ ์ถ๋ก ๊ธฐ๋ฐ ๋ชจ๋ธ์ ์ ๋ ฅํ์ฌ ํด๋ฌ์คํฐ์ ํต์ฌ ํ ๋ง๋ฅผ ํฌ์ฐฉํ๋ ์ธ ๊ฐ์ ๊ฐ๊ฒฐํ ํคํ๋ ์ด์ฆ๋ฅผ ๋ฐํ๋ฐ์ต๋๋ค.
Structuring for Thoughts: ํด๋ฌ์คํฐ๋ ์๋ฒ ๋ฉ๊ณผ ๊ด๋ จ ํ ํฝ ํค์๋๋ฅผ ๋ฐฐ์นํ ํ, o3 ์ธ์ด ๋ชจ๋ธ์ ํ์ฉํ์ฌ ์ฃผ์ด์ง ์ฐ๊ตฌ ์์ญ์ ๋ํ ๊ตฌ์กฐํ๋ ์๋ฒ ์ด๋ฅผ ์์ฑํฉ๋๋ค. ํด๋ฌ์คํฐ๋ง ๊ฒฐ๊ณผ๋ฅผ ํ๋กฌํํธ์ ํฌํจ์์ผ ์์ฑ๋ ํ ์คํธ๊ฐ ์ฐ๊ตฌ ํ๊ฒฝ์ ์ค์ ๊ตฌ์กฐ์ ๊ทผ๊ฑฐํ๋๋ก ํฉ๋๋ค.
Citation Mapping: ๊ฐ ํ์ ์ฃผ์ ์ ๋ํด ๊ฐ์ฅ ๊ด๋ จ์ฑ ๋์ ์ธ์ฉ๋ฌธ์ ํฌํจํ์ฌ ๋ ์๋ค์ด ๋ ํ์ํ ์ ์๋ ์ง์ ์ ์ธ ์ฐธ์กฐ๋ฅผ ์ ๊ณตํฉ๋๋ค.
4. Analysis
Embedding Analysis - General
์๋ฒ ๋ฉ ๋ถ์์ ์ถ๋ ฅ์ ํน์ ์ฐ๊ตฌ ๋๋ฉ์ธ์ ๋ง์ถคํ๋ ํฌ๊ด์ ์ธ ์๋ฒ ์ด์ ๋๋ค. ์ด ์๋ฒ ์ด๋ ์ฃผ์ ์นดํ ๊ณ ๋ฆฌ์ ํ์ ์นดํ ๊ณ ๋ฆฌ๋ก ๊ตฌ์ฑ๋๋ฉฐ, ๊ฐ๊ฐ ๋ค๋ฃจ๋ ํน์ ์ฃผ์ ๋ฅผ ์์ธํ ์ค๋ช ํฉ๋๋ค. ๊ฐ ํ์ ์ฃผ์ ์ ๋ํด ๋ ํ์์ ์ํ ๊ฐ์ฅ ๊ด๋ จ์ฑ ์๋ ์ธ์ฉ๋ฌธ์ ํฌํจํฉ๋๋ค.
์๋ฅผ ๋ค์ด, ๋ก๋ด๊ณตํ ๋๋ฉ์ธ์ ์๋ฒ ์ด๋ ๋ค์๊ณผ ๊ฐ์ด ๊ตฌ์ฑ๋ฉ๋๋ค:
- Perception & Mapping: Multimodal sensor fusion, 3D reconstruction/occupancy, BEV mapping
- Manipulation & Grasping: Dexterous grasping, Generalist manipulation, Tactile-vision fusion
- Locomotion & Navigation: Legged locomotion control, Embodied VL navigation
- Planning & Control: Language/hierarchical planning, Diffusion/Transformer policies
Embedding Analysis - Perspective
๋๋ฉ์ธ์ ๋ํ ๋ช ํํ ๊ฐ์๋ฅผ ํ๋ฆฝํ ํ, ๋ชฉํ ๊ด์ ์ ํตํด ๋ถ์ํ์ฌ ๊ตฌ์กฐ์ ๋ฌธ์ ๊ณต์ํ๋ฅผ ๋ ธ์ถํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ๋ก๋ด๊ณตํ์ action space ๊ด์ ์์ ๋ถ์ํ๋ฉด:
- Continuous Low-Level Actuation: Joint-space commands, Vehicle/body dynamics commands
- Mid-Level Pose & Trajectory Control: End-effector & gripper pose, Base/waypoint trajectories
- High-Level Discrete Skills: Manipulation skills, Locomotion & navigation skills, Interaction skills
Trend Analysis
๊ฐ ๋๋ฉ์ธ๊ณผ ํต์ฌ ํ์ ๊ด์ ์ ์ดํดํ ํ, ๋ค์ ๋จ๊ณ๋ ํ ํฝ์ ๋ชจ๋ฉํ ์ ํ๊ฐํ๋ ๊ฒ์ ๋๋ค. ํธ๋ ๋ ๋ถ์์ ์ต๊ทผ ๋ช ๋ ๊ฐ ์ด๋ค ์์ญ์ด ๊ฐ์ํ๋๊ณ ์๊ณ ์ด๋ค ์์ญ์ด ์ฒ ์ ํ ํ๊ตฌ๋์๋์ง๋ฅผ ๊ฐ์กฐํฉ๋๋ค.
๋ก๋ด๊ณตํ์ ๊ฒฝ์ฐ, ๋ค์๊ณผ ๊ฐ์ ํธ๋ ๋๊ฐ ๊ด์ฐฐ๋ฉ๋๋ค:
- ์์น ์ค: Teleoperation, Dexterous Manipulation, Low-Cost Open-Source Robotics
- ์ฑ์ ๋จ๊ณ: Traditional Reinforcement Learning, Skill-Based Manipulation
Knowledge Graph
๊ฐ๋ณ ์ฐ๊ตฌ ์์ญ ๋ด์ ํธ๋ ๋ ํ ํฝ์ ์๋ณํ๋ ๊ฒ ์ธ์๋, ํ์ ๊ฐ ํ ๋ง๋ฅผ ๋ฐ๊ฒฌํ๋ ๊ฒ์ด ์ค์ํฉ๋๋ค. Computer Vision, NLP, Machine Learning, Robotics ๋ค ๊ฐ์ง ์ฃผ์ ๋๋ฉ์ธ ๊ฐ์ ๊ต์ฐจ์ ์ ๋ถ์ํฉ๋๋ค.
Cross-Domain Topology Graph์์ ๊ฐ ์์์ ํน์ ์ฐ๊ตฌ ๋๋ฉ์ธ์ ํด๋นํ๊ณ , ๊ฐ ๋ ธ๋๋ ์๋ฒ ๋ฉ ๊ธฐ๋ฐ ๋ถ์์์ ๋์ถ๋ ๊ณ ์ ํ ํ ํฝ ํด๋ฌ์คํฐ๋ฅผ ๋ํ๋ ๋๋ค. ๋ ธ๋ ๊ฐ์ ์ฃ์ง๋ ์๋ฏธ๋ก ์ ๋๋ ํ ํฝ์ ๊ด๊ณ, ํนํ ๋๋ฉ์ธ ๊ฒฝ๊ณ๋ฅผ ๋๋ ๊ด๊ณ๋ฅผ ๋ํ๋ ๋๋ค.
Retrieval Examples
๋ชฉํ ์ฐ๊ตฌ ํ ํฝ์ด ์๋ณ๋๋ฉด, ๋ค์ ๋จ๊ณ๋ ๊ตฌ์ฒด์ ์ธ ์ง์ ์ ์ ์ ํํ ์ฐพ๋ ๊ฒ์ ๋๋ค. ์ด์ ์ ์ถ๋ก ๋ ํํ ์์ค ์๋ฒ ๋ฉ์ ํ์ฉํ์ฌ ์๋ฏธ๋ก ์ ๊ฒ์์ ์คํํ๊ณ ๊ฐ์ฅ ๊ด๋ จ์ฑ ๋์ ๋ฌธํ์ ๊ฒ์ํฉ๋๋ค.
์๋ฅผ ๋ค์ด, "dexterous manipulation generated data in 3D simulation and evaluated in real world"๋ก ์ฟผ๋ฆฌํ๋ฉด:
- Evaluating Real-World Robot Manipulation Policies in Simulation (2024, CoRL24, 127 citations)
- Lessons from Learning to Spin "Pens" (2024, CoRL24, 29 citations)
- General In-hand Object Rotation with Vision and Touch (2023, CoRL23, 134 citations)
5. Experiment
Dataset
๊ณต๊ฐ์ ์ผ๋ก ์ด์ฉ ๊ฐ๋ฅํ ๊ณ ์ํฅ๋ ฅ ํํ๋ค๋ก๋ถํฐ ๋ฐ์ดํฐ์ ์ ํ๋ ์ด์ ํฉ๋๋ค. 2021-2025๋ ์ ๋ ผ๋ฌธ์ ํฌํจํ๋ฉฐ, foundation model๊ณผ ๋ก๋ด๊ณตํ์ ์ด์ ์ ๋ง์ถฐ 2024๋ ์ดํ foundation model ๊ด๋ จ 4,424ํธ, ๋ก๋ด๊ณตํ ๊ด๋ จ 1,186ํธ์ ์ถ๊ฐ๋ก ํํฐ๋งํ์ต๋๋ค.
Survey Quality
๋๋ฉ์ธ ์ ๋ฌธ์ฑ์ ๊ฐ์ง ๊ฒฝํ ๋ง์ ์ฐ๊ตฌ์๋ค์ด ์ฐธ์ฌํ ์ฌ์ฉ์ ์ฐ๊ตฌ๋ฅผ ์ํํ์ต๋๋ค. ์๋ณ ๋น๊ต ๋ฐฉ๋ฒ๋ก ์ ์ฑํํ์ฌ, ๊ฐ ๋น๊ต๋ง๋ค ๋ ๊ฐ์ ์๋ฒ ์ด ์ถ๋ ฅ์ ์ ์ํ๊ณ ์ด๋ ๊ฒ์ด ์ฐ์ํ ํ์ง๊ณผ ์ ํ์ฑ์ ๋ณด์ฌ์ฃผ๋์ง ํ๋จํ๋๋ก ํ์ต๋๋ค.
๊ฒฐ๊ณผ: RDR์ ํ๊ท ์์ 1.30์ผ๋ก ๋ชจ๋ ๊ธฐ์ค์ ์ ๋ฅ๊ฐํ๋ฉฐ ์ต๊ณ ์ ์ ์ฒด ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. NLP(89.47), ๋ก๋ด๊ณตํ(77.78), foundation model output(94.74)๊ณผ ๊ฐ์ ์ฃผ์ ๋๋ฉ์ธ์์ ์ ๋๋ฅผ ์ฐจ์งํ์ต๋๋ค.
Embedding Quality
์๋ฒ ๋ฉ์ ํจ๊ณผ๋ฅผ ํ๊ฐํ๊ธฐ ์ํด ๊ณ ์ ๋ ํํ ์์ ํ์ต๋ ๋จ์ํ ์ ํ ํ๋ก๋ธ๋ฅผ ์ฌ์ฉํ์ต๋๋ค. SciTopic์ด ์๊ฐํ ์คํ ํ๋กํ ์ฝ์ ๋ฐ๋์ผ๋ฉฐ, ๋์ผํ ๋น์ง๋ ํ์ต ๋ฐ ํ๊ฐ ๋ถํ ์ ์ฌ์ฉํ์ต๋๋ค.
๊ฒฐ๊ณผ: RDR์ ๋ ๋ฐ์ดํฐ์ ๋ชจ๋์์ ์ต๊ณ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค:
- AG News: 84.86% ์ ํ๋, 61.66 NMI, 65.24 ARI
- 20 News Groups: 52.91% ์ ํ๋, 56.57 NMI, 39.96 ARI
๊ฒฐ๋ก
Real Deep Research๋ AI์ ๋ก๋ด๊ณตํ ๋ถ์ผ์ ๋ฐฉ๋ํ ๋ฌธํ์ ์ฒด๊ณ์ ์ผ๋ก ๋ถ์ํ๊ณ , ์ฐ๊ตฌ ํธ๋ ๋๋ฅผ ํ์ ํ๋ฉฐ, ํ์ ๊ฐ ๊ธฐํ๋ฅผ ๋ฐ๊ฒฌํ ์ ์๋ ๊ฐ๋ ฅํ ๋๊ตฌ์ ๋๋ค. ์คํ ๊ฒฐ๊ณผ๋ RDR์ด ์์ฉ LLM ๋๊ตฌ๋ค๋ณด๋ค ์ฐ์ํ ์๋ฒ ์ด ํ์ง๊ณผ ์๋ฒ ๋ฉ ์ฑ๋ฅ์ ์ ๊ณตํ๋ค๋ ๊ฒ์ ๋ณด์ฌ์ค๋๋ค. ์ด ํ๋ ์์ํฌ๋ ์ฐ๊ตฌ์๋ค์ด ๋น ๋ฅด๊ฒ ๋ณํํ๋ ์ฐ๊ตฌ ํ๊ฒฝ์ ํ์ํ๊ณ ์๋ก์ด ๊ธฐํ๋ฅผ ์๋ณํ๋ ๋ฐ ์ค์ง์ ์ธ ๋์์ ์ ๊ณตํ ๊ฒ์ผ๋ก ๊ธฐ๋๋ฉ๋๋ค.