Real Deep Research for AI, Robotics and Beyond

๐Ÿท๏ธ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ๋ถ„์„

RDR์€ embedding ๊ธฐ๋ฐ˜์˜ ์ž๋™ํ™”๋œ ๋ถ„์„ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ, ๋…ผ๋ฌธ ์ˆ˜์ง‘, ์ฝ˜ํ…์ธ  ๋ถ„์„, embedding ๊ธฐ๋ฐ˜ ํด๋Ÿฌ์Šคํ„ฐ๋ง, ์ถ”์„ธ ๋ถ„์„์„ ํ†ตํ•ด ์—ฐ๊ตฌ ๋ถ„์•ผ๋ฅผ ์ข…ํ•ฉ์ ์œผ๋กœ ํŒŒ์•…ํ•ฉ๋‹ˆ๋‹ค. Foundation Models๊ณผ Robotics๋ฅผ ์ค‘์‹ฌ์œผ๋กœ ์ ์šฉ๋˜์—ˆ์œผ๋ฉฐ, Computer Vision, NLP, Machine Learning ๋“ฑ ๋‹ค์–‘ํ•œ ๋ถ„์•ผ๋กœ ํ™•์žฅ๋˜์—ˆ์Šต๋‹ˆ๋‹ค.

1-rdr.png

X. Zou, J. Ye, H. Zhang, X. Xiang, M. Ding, Z. Yang, Y. J. Lee, Z. Tu, S. Liu, and X. Wang, "Real Deep Research for AI, Robotics and Beyond", arXiv preprint arXiv:2510.20809, 2025.

์š”์•ฝ

RDR์€ ๋Œ€๊ทœ๋ชจ ๋…ผ๋ฌธ ๋ฐ์ดํ„ฐ๋ฅผ ์ž๋™์œผ๋กœ ๋ถ„์„ํ•˜์—ฌ ์—ฐ๊ตฌ ํŠธ๋ Œ๋“œ๋ฅผ ํŒŒ์•…ํ•˜๊ณ  ํ•™์ œ๊ฐ„ ์—ฐ๊ตฌ ๊ธฐํšŒ๋ฅผ ๋ฐœ๊ฒฌํ•˜๋Š” ํŒŒ์ดํ”„๋ผ์ธ์ž…๋‹ˆ๋‹ค. ์ฃผ์š” ๊ตฌ์„ฑ์š”์†Œ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์Šต๋‹ˆ๋‹ค.

์•„ํ‚คํ…์ฒ˜: 4๋‹จ๊ณ„ ํŒŒ์ดํ”„๋ผ์ธ์œผ๋กœ ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค - (1) ๋ฐ์ดํ„ฐ ์ค€๋น„ ๋ฐ ํ•„ํ„ฐ๋ง, (2) LLM ๊ธฐ๋ฐ˜ ์ฝ˜ํ…์ธ  ์ถ”๋ก , (3) ์ž„๋ฒ ๋”ฉ ๊ณต๊ฐ„์œผ๋กœ์˜ ํˆฌ์˜, (4) ์ž„๋ฒ ๋”ฉ ๋ถ„์„ ๋ฐ ์‹œ๊ฐํ™”

์‚ฌ์šฉ ๋ชจ๋ธ:

๋ฐ์ดํ„ฐ์…‹: 2021-2025๋…„ ์ฃผ์š” ํ•™ํšŒ(CVPR, ECCV, ICCV, CoRL, RSS, ICRA, NeurIPS, ICLR, ACL ๋“ฑ)์—์„œ ์ˆ˜์ง‘ํ•œ 37,569ํŽธ์˜ ๋…ผ๋ฌธ. ํ•„ํ„ฐ๋ง ํ›„ foundation model ๊ด€๋ จ 4,424ํŽธ, ๋กœ๋ด‡๊ณตํ•™ ๊ด€๋ จ 1,186ํŽธ ์ถ”์ถœ

ํ‰๊ฐ€ ๋งคํŠธ๋ฆญ:

์ฃผ์š” ๊ฒฐ๊ณผ:

๋…ผ๋ฌธ ์ƒ์„ธ

1. Introduction

์—ฐ๊ตฌ์ž๋“ค์€ ์ œํ•œ๋œ ์‹œ๊ฐ„๊ณผ ์ฃผ์˜๋ ฅ์œผ๋กœ ํญ๋ฐœ์ ์œผ๋กœ ์ฆ๊ฐ€ํ•˜๋Š” ๋…ผ๋ฌธ์„ ๋”ฐ๋ผ์žก์•„์•ผ ํ•˜๋Š” ๊ณผ์ œ์— ์ง๋ฉดํ•ด ์žˆ์Šต๋‹ˆ๋‹ค. ๊ธฐ์กด์˜ ์ „๋ฌธ๊ฐ€๊ฐ€ ์ž‘์„ฑํ•œ ์„œ๋ฒ ์ด ๋…ผ๋ฌธ์€ ๊นŠ์ด ์žˆ์ง€๋งŒ ๋งŽ์€ ์ˆ˜์ž‘์—…์ด ํ•„์š”ํ•˜๊ณ  ๋น ๋ฅธ ์—ฐ๊ตฌ ์ง„ํ™”์— ์ ์‘ํ•˜๊ธฐ ์–ด๋ ต์Šต๋‹ˆ๋‹ค. ๋ฐ˜๋ฉด ์ž๋™ํ™”๋œ ์ ‘๊ทผ๋ฒ•์€ ๋„๋ฉ”์ธ ํŠนํ™” ์ง€์‹๊ณผ ์ „๋ฌธ๊ฐ€ ํ†ต์ฐฐ๋ ฅ์ด ๋ถ€์กฑํ•œ ๊ฒฝ์šฐ๊ฐ€ ๋งŽ์Šต๋‹ˆ๋‹ค.

RDR์€ ์ด ๋‘ ๊ฐ€์ง€ ์ ‘๊ทผ๋ฒ•์˜ ๊ฐ„๊ทน์„ ๋ฉ”์šฐ๊ณ ์ž ํ•ฉ๋‹ˆ๋‹ค. ์ฒด๊ณ„์ ์ธ ์ž๋™ํ™”์™€ ์˜๋ฏธ ์žˆ๋Š” ์ „๋ฌธ๊ฐ€ ๊ธฐ๋ฐ˜ ๋ถ„์„์„ ๊ฒฐํ•ฉํ•˜์—ฌ, ์ตœ๊ณ  ์ˆ˜์ค€์˜ ์—ฐ๊ตฌ์ž๋“ค์ด ์ƒˆ๋กœ์šด ํŠธ๋ Œ๋“œ๋ฅผ ์ถ”์ ํ•˜๊ณ  ๋‚ฏ์„  ์—ฐ๊ตฌ ์˜์—ญ์— ์ง„์ž…ํ•˜๋Š” ๊ฒƒ์„ ์ง€์›ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ ํ•™์ œ๊ฐ„ ํƒ์ƒ‰์— ์ดˆ์ ์„ ๋งž์ถฐ, ์—ฐ๊ตฌ์ž๋“ค์ด ๋ถ„์•ผ ๊ฐ„ ๊ต์ฐจ์ ์—์„œ ์œ ๋งํ•œ ํ˜‘๋ ฅ ๊ธฐํšŒ๋ฅผ ์ฐพ์„ ์ˆ˜ ์žˆ๋„๋ก ๋•์Šต๋‹ˆ๋‹ค.

2. Related Work

Foundation Models ์„œ๋ฒ ์ด: ์ตœ๊ทผ ์—ฌ๋Ÿฌ ์„œ๋ฒ ์ด ์—ฐ๊ตฌ๋“ค์ด ๋‹ค์–‘ํ•œ ๋„๋ฉ”์ธ์—์„œ foundation model์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ฆฌ๋ทฐํ–ˆ์Šต๋‹ˆ๋‹ค. ํ•˜์ง€๋งŒ ์ด๋Ÿฌํ•œ ์„œ๋ฒ ์ด๋“ค์€ ๋ฐฉ๋Œ€ํ•œ ์ˆ˜์ž‘์—…์ด ํ•„์š”ํ•˜๊ณ , foundation model์˜ ๋น ๋ฅธ ๋ฐœ์ „์œผ๋กœ ์ธํ•ด ๋น ๋ฅด๊ฒŒ ๊ตฌ์‹์ด ๋ฉ๋‹ˆ๋‹ค. RDR์˜ ๋ชฉํ‘œ๋Š” ์ˆ˜์ฒœ ํŽธ์˜ ๋…ผ๋ฌธ์„ ์ž๋™์œผ๋กœ ๋ถ„์„ํ•˜๊ณ  ๋‹ค์–‘ํ•œ ์—ฐ๊ตฌ ์˜์—ญ์— ๋Œ€ํ•œ ์ตœ์‹  ์ดํ•ด๋ฅผ ์ œ๊ณตํ•˜๋Š” ํ”„๋ ˆ์ž„์›Œํฌ๋ฅผ ์„ค๊ณ„ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

๊ณผํ•™ ์—ฐ๊ตฌ์—์„œ์˜ LLM: ๋Œ€๊ทœ๋ชจ ์–ธ์–ด ๋ชจ๋ธ์€ ์•„์ด๋””์–ด ์ƒ์„ฑ, ์ฝ”๋”ฉ, ๋…ผ๋ฌธ ๋ฆฌ๋ทฐ, ์‹คํ—˜ ๊ฒฐ๊ณผ ์˜ˆ์ธก ๋“ฑ ๊ณผํ•™ ์—ฐ๊ตฌ์˜ ๋‹ค์–‘ํ•œ ๋‹จ๊ณ„์— ์ ์šฉ๋˜์–ด ์™”์Šต๋‹ˆ๋‹ค. ๋ฌธํ—Œ ๋ถ„์„์€ ์ค‘์‹ฌ์ ์ธ ์—ญํ• ์„ ํ•˜๋ฉฐ, ๋…ผ๋ฌธ ๊ฒ€์ƒ‰, ํด๋Ÿฌ์Šคํ„ฐ๋ง, ํ† ํ”ฝ ํŠธ๋ Œ๋“œ ๋ถ„์„ ๋“ฑ์˜ ์ž‘์—…์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. SciLitLLM์€ ์ง€๋„ ํ•™์Šต์œผ๋กœ ๊ณผํ•™ ๋ฌธํ—Œ ์ดํ•ด๋ฅผ ์œ„ํ•œ ํŠนํ™” LLM์„ ๊ตฌ์ถ•ํ•˜๊ณ , PaSa๋Š” ๊ฐ•ํ™” ํ•™์Šต์œผ๋กœ ๋ณต์žกํ•œ ํ•™์ˆ  ์งˆ์˜๋ฅผ ๋‹ตํ•  ์ˆ˜ ์žˆ๋Š” LLM ์—์ด์ „ํŠธ๋ฅผ ํ›ˆ๋ จ์‹œํ‚ต๋‹ˆ๋‹ค. ๊ธฐ์กด ์—ฐ๊ตฌ๊ฐ€ ์ฃผ๋กœ ์—ฐ๊ตฌ ์งˆ๋ฌธ ๋‹ต๋ณ€์— ์ง‘์ค‘ํ•œ ๋ฐ˜๋ฉด, RDR์€ ์ „์ฒด ์—ฐ๊ตฌ ์˜์—ญ์— ๋Œ€ํ•œ ๋” ๋„“๊ณ  ์ฒด๊ณ„์ ์ธ ์ดํ•ด๋ฅผ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

์ง€์‹ ๊ตฌ์กฐํ™”์™€ ๋ฐœ๊ฒฌ: LLM์ด ๋ฌธ์„œ๋ฅผ ํด๋Ÿฌ์Šคํ„ฐ๋งํ•˜๊ณ  ์ž ์žฌ ํ† ํ”ฝ์„ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ด ์ž…์ฆ๋˜์—ˆ์Šต๋‹ˆ๋‹ค. Knowledge Navigator๋Š” LLM๊ณผ ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ธฐ๋ฒ•์„ ๊ฒฐํ•ฉํ•˜์—ฌ ๊ณผํ•™ ๋ฌธํ—Œ ๊ฒ€์ƒ‰์„ ์œ„ํ•œ ๋ฌธ์„œ๋ฅผ ๊ตฌ์กฐํ™”ํ•˜๊ณ , SciTopic์€ ๋ฌธ์„œ ์ž„๋ฒ ๋”ฉ์„ ์ •์ œํ•˜์—ฌ ํ† ํ”ฝ ๊ตฌ์กฐ ์‹๋ณ„์—์„œ LLM์„ ํ–ฅ์ƒ์‹œํ‚ต๋‹ˆ๋‹ค. RDR์€ LLM์˜ ์ถ”๋ก  ๋Šฅ๋ ฅ๊ณผ foundation model์˜ ์ž„๋ฒ ๋”ฉ ํ‘œํ˜„์„ ํ™œ์šฉํ•˜์—ฌ ๋” ์ •ํ™•ํ•˜๊ณ  ์˜๋ฏธ๋ก ์ ์ธ ์ง€์‹ ๊ตฌ์กฐํ™”๋ฅผ ์ œ๊ณตํ•˜๋Š” ์ƒˆ๋กœ์šด ์ ‘๊ทผ๋ฒ•์„ ์†Œ๊ฐœํ•ฉ๋‹ˆ๋‹ค.

3. Method

3.1. Data Preparation

Selection: foundation model๊ณผ ๋กœ๋ด‡๊ณตํ•™์˜ ํ†ตํ•ฉ์„ ์ฒด๊ณ„์ ์œผ๋กœ ์กฐ์‚ฌํ•˜๊ธฐ ์œ„ํ•ด, ํ•™๊ณ„์™€ ์‚ฐ์—…๊ณ„์˜ ์ตœ์‹  ํŠธ๋ Œ๋“œ์™€ ์—ฐ๊ตฌ ์šฐ์„ ์ˆœ์œ„์— ์ดˆ์ ์„ ๋งž์ถฅ๋‹ˆ๋‹ค. ์ตœ์‹  ๊ฐœ๋ฐœ ์‚ฌํ•ญ์„ ํฌ์ฐฉํ•˜๊ธฐ ์œ„ํ•ด ์ปดํ“จํ„ฐ ๋น„์ „, ๋กœ๋ด‡๊ณตํ•™, ๋จธ์‹ ๋Ÿฌ๋‹์˜ ์ฃผ์š” ํ•™ํšŒ์—์„œ ์ตœ๊ทผ ์ถœํŒ๋ฌผ์„ ๊ฒ€ํ† ํ•ฉ๋‹ˆ๋‹ค. ๊ตฌ์ฒด์ ์œผ๋กœ ์›น ํฌ๋กค๋ง์„ ํ†ตํ•ด ์ฃผ์š” ํ•™ํšŒ(CVPR, ECCV, ICCV, CoRL, RSS, ICRA, NeurIPS ๋“ฑ)์™€ ์‚ฐ์—… ์—ฐ๊ตฌ ํ”Œ๋žซํผ(Nvidia, Meta, OpenAI ๋“ฑ)์—์„œ ๋…ผ๋ฌธ์„ ์ˆ˜์ง‘ํ•ฉ๋‹ˆ๋‹ค.

Area Filtering: ์ˆ˜์ง‘๋œ ๋…ผ๋ฌธ ์ง‘ํ•ฉ \(P\)๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ๋น„์ „, ์–ธ์–ด, ๋จธ์‹ ๋Ÿฌ๋‹, ๋กœ๋ด‡๊ณตํ•™์˜ ๋„“์€ ์˜์—ญ์— ์†ํ•˜์ง€๋งŒ, ๊ฐ ๋…ผ๋ฌธ์ด foundation model(\(D_f\))๊ณผ ๋กœ๋ด‡๊ณตํ•™(\(D_r\))์ด๋ผ๋Š” ํŠน์ • ์ดˆ์ ๊ณผ ์ง์ ‘์ ์œผ๋กœ ์ผ์น˜ํ•œ๋‹ค๊ณ  ๋ณด์žฅํ•  ์ˆ˜ ์—†์Šต๋‹ˆ๋‹ค. ์ด๋ฅผ ํ•ด๊ฒฐํ•˜๊ธฐ ์œ„ํ•ด ํšจ์œจ์ ์ธ LLM๊ณผ ํ๋ ˆ์ด์…˜๋œ ํ”„๋กฌํ”„ํŠธ๋ฅผ ํ™œ์šฉํ•˜๋Š” Area Filtering์„ ๋„์ž…ํ•ฉ๋‹ˆ๋‹ค.

ํ•„ํ„ฐ๋ง ํ›„ ๊ฒฐ๊ณผ ๋…ผ๋ฌธ ์ง‘ํ•ฉ \(P'\)๋Š” foundation model ๋„๋ฉ”์ธ, ๋กœ๋ด‡๊ณตํ•™ ๋„๋ฉ”์ธ, ๋˜๋Š” ๋‘˜ ๋‹ค์— ์†ํ•˜๊ฒŒ ๋ฉ๋‹ˆ๋‹ค: \(P' = {p | p \in D_f \cup D_r}\)

3.2. Content Reasoning

ํ•„ํ„ฐ๋ง๋œ ๋…ผ๋ฌธ \(P'\)์— ๋Œ€ํ•ด ์‹ฌ์ธต ๋ถ„์„์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค. foundation model๊ณผ ๋กœ๋ด‡๊ณตํ•™์˜ ๋„๋ฉ”์ธ ์ „๋ฌธ๊ฐ€๋“ค์˜ ์ง€๋„๋กœ, ํ™•๋ฆฝ๋œ ๋„๋ฉ”์ธ ๊ตฌ์กฐ, ๋– ์˜ค๋ฅด๋Š” ํŠธ๋ Œ๋“œ, ์ง„ํ™”ํ•˜๋Š” ์ง€์‹๊ณผ ์ผ์น˜ํ•˜๋Š” ๊ด€์ (perspectives)์„ ์ •์˜ํ•ฉ๋‹ˆ๋‹ค.

Foundation Model: foundation model์˜ ๊ฐœ๋ฐœ์€ 5๊ฐ€์ง€ ๊ธฐ๋ณธ ๊ด€์ ์œผ๋กœ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„๋ฉ๋‹ˆ๋‹ค:

ํ˜•์‹์ ์œผ๋กœ: \(D^{P'}_{f} = \bigcup_{p \in P'} F(p)\), where \(F(p) = \text{LLM}(p | I, M, O, W, R)\)

Robotics: ๋กœ๋ด‡๊ณตํ•™ ์—ฐ๊ตฌ์˜ ๊ฒฝ์šฐ, ํ•ต์‹ฌ ๊ด€์ ์€ ํ•˜๋“œ์›จ์–ด์™€ ์‹ค์ œ ํ™˜๊ฒฝ๊ณผ์˜ ์ƒํ˜ธ์ž‘์šฉ์„ ๊ฐ•์กฐํ•˜๋Š” ๋ฐฉํ–ฅ์œผ๋กœ ์ „ํ™˜๋ฉ๋‹ˆ๋‹ค:

ํ˜•์‹์ ์œผ๋กœ: \(D^{P'}_{r} = \bigcup_{p \in P'} F(p)\), where \(F(p) = \text{LMM}(p | S, B, J, A, E)\)

3.3. Content Projection

์ถ”์ถœ๋œ ์ฝ˜ํ…์ธ ๋ฅผ ์ •๋ณด๊ฐ€ ํ’๋ถ€ํ•œ ์ž ์žฌ ๊ณต๊ฐ„์œผ๋กœ ํˆฌ์˜ํ•˜๊ธฐ ์œ„ํ•ด, nvidia/NV-Embed-v2์™€ ๊ฐ™์€ ์‚ฌ์ „ ํ•™์Šต๋œ ์ž„๋ฒ ๋”ฉ foundation model \(G\)๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค.

์ž„๋ฒ ๋”ฉ ์ ˆ์ฐจ: ๋ชจ๋“  ํ…์ŠคํŠธ ์กฐ๊ฐ \(x \in D\)์— ๋Œ€ํ•ด \(v_x = G(x) \in \mathbb{R}^d\)

ํ•ต์‹ฌ ๊ฐ€์ •์€ ๊ด€์  ์ธ์‹ ์ž„๋ฒ ๋”ฉ ํ”„๋กœ์„ธ์Šค๋ฅผ ํ†ตํ•ด ๋…ผ๋ฌธ ์ฝ˜ํ…์ธ ๋ฅผ ํˆฌ์˜ํ•˜๊ณ  ๊ณ ์ฐจ์› ๋งค๋‹ˆํด๋“œ์—์„œ ๋ถ„์„ํ•จ์œผ๋กœ์จ, ์ฒด๊ณ„์ ์ธ ์‹œ๊ฐํ™”์™€ ํด๋Ÿฌ์Šคํ„ฐ๋ง ๋ถ„์„์„ ํ†ตํ•ด ์˜๋ฏธ ์žˆ๋Š” ํŒจํ„ด, ์—ฐ๊ตฌ ํŠธ๋ Œ๋“œ, ๋ฌธํ—Œ์˜ ์ž ์žฌ์  ๊ฒฉ์ฐจ๋ฅผ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๋‹ค๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค.

3.4. Embedding Analysis

์ž„๋ฒ ๋”ฉ ๋ถ„์„์˜ ๋ชฉํ‘œ๋Š” ์ด์ „์— ์ถ”์ถœ๋œ ์ž„๋ฒ ๋”ฉ์˜ ์ดํ•ด๋ฅผ ๊ตฌ์กฐํ™”ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŒŒ์ดํ”„๋ผ์ธ์€ ์„ธ ๊ฐ€์ง€ ๊ตฌ์„ฑ์š”์†Œ๋ฅผ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค:

  1. Clustering for Embeddings: ๋ชจ๋“  ๋…ผ๋ฌธ์„ ์ž„๋ฒ ๋”ฉํ•˜์—ฌ ๋ฒกํ„ฐ ํ‘œํ˜„ \(V\)๋ฅผ ์–ป๊ณ  ๋ง๋ญ‰์น˜๋ฅผ \(k\)๊ฐœ์˜ ํด๋Ÿฌ์Šคํ„ฐ๋กœ ๋ถ„ํ• ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ํด๋Ÿฌ์Šคํ„ฐ์—์„œ 50๊ฐœ์˜ ๋…ผ๋ฌธ์„ ๋ฌด์ž‘์œ„๋กœ ์ƒ˜ํ”Œ๋งํ•˜๊ณ  ์ถ”๋ก  ๊ธฐ๋ฐ˜ ๋ชจ๋ธ์— ์ž…๋ ฅํ•˜์—ฌ ํด๋Ÿฌ์Šคํ„ฐ์˜ ํ•ต์‹ฌ ํ…Œ๋งˆ๋ฅผ ํฌ์ฐฉํ•˜๋Š” ์„ธ ๊ฐœ์˜ ๊ฐ„๊ฒฐํ•œ ํ‚คํ”„๋ ˆ์ด์ฆˆ๋ฅผ ๋ฐ˜ํ™˜๋ฐ›์Šต๋‹ˆ๋‹ค.

  2. Structuring for Thoughts: ํด๋Ÿฌ์Šคํ„ฐ๋œ ์ž„๋ฒ ๋”ฉ๊ณผ ๊ด€๋ จ ํ† ํ”ฝ ํ‚ค์›Œ๋“œ๋ฅผ ๋ฐฐ์น˜ํ•œ ํ›„, o3 ์–ธ์–ด ๋ชจ๋ธ์„ ํ™œ์šฉํ•˜์—ฌ ์ฃผ์–ด์ง„ ์—ฐ๊ตฌ ์˜์—ญ์— ๋Œ€ํ•œ ๊ตฌ์กฐํ™”๋œ ์„œ๋ฒ ์ด๋ฅผ ์ƒ์„ฑํ•ฉ๋‹ˆ๋‹ค. ํด๋Ÿฌ์Šคํ„ฐ๋ง ๊ฒฐ๊ณผ๋ฅผ ํ”„๋กฌํ”„ํŠธ์— ํฌํ•จ์‹œ์ผœ ์ƒ์„ฑ๋œ ํ…์ŠคํŠธ๊ฐ€ ์—ฐ๊ตฌ ํ™˜๊ฒฝ์˜ ์‹ค์ œ ๊ตฌ์กฐ์— ๊ทผ๊ฑฐํ•˜๋„๋ก ํ•ฉ๋‹ˆ๋‹ค.

  3. Citation Mapping: ๊ฐ ํ•˜์œ„ ์ฃผ์ œ์— ๋Œ€ํ•ด ๊ฐ€์žฅ ๊ด€๋ จ์„ฑ ๋†’์€ ์ธ์šฉ๋ฌธ์„ ํฌํ•จํ•˜์—ฌ ๋…์ž๋“ค์ด ๋” ํƒ์ƒ‰ํ•  ์ˆ˜ ์žˆ๋Š” ์ง์ ‘์ ์ธ ์ฐธ์กฐ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

4. Analysis

Embedding Analysis - General

์ž„๋ฒ ๋”ฉ ๋ถ„์„์˜ ์ถœ๋ ฅ์€ ํŠน์ • ์—ฐ๊ตฌ ๋„๋ฉ”์ธ์— ๋งž์ถคํ™”๋œ ํฌ๊ด„์ ์ธ ์„œ๋ฒ ์ด์ž…๋‹ˆ๋‹ค. ์ด ์„œ๋ฒ ์ด๋Š” ์ฃผ์š” ์นดํ…Œ๊ณ ๋ฆฌ์™€ ํ•˜์œ„ ์นดํ…Œ๊ณ ๋ฆฌ๋กœ ๊ตฌ์„ฑ๋˜๋ฉฐ, ๊ฐ๊ฐ ๋‹ค๋ฃจ๋Š” ํŠน์ • ์ฃผ์ œ๋ฅผ ์ƒ์„ธํžˆ ์„ค๋ช…ํ•ฉ๋‹ˆ๋‹ค. ๊ฐ ํ•˜์œ„ ์ฃผ์ œ์— ๋Œ€ํ•ด ๋” ํƒ์ƒ‰์„ ์œ„ํ•œ ๊ฐ€์žฅ ๊ด€๋ จ์„ฑ ์žˆ๋Š” ์ธ์šฉ๋ฌธ์„ ํฌํ•จํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, ๋กœ๋ด‡๊ณตํ•™ ๋„๋ฉ”์ธ์˜ ์„œ๋ฒ ์ด๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์ด ๊ตฌ์„ฑ๋ฉ๋‹ˆ๋‹ค:

Embedding Analysis - Perspective

๋„๋ฉ”์ธ์— ๋Œ€ํ•œ ๋ช…ํ™•ํ•œ ๊ฐœ์š”๋ฅผ ํ™•๋ฆฝํ•œ ํ›„, ๋ชฉํ‘œ ๊ด€์ ์„ ํ†ตํ•ด ๋ถ„์„ํ•˜์—ฌ ๊ตฌ์กฐ์™€ ๋ฌธ์ œ ๊ณต์‹ํ™”๋ฅผ ๋…ธ์ถœํ•ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ๋กœ๋ด‡๊ณตํ•™์„ action space ๊ด€์ ์—์„œ ๋ถ„์„ํ•˜๋ฉด:

Trend Analysis

๊ฐ ๋„๋ฉ”์ธ๊ณผ ํ•ต์‹ฌ ํ•˜์œ„ ๊ด€์ ์„ ์ดํ•ดํ•œ ํ›„, ๋‹ค์Œ ๋‹จ๊ณ„๋Š” ํ† ํ”ฝ์˜ ๋ชจ๋ฉ˜ํ…€์„ ํ‰๊ฐ€ํ•˜๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ํŠธ๋ Œ๋“œ ๋ถ„์„์€ ์ตœ๊ทผ ๋ช‡ ๋…„๊ฐ„ ์–ด๋–ค ์˜์—ญ์ด ๊ฐ€์†ํ™”๋˜๊ณ  ์žˆ๊ณ  ์–ด๋–ค ์˜์—ญ์ด ์ฒ ์ €ํžˆ ํƒ๊ตฌ๋˜์—ˆ๋Š”์ง€๋ฅผ ๊ฐ•์กฐํ•ฉ๋‹ˆ๋‹ค.

๋กœ๋ด‡๊ณตํ•™์˜ ๊ฒฝ์šฐ, ๋‹ค์Œ๊ณผ ๊ฐ™์€ ํŠธ๋ Œ๋“œ๊ฐ€ ๊ด€์ฐฐ๋ฉ๋‹ˆ๋‹ค:

Knowledge Graph

๊ฐœ๋ณ„ ์—ฐ๊ตฌ ์˜์—ญ ๋‚ด์˜ ํŠธ๋ Œ๋“œ ํ† ํ”ฝ์„ ์‹๋ณ„ํ•˜๋Š” ๊ฒƒ ์™ธ์—๋„, ํ•™์ œ๊ฐ„ ํ…Œ๋งˆ๋ฅผ ๋ฐœ๊ฒฌํ•˜๋Š” ๊ฒƒ์ด ์ค‘์š”ํ•ฉ๋‹ˆ๋‹ค. Computer Vision, NLP, Machine Learning, Robotics ๋„ค ๊ฐ€์ง€ ์ฃผ์š” ๋„๋ฉ”์ธ ๊ฐ„์˜ ๊ต์ฐจ์ ์„ ๋ถ„์„ํ•ฉ๋‹ˆ๋‹ค.

Cross-Domain Topology Graph์—์„œ ๊ฐ ์ƒ‰์ƒ์€ ํŠน์ • ์—ฐ๊ตฌ ๋„๋ฉ”์ธ์— ํ•ด๋‹นํ•˜๊ณ , ๊ฐ ๋…ธ๋“œ๋Š” ์ž„๋ฒ ๋”ฉ ๊ธฐ๋ฐ˜ ๋ถ„์„์—์„œ ๋„์ถœ๋œ ๊ณ ์œ ํ•œ ํ† ํ”ฝ ํด๋Ÿฌ์Šคํ„ฐ๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค. ๋…ธ๋“œ ๊ฐ„์˜ ์—ฃ์ง€๋Š” ์˜๋ฏธ๋ก ์  ๋˜๋Š” ํ† ํ”ฝ์  ๊ด€๊ณ„, ํŠนํžˆ ๋„๋ฉ”์ธ ๊ฒฝ๊ณ„๋ฅผ ๋„˜๋Š” ๊ด€๊ณ„๋ฅผ ๋‚˜ํƒ€๋ƒ…๋‹ˆ๋‹ค.

Retrieval Examples

๋ชฉํ‘œ ์—ฐ๊ตฌ ํ† ํ”ฝ์ด ์‹๋ณ„๋˜๋ฉด, ๋‹ค์Œ ๋‹จ๊ณ„๋Š” ๊ตฌ์ฒด์ ์ธ ์ง„์ž…์ ์„ ์ •ํ™•ํžˆ ์ฐพ๋Š” ๊ฒƒ์ž…๋‹ˆ๋‹ค. ์ด์ „์— ์ถ”๋ก ๋œ ํ•™ํšŒ ์ˆ˜์ค€ ์ž„๋ฒ ๋”ฉ์„ ํ™œ์šฉํ•˜์—ฌ ์˜๋ฏธ๋ก ์  ๊ฒ€์ƒ‰์„ ์‹คํ–‰ํ•˜๊ณ  ๊ฐ€์žฅ ๊ด€๋ จ์„ฑ ๋†’์€ ๋ฌธํ—Œ์„ ๊ฒ€์ƒ‰ํ•ฉ๋‹ˆ๋‹ค.

์˜ˆ๋ฅผ ๋“ค์–ด, "dexterous manipulation generated data in 3D simulation and evaluated in real world"๋กœ ์ฟผ๋ฆฌํ•˜๋ฉด:

5. Experiment

Dataset

๊ณต๊ฐœ์ ์œผ๋กœ ์ด์šฉ ๊ฐ€๋Šฅํ•œ ๊ณ ์˜ํ–ฅ๋ ฅ ํ•™ํšŒ๋“ค๋กœ๋ถ€ํ„ฐ ๋ฐ์ดํ„ฐ์…‹์„ ํ๋ ˆ์ด์…˜ํ•ฉ๋‹ˆ๋‹ค. 2021-2025๋…„์˜ ๋…ผ๋ฌธ์„ ํฌํ•จํ•˜๋ฉฐ, foundation model๊ณผ ๋กœ๋ด‡๊ณตํ•™์— ์ดˆ์ ์„ ๋งž์ถฐ 2024๋…„ ์ดํ›„ foundation model ๊ด€๋ จ 4,424ํŽธ, ๋กœ๋ด‡๊ณตํ•™ ๊ด€๋ จ 1,186ํŽธ์„ ์ถ”๊ฐ€๋กœ ํ•„ํ„ฐ๋งํ–ˆ์Šต๋‹ˆ๋‹ค.

Survey Quality

๋„๋ฉ”์ธ ์ „๋ฌธ์„ฑ์„ ๊ฐ€์ง„ ๊ฒฝํ—˜ ๋งŽ์€ ์—ฐ๊ตฌ์ž๋“ค์ด ์ฐธ์—ฌํ•œ ์‚ฌ์šฉ์ž ์—ฐ๊ตฌ๋ฅผ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค. ์Œ๋ณ„ ๋น„๊ต ๋ฐฉ๋ฒ•๋ก ์„ ์ฑ„ํƒํ•˜์—ฌ, ๊ฐ ๋น„๊ต๋งˆ๋‹ค ๋‘ ๊ฐœ์˜ ์„œ๋ฒ ์ด ์ถœ๋ ฅ์„ ์ œ์‹œํ•˜๊ณ  ์–ด๋А ๊ฒƒ์ด ์šฐ์ˆ˜ํ•œ ํ’ˆ์งˆ๊ณผ ์ •ํ™•์„ฑ์„ ๋ณด์—ฌ์ฃผ๋Š”์ง€ ํŒ๋‹จํ•˜๋„๋ก ํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ: RDR์€ ํ‰๊ท  ์ˆœ์œ„ 1.30์œผ๋กœ ๋ชจ๋“  ๊ธฐ์ค€์„ ์„ ๋Šฅ๊ฐ€ํ•˜๋ฉฐ ์ตœ๊ณ ์˜ ์ „์ฒด ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค. NLP(89.47), ๋กœ๋ด‡๊ณตํ•™(77.78), foundation model output(94.74)๊ณผ ๊ฐ™์€ ์ฃผ์š” ๋„๋ฉ”์ธ์—์„œ ์„ ๋‘๋ฅผ ์ฐจ์ง€ํ–ˆ์Šต๋‹ˆ๋‹ค.

Embedding Quality

์ž„๋ฒ ๋”ฉ์˜ ํšจ๊ณผ๋ฅผ ํ‰๊ฐ€ํ•˜๊ธฐ ์œ„ํ•ด ๊ณ ์ •๋œ ํ‘œํ˜„ ์œ„์— ํ•™์Šต๋œ ๋‹จ์ˆœํ•œ ์„ ํ˜• ํ”„๋กœ๋ธŒ๋ฅผ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค. SciTopic์ด ์†Œ๊ฐœํ•œ ์‹คํ—˜ ํ”„๋กœํ† ์ฝœ์„ ๋”ฐ๋ž์œผ๋ฉฐ, ๋™์ผํ•œ ๋น„์ง€๋„ ํ•™์Šต ๋ฐ ํ‰๊ฐ€ ๋ถ„ํ• ์„ ์‚ฌ์šฉํ–ˆ์Šต๋‹ˆ๋‹ค.

๊ฒฐ๊ณผ: RDR์€ ๋‘ ๋ฐ์ดํ„ฐ์…‹ ๋ชจ๋‘์—์„œ ์ตœ๊ณ  ์„ฑ๋Šฅ์„ ๋‹ฌ์„ฑํ–ˆ์Šต๋‹ˆ๋‹ค:

๊ฒฐ๋ก 

Real Deep Research๋Š” AI์™€ ๋กœ๋ด‡๊ณตํ•™ ๋ถ„์•ผ์˜ ๋ฐฉ๋Œ€ํ•œ ๋ฌธํ—Œ์„ ์ฒด๊ณ„์ ์œผ๋กœ ๋ถ„์„ํ•˜๊ณ , ์—ฐ๊ตฌ ํŠธ๋ Œ๋“œ๋ฅผ ํŒŒ์•…ํ•˜๋ฉฐ, ํ•™์ œ๊ฐ„ ๊ธฐํšŒ๋ฅผ ๋ฐœ๊ฒฌํ•  ์ˆ˜ ์žˆ๋Š” ๊ฐ•๋ ฅํ•œ ๋„๊ตฌ์ž…๋‹ˆ๋‹ค. ์‹คํ—˜ ๊ฒฐ๊ณผ๋Š” RDR์ด ์ƒ์šฉ LLM ๋„๊ตฌ๋“ค๋ณด๋‹ค ์šฐ์ˆ˜ํ•œ ์„œ๋ฒ ์ด ํ’ˆ์งˆ๊ณผ ์ž„๋ฒ ๋”ฉ ์„ฑ๋Šฅ์„ ์ œ๊ณตํ•œ๋‹ค๋Š” ๊ฒƒ์„ ๋ณด์—ฌ์ค๋‹ˆ๋‹ค. ์ด ํ”„๋ ˆ์ž„์›Œํฌ๋Š” ์—ฐ๊ตฌ์ž๋“ค์ด ๋น ๋ฅด๊ฒŒ ๋ณ€ํ™”ํ•˜๋Š” ์—ฐ๊ตฌ ํ™˜๊ฒฝ์„ ํƒ์ƒ‰ํ•˜๊ณ  ์ƒˆ๋กœ์šด ๊ธฐํšŒ๋ฅผ ์‹๋ณ„ํ•˜๋Š” ๋ฐ ์‹ค์งˆ์ ์ธ ๋„์›€์„ ์ œ๊ณตํ•  ๊ฒƒ์œผ๋กœ ๊ธฐ๋Œ€๋ฉ๋‹ˆ๋‹ค.