Thinking to Recall - How Reasoning Unlocks Parametric Knowledge in LLMs

추론 모델(R-LLM)이 수학이나 코딩에서 효과적인 건 직관적으로 이해됩니다. 복잡한 문제를 단계별로 분해해야 하니까요. 근데 "네팔의 10번째 왕은 누구야?" 같은 단순 사실 질문에서도 추론이 도움이 된다면? 단계별 논리 분해가 필요 없는 질문인데, 왜 thinking을 켜면 정답률이 올라갈까요?

이 논문은 그 메커니즘을 실험적으로 파헤칩니다. Google Research와 Technion, Tel Aviv University의 공동 연구입니다.

Gekhman, Zorik et al., "Thinking to Recall: How Reasoning Unlocks Parametric Knowledge in LLMs", arXiv preprint, arXiv:2603.09906, Mar. 2026.

링크 : https://arxiv.org/abs/2603.09906

요약

기술 스펙

실험 모델 - Gemini-2.5-Flash, Gemini-2.5-Pro (하이브리드 모드: 추론 ON/OFF 전환 가능) - Qwen3-32B (하이브리드 모드)

데이터셋 - SimpleQA-Verified: 1,000개 (단순 사실 질문, 90%가 single-hop) - EntityQuestions: 1,000개 (4개 관계 × 250개, 템플릿 기반)

핵심 지표 - pass@k: k개 샘플 중 하나라도 정답일 확률 (N=100) - Ω: 추론 효과 종합 지표 (높은 k에 가중치 부여)

주요 결과 - 추론 ON이 pass@k를 일관되게 향상 (일부 경우 거의 2배) - 더미 추론 토큰만으로도 성능 향상 (computational buffer 효과) - 추론 중 할루시네이션된 사실 → 최종 답 정답률 급락 (SimpleQA: 41.4% → 26.4%) - 추론 trace에서 사실만 추출해 컨텍스트로 제공해도 대부분의 성능 이득 회복

핵심 발견

Parametric Knowledge Boundary Expansion: 추론이 모델이 "알고 있지만 꺼내지 못하던" 지식에 접근하게 해줌
Computational Buffer Effect: 추론 토큰의 의미와 무관하게, 추가 연산 자체가 정답 회상을 도움
Factual Priming: 관련 사실을 생성하면서 정답으로의 "의미적 다리" 형성
Hallucination Propagation: 추론 과정의 할루시네이션이 최종 답 할루시네이션을 유발

논문 상세

Introduction

추론 LLM(R-LLM)은 긴 Chain-of-Thought를 생성한 후 최종 답을 내놓도록 훈련됩니다. 수학, 코딩, 멀티홉 질문에서의 효과는 자명합니다. 복잡한 문제를 단계별로 풀어야 하니까요.

근데 저자들이 주목한 건 단순 사실 질문입니다. "X의 저자는 누구?" 같은 질문에는 논리적 분해가 필요 없습니다. 그런데도 추론을 켜면 성능이 올라갑니다. 왜?

이 질문에 답하기 위해 저자들은 하이브리드 모델(추론 ON/OFF 전환 가능)을 사용합니다. 같은 모델의 파라메트릭 지식을 고정한 채 추론의 효과만 분리해서 관찰할 수 있죠.

추론이 지식의 경계를 넓힌다

저자들은 pass@k 지표를 사용합니다. k개의 답을 샘플링했을 때 하나라도 맞을 확률이죠. 단순히 top-1 정확도가 아니라, 모델이 "원칙적으로 도달할 수 있는" 정답의 범위를 측정하는 겁니다.

결과는 명확합니다. 추론 ON이 모든 모델, 모든 데이터셋에서 pass@k를 일관되게 높입니다. 특히 k가 커질수록 격차가 벌어집니다. Qwen3-32B의 SimpleQA-Verified에서는 pass@k가 거의 2배까지 차이 났습니다. 이건 추론이 단순히 "이미 높은 확률의 답을 더 잘 뽑는" 게 아니라, 없으면 절대 도달 못하는 답에 접근하게 해준다는 뜻입니다.

흥미로운 관찰: 능력이 낮은 모델일수록 추론의 효과가 큽니다. 저자들의 해석은, 덜 유능한 모델이 더 많은 "숨겨진 지식"을 갖고 있고, 추론이 비효율적인 지식 회상을 보완한다는 것입니다.

질문 복잡도와 추론 효과의 관계

직관적으로는 복잡한 멀티홉 질문에서 추론이 더 도움이 될 것 같습니다. 근데 데이터를 보면 그렇지 않습니다. SimpleQA-Verified의 메타데이터에서 "추론 필요" 또는 "멀티스텝"으로 표시된 Complex 질문과 나머지 Simple 질문을 비교했을 때, 추론 효과(Ω)의 95% 신뢰구간이 겹칩니다. Complex 질문에서 추론이 더 효과적이라는 증거가 없는 거죠.

이건 중요한 시사점입니다. 단순 사실 질문에서의 추론 이득이 문제 분해 때문이 아니라, 파라메트릭 지식 회상 자체의 개선 때문이라는 뜻입니다.

메커니즘 1: Computational Buffer

첫 번째 가설은 추론 토큰이 "연산 버퍼" 역할을 한다는 것입니다. 단일 forward pass의 깊이 한계를 우회하기 위해 추가 토큰 생성이 잠재적 연산을 수행한다는 가설이죠.

검증 방법이 깔끔합니다. 원래 추론 trace를 "Let me think."라는 무의미한 문자열로 교체(반복하여 원래 길이 맞춤)하고, 이 위에서 최종 답을 다시 생성합니다(ON Dummy). 의미 있는 내용이 전혀 없는 trace인데도 성능이 올라갑니다. SimpleQA-Verified에서 accuracy가 0.206 → 0.262, EntityQuestions에서 0.457 → 0.554.

ON/OFF 편향(bias)을 배제하기 위해 ON Single Dummy(같은 문자열이지만 한 번만, 짧게)와 비교합니다. 두 조건 모두 의미 없는 trace + ON 모드인데, 길이만 다릅니다. ON Dummy가 일관되게 더 좋으니, 추가 연산 자체가 효과를 준다는 강한 증거입니다.

다만 더미 연산을 아무리 늘려도 실제 추론 ON 성능에는 못 미칩니다. 더미 trace 길이를 2048토큰까지 늘리면 효과가 증가하다가, 4096 이상에서는 오히려 감소합니다. 연산 버퍼만으로는 추론의 전체 이득을 설명할 수 없다는 뜻입니다. 무언가 더 있어야 합니다.

메커니즘 2: Factual Priming

추론 trace의 내용을 정성적으로 관찰하면, 멀티스텝 논리 전개는 거의 없습니다. 대신 후보 답을 나열하거나, 관련 사실을 회상하거나, 검색 계획을 기술하는 내용이 주를 이룹니다. 여기서 가장 의미 있는 건 관련 사실의 언급입니다.

인간 인지에서 "활성화 확산(spreading activation)" 개념이 있습니다. 한 개념을 처리하면 의미 네트워크에서 관련 이웃의 회상 임계값이 낮아진다는 거죠. 저자들은 R-LLM에서도 유사한 메커니즘이 작동한다고 가설을 세웁니다. 모델이 관련 사실을 생성하면서 정답으로의 "의미적 다리"를 스스로 만든다는 것, 이걸 generative self-retrieval이라 부릅니다.

검증 실험이 정교합니다: 1. 추론 trace에서 사실만 추출 (LLM 기반, 질문 반복·답 노출 문장은 제거) 2. OFF Facts: 추론 끄고, 추출된 사실 리스트를 컨텍스트로 제공 3. ON Facts: 추론 trace를 사실 리스트로 교체 4. 각각에 대한 Dummy 변형 (같은 길이의 무의미 문자열)

결과: OFF Facts, ON Facts 모두 각각의 Dummy 변형을 크게 앞섭니다. 추론을 꺼도 사실 리스트만 주면 성능이 오른다는 건, 사실 자체가 답 회상에 유용하다는 직접적 증거입니다. EntityQuestions에서는 ON Facts가 실제 추론 ON과 거의 동등한 성능을 보이면서 연산량은 훨씬 적었습니다.

논문의 case study가 인상적입니다. "네팔의 10번째 왕은 누구?"라는 질문에서, 추론 없이는 "Jitari Malla"(오답)를 내놓습니다. 추론을 켜면 1번째부터 9번째 왕까지 차례로 나열하면서 10번째 왕("Birendra Bir Bikram Shah Dev")에 도달합니다. 흥미로운 건, 사실 추출 시 정답을 직접 연결하는 문장은 제거했는데도, 1~9번째 왕 리스트만 컨텍스트로 주면 정답을 맞힌다는 겁니다. 전형적인 factual priming 사례죠.

할루시네이션의 전파

Factual priming의 치명적 약점이 있습니다. 모델이 스스로 생성하는 사실이니까, 할루시네이션될 수 있다는 거죠.

저자들은 대규모 검증 파이프라인을 구축합니다. 각 질문의 100개 샘플에서 추론 trace의 모든 사실을 추출하고, 각 사실을 Gemini-2.5-Flash + 웹 검색으로 개별 검증합니다. 소규모 인간 평가에서 검증 정확도가 약 100%라고 합니다.

결과는 선명합니다: - SimpleQA-Verified: 깨끗한(clean) trace의 정답률 41.4% vs 할루시네이션 trace 26.4% - EntityQuestions: clean 71.1% vs 할루시네이션 32.2%

질문별 분석에서도 동일한 질문 내에서 clean trace가 할루시네이션 trace보다 정답률이 높습니다. 질문 난이도 차이가 아니라, 같은 질문 내에서도 중간 사실의 정확성이 최종 답에 직접 영향을 준다는 뜻입니다.

실용적 활용

저자들은 이 인사이트를 추론 시점에 바로 적용할 수 있음을 보여줍니다. 여러 추론 경로 중 (1) 사실을 명시적으로 회상하는 trace를 선택하고, (2) 그중에서 할루시네이션 없는 trace를 우선하는 전략을 시뮬레이션합니다. 이렇게만 해도 상당한 정확도 향상을 얻습니다.

생각

잘한 점

실험 설계가 매우 정교합니다. 가설 주도 접근(hypothesis-driven)이라는 점이 좋습니다. "추론이 도움이 된다" → "왜?" → 가설 제시 → 통제 실험으로 검증, 이 과정이 깔끔합니다.

특히 교란 변수(confounders)를 체계적으로 제거하는 방식이 인상적입니다. ON/OFF 편향을 배제하기 위한 ON Single Dummy, 연산량 차이를 통제하기 위한 Dummy Facts, 답 노출을 방지하기 위한 다단계 필터링. 하나하나 꼼꼼합니다.

하이브리드 모델(추론 ON/OFF 전환)을 쓴 것도 좋은 선택입니다. 같은 파라미터를 가진 모델에서 추론의 효과만 분리할 수 있으니까요.

한계

몇 가지 짚어볼 점이 있습니다.

첫째, 사실 추출과 검증 파이프라인이 전부 LLM 기반입니다. Gemini-2.5-Flash/Pro로 사실을 추출하고, 다시 Gemini-2.5-Flash + 검색으로 검증합니다. 소규모 인간 평가에서 정확도가 약 100%라고 하지만, 파이프라인의 각 단계에서 미묘한 오류가 축적될 가능성을 완전히 배제하긴 어렵습니다.

둘째, 실험 모델이 Gemini 계열에 편향되어 있습니다. 주요 통제 실험은 Gemini-2.5-Flash에서만 수행되었고, Qwen3-32B는 pass@k 비교에만 사용되었습니다. 다른 아키텍처(GPT, Claude 등)에서도 동일한 메커니즘이 작동하는지는 추가 검증이 필요합니다.

셋째, 두 메커니즘의 상대적 기여도가 완전히 분리되지는 않습니다. Computational buffer와 factual priming이 독립적으로 작용하는 건 보였지만, 실제 추론에서 이 둘이 어떻게 상호작용하는지는 열린 질문으로 남아 있습니다.

넷째, "단순 사실 질문"이라는 범위 자체가 제한적입니다. 실세계 사용에서 추론이 도움이 되는 경우는 훨씬 복잡한 맥락이 많은데, 이 연구의 발견이 어디까지 일반화되는지는 불확실합니다.

의의

이 논문이 가치 있는 이유는, "추론이 왜 도움이 되는가"라는 근본적 질문에 대해 경험적 증거를 제시했다는 점입니다.

Computational buffer는 "pause tokens" (Goyal et al., 2024) 등 기존 연구의 연장선에 있지만, 현대 R-LLM에서 실제로 작동한다는 걸 최초로 보인 것 같습니다. Factual priming의 generative self-retrieval 개념은 RAG(외부 검색)과 대비되는 "내부 검색" 메커니즘으로서 흥미롭습니다. 모델이 스스로 컨텍스트를 생성해서 정답 회상을 촉진한다는 건, 추론의 역할에 대한 새로운 관점을 제공합니다.

실용적으로도 시사점이 있습니다. 추론 경로 선택 시 "할루시네이션 없는 사실 진술을 포함한 trace"를 우선하는 전략은 process reward model이나 verifier 설계에 바로 적용할 수 있을 것 같습니다. 추론 과정의 사실적 정확성이 최종 답의 품질에 직결된다는 발견은, R-LLM 훈련 시 중간 단계의 사실 정확성에도 보상을 주는 방향으로 이어질 수 있겠네요.