ReasoningFlow - Discourse Structures for Understanding LLM Reasoning Traces

🏷️ 논문 추론 LLM

J. Lee, S. Agarwal, A. Parulekar, S. Madala, D. Hakkani-Tür, and J. Hockenmaier, "ReasoningFlow: Discourse Structures for Understanding LLM Reasoning Traces," arXiv:2606.05402, 2026.

추론 모델(LRM)은 검증, 자기 반성, 되돌아가기 같은 비선형 행동이 섞인 긴 사고 트레이스를 토해냅니다. 이 비선형성이 정답성 평가와 충실성 모니터링을 동시에 어렵게 만듭니다. 스텝 단위 평가가 어떤 스텝을 "오류"로 찍어도, 뒤따르는 자기 검증이 그 오류를 덮으면 트레이스 전체로는 맞을 수 있기 때문입니다.

ReasoningFlow는 그 긴 트레이스를 사람이 읽고 진단할 수 있는 구조로 바꿉니다. 추론 트레이스를 8종 노드와 14종 엣지로 이뤄진 방향성 비순환 그래프(DAG)로 파싱하는 담화 구조(discourse structure) 주석 프레임워크입니다. 위 그림(Figure 1)이 그 결과물입니다. 한 추론 트레이스(resp16부터 resp23까지)가 색으로 구분된 노드와 그 사이를 잇는 엣지(proceed, infer, execute, verify, uncertain)로 분해돼 있습니다.

저자

여섯 명 모두 일리노이대 어배너섐페인(UIUC) 소속입니다. 제1저자 Jinu Lee는 추론의 의미론과 뉴로심볼릭 방법을 연구하는 박사과정으로, 그의 지도교수가 시니어 저자 Julia Hockenmaier입니다. Julia Hockenmaier는 조합범주문법(CCG)으로 알려진 전산언어학 권위자입니다. 텍스트의 담화 구조를 형식적으로 다뤄온 그의 배경이, 추론 트레이스에 담화 구조 이론을 끌어오는 이 논문의 출발점입니다.

또 다른 시니어 저자 Dilek Hakkani-Tür는 아마존 알렉사 AI 수석 주임과학자를 지낸 대화형 AI 권위자입니다. 추론 트레이스의 모니터링 가능성을 높인다는 이 논문의 응용 지향에, 대화 시스템을 실제로 배포해온 그의 감각이 배어 있습니다.

이들이 짚은 빈자리는 분명합니다. LRM 트레이스 구조를 분석하려는 최근 시도들은 검증 라벨만 달거나 문단 사이 구조만 주석해 너무 거칠고, 사람 텍스트용 담화 구조(RST, 논증 구조)는 목표 지향적 추론 트레이스에서 나타나는 관계를 못 담습니다. 게다가 결정적으로, 기존 스키마 중 누구도 주석자 간 일치도(inter-annotator agreement)로 자기 스키마를 검증하지 않았습니다. 일관되게 해석 가능한지 알 수 없다는 뜻입니다.

배경

ReasoningFlow가 기존 스키마와 어떻게 다른지는 한 표로 정리됩니다.

스키마

LRM 대응

노드 수

엣지 수

입도

그래프

IAA 검증

PARC

X

1

1

문단

DAG

O

Thought Anchors

O

8

1

문장

DAG

O

R1-Thoughtology

O

4

없음

문단

선형

X

LCoT2Tree

O

1

4

문단

트리

X

ReJump

O

1

3

문단

트리

X

ReasoningFlow (본 논문)

O

8

14

부분 문장

DAG

O

작성 시점 기준으로, 세밀한 노드와 엣지를 동시에 주석하면서 주석자 간 일치도 분석으로 검증한 건 ReasoningFlow뿐입니다. 부분 문장(sub-sentence) 단위까지 내려가는 입도도 이 프레임워크만의 특징입니다. "그러니까 x는 17이어야 한다. 그런데 다시 확인해봐야겠다" 같은 문장은, 답을 계산하는 앞부분과 검증을 계획하는 뒷부분에 서로 다른 역할을 줘야 자연스럽기 때문입니다.

어떻게 만들었나

DAG를 택한 이유는 엣지가 항상 앞 스텝에서 뒤 스텝으로 흐르는, 자기회귀 LLM의 좌에서 우로의 정보 흐름을 닮았기 때문입니다. 투영적 RST 트리나 단일 루트 논증 트리보다 구조적 유연성(엣지 교차, 한 스텝의 여러 후속)을 주면서도 자동 주석 알고리즘이 간단합니다.

노드는 기능적 역할에 따라 8종입니다. 세 핵심은 Reasoning(연역·계산 같은 주 building block), Planning(다음 노드의 내용을 예고), Reflection(앞 노드의 정확성·확신도를 평가)입니다. 여기에 Reasoning의 다섯 특수 사례, Fact, Restatement, Assumption, Example, Conclusion이 더해집니다. Assumption 노드는 가정의 범위를 표시해 뒤 노드가 의도적으로 틀릴 수 있음을 알리고(귀류법), Conclusion 노드는 모델의 답을 담아 정확도 평가에 쓰입니다.

엣지는 14종이고 네 범주, Reason, Plan, Reflect, Validate로 묶입니다. Reason 계열은 현재 스텝이 앞 스텝에서 어떻게 유도됐는지(논리 추론 infer, 계획 실행 execute, 재진술 restate)를, Plan 계열은 Planning 노드가 어떻게 동기화됐는지(다음 단계 시작 proceed, 검증 시도 verify)를, Reflect 계열은 Reflection 노드가 무엇을 어떤 감정으로 평가하는지를, Validate 계열은 멀리 떨어진 노드 사이 명제적 동등성을 비교해 지지(support)인지 반박(attack)인지를 정합니다.

검증은 두 단계입니다. 먼저 저자 네 명이 31개 트레이스(2.1k 스텝)를 손으로 주석하고 주석자 간 일치도를 쟀습니다. 노드 분류와 엣지 탐지·분류 모두 크리펜도르프 \(\alpha > 0.8\)로, 높은 신뢰도로 간주되는 수준입니다(노드 분류 \(\alpha = 0.8851\), 엣지 \(\alpha = 0.9193\)). 스키마가 또렷하게 정의돼 주석자들 사이에서 일관되게 해석된다는 뜻입니다. 그다음 LLM 기반 자동 주석 파이프라인(노드는 Gemini-3.1-Flash, 엣지는 Gemini-3-Pro)으로 1,260개 트레이스(247.7k 스텝)로 규모를 키웠습니다. 다섯 모델(Qwen2.5-32B-Instruct, QwQ-32B, DeepSeek-V3, DeepSeek-R1, GPT-oss-120B)과 세 과제(수학 AIME 2024, 과학 GPQA-Diamond, 논증 ArgKP)를 가로지릅니다.

발견

분석에서 네 가지가 나왔습니다.

첫째, 서로 다른 계열과 크기의 LRM이 구조적으로 비슷한 트레이스를 만듭니다. (노드, 엣지, 노드) 삼중항 분포를 PCA로 보면 클러스터가 생성 모델이 아니라 도메인을 기준으로 형성됩니다. 같은 과제는 비슷한 추론 구조를 부른다는 뜻입니다. 모델 간 비교에서는 추론 모델끼리가 자기 베이스 모델보다 서로 더 닮았습니다. Qwen2.5-32B와 DeepSeek-V3는 삼중항 분포의 옌센-섀넌 발산이 0.083으로 꽤 다른데, 그 추론 체크포인트인 QwQ와 DeepSeek-R1은 0.010으로 훨씬 가깝습니다. 다른 베이스와 데이터로 학습됐어도 추론 트레이스 구조는 수렴한다는 관찰입니다.

둘째, ReasoningFlow가 세밀한 추론 행동을 드러냅니다(Figure 4). 국소 검증(local verification)은 모델이 추론 중간에 오류를 잡아 몇 스텝 안에 고치는 것으로, 첫 최종 답이 나온 뒤 전체를 다시 보는 전역 검증(global verification)보다 흔하고 효과적입니다. 교정된 노드는 원래 진술보다 최종 답 도출에 더 자주 쓰입니다(gpt-oss에서 교정만 사용 53.6%). 자기 반성(self-reflection)의 감정은 노드 품질과 또렷하게 상관합니다.

반성 감정

노드 정확도 (AIME/GPQA)

positive

78.1%

uncertain

66.2%

negative

45.6%

긍정적으로 반성한 노드는 78.1%가 옳고, 불확실은 66.2%, 부정은 45.6%로 떨어집니다. 자기 반성 문구가 단순한 채움말이 아니라 노드 품질을 실제로 반영한다는 뜻이고, LRM의 내부 믿음을 모니터링할 새 가능성을 엽니다.

셋째, 그리고 가장 충격적인 발견입니다. LRM이 만든 오류 스텝의 대부분은 틀린 최종 답에 인과적으로 책임이 없습니다.

오류 유형

비율

미사용 (Unused, 최종 답과 연결 안 됨)

79.6%

무시됨 (Neglected, 오류지만 정답 도출)

6.0%

충실 전파 (Faithful, 오답으로 이어짐)

14.4%

ReasoningFlow는 모든 스텝의 전제를 추적하므로, 어떤 오류 스텝이 최종 답에 기여했는지 따질 수 있습니다. 그 결과 오류 노드의 14.4%만 틀린 최종 답으로 인과 전파됐습니다. 79.6%는 아예 최종 답에 연결되지 않았는데, 주로 되돌아가기 중에 그 방향을 탐색하다 최종 답을 안 만든 경우입니다. 나머지 6.0%는 오류임에도 정답으로 이어졌습니다(핵심 논증에서 무시됨). 추론 오류와 틀린 최종 답 사이의 인과 고리가 약한 경우가 많다는 뜻입니다. 이건 왜 오류 탐지를 잘해도 LRM 성능 향상으로 곧장 이어지지 않는지를 설명합니다. 틀렸다고 찍힌 스텝의 대부분이 답에 영향을 안 주니까요.

넷째, 기계적으로 측정한 스텝 간 인과 의존성이 언어 수준 담화 관계와 맞지 않습니다. Thought Anchors는 어텐션을 마스킹해 스텝 사이 인과 의존을 KL 발산으로 잰 점수인데, 이 점수로 ReasoningFlow 엣지를 예측해 보면(QwQ, AIME) AUC 0.549로 랜덤은 넘지만 그냥 가까운 \(K\)개 노드를 고르는 거리 기반 베이스라인(AUC 0.531)보다 의미 있게 낫지 않습니다. 즉 양의 상관을 주로 끄는 건 두 노드 사이 거리입니다. 기계적 해석과 담화 구조 사이에 간극이 있다는 뜻이고, 표면 의미와 내부 표현을 정렬하는 것이 충실한 LRM을 위한 핵심 과제임을 가리킵니다.

회고

저자들이 그은 경계가 분명합니다. 주석 비용이 커서 1.2k 자동 트레이스 전부를 손으로 검증하지는 못했고, 데이터 파이프라인 단계마다 부분 수작업 검증 결과를 부록에 제시하는 것으로 품질을 담보했습니다. 모델도 오픈웨이트 LRM 세 종(QwQ, DeepSeek-R1, GPT-oss)에 한정했고, o1이나 Gemini 같은 폐쇄형은 트레이스 접근이 막혀 빠졌습니다.

이 논문의 가치는 새 벤치마크 점수가 아니라 렌즈입니다. 추론 트레이스를 평면 텍스트가 아니라 노드와 엣지의 그래프로 보면, "오류가 정말 답을 망쳤나", "자기 반성이 진짜 품질을 반영하나", "기계적 인과와 언어적 담화가 일치하나" 같은 질문에 정량적으로 답할 수 있습니다. 어제 다룬 추론 길이 논문들(Quantized Reasoning Models, The Deterministic Horizon)과 함께 읽으면, 2026년의 화두가 "추론을 얼마나 길게 시킬까"에서 "추론 과정을 어떻게 진단하고 신뢰할까"로 옮겨가는 흐름이 또렷해집니다.

정리