KisMATH - Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning

🏷️ 논문 LLM AI평가

원제: KisMATH: Do LLMs Have Knowledge of Implicit Structures in Mathematical Reasoning? 저자: Soumadeep Saha, Akshay Chaturvedi, Saptarshi Saha, Utpal Garain, Nicholas Asher 발행: 2025.07.15 (v2: 2026.01.19), TACL (Transactions of the Association for Computational Linguistics) DOI/링크: arXiv:2507.11408

Chain-of-Thought(CoT)는 수학 추론에서 일관되게 성능을 올려줍니다. 그런데 왜 그런지는 아직도 논쟁 중입니다.

한쪽에서는 이렇게 말합니다. "CoT는 복잡한 문제를 작게 쪼개서 해결하는 실제 계산 과정이다." 다른 쪽에서는 반박합니다. "CoT는 그냥 잠재 지식을 꺼내는 데 도움이 되는 장식적 텍스트다. Li et al.(2025)에 따르면 추론 트레이스의 숫자 50%를 무작위로 바꿔도 성능이 거의 안 떨어졌다." 생각보다 후자의 증거가 많습니다.

KisMATH는 이 논쟁에 결론을 내려는 시도입니다. "무작위 섭동"이 아닌 인과 구조에 정렬된 개입으로.

저자들이 제안한 것은 CCGraph입니다. LLM이 수학 문제를 풀면서 생성한 추론 트레이스에서 수식 간 인과 의존 관계를 방향 비순환 그래프로 자동 추출하는 방법입니다.

직관을 잡기 위해 간단한 예를 봅니다.

Q: 사탕이 3개 있고, 두 배를 사서 4개를 먹었다. 남은 것은?
→ x = 3
→ y = x × 2 = 6
→ z = x + y = 9
→ answer = z - 4 = 5

여기서 y는 x에 의존하고, z는 x와 y 모두에 의존하고, answer는 z에 의존합니다. 이 의존 관계 전체를 하나의 DAG로 표현한 것이 CCGraph입니다.

노드는 질문·추론·답 안의 수식 표현들입니다. 엣지는 "A가 B를 계산하는 데 인과적으로 사용됐다"는 관계입니다.

방법론

CCGraph 추출 알고리즘

추출 절차는 답 노드에서 역방향으로 시작합니다.

답을 루트 노드로 설정
답과 매칭되는 수식을 추론 트레이스에서 역순으로 탐색
두 수식이 "매칭"되는 조건: 정확한 문자열 일치 또는 SymPy 파싱 트리의 공유 노드
탐색이 질문 노드까지 닿으면 종료 (사이클 방지 자동 보장)
연결 끊긴 노드 가지치기

결과로 나오는 각 CCGraph에서 질문 노드 → 답 노드까지 이어지는 가장 긴 단순 경로들을 R Path라고 부릅니다. "이 모델이 이 문제를 어떤 수식 경로를 통해 풀었는가"의 요약입니다. 문제 난이도에 따라 GSM8K는 상위 5개, MATH500·AIME는 상위 10개를 선택합니다.

데이터셋: KisMATH

추론 트레이스 생성에는 OpenAI o3-2025-04-16을 썼습니다. 5-shot CoT, medium reasoning effort 설정으로 생성했습니다.

출처	문제 수	평균 노드 수	평균 엣지 수	평균 경로 길이
GSM8K	983	14.2 ± 4.6	40.8 ± 30.4	6.4 ± 1.8
MATH500	384	28.7 ± 17.9	260.8 ± 321.2	8.7 ± 2.1
AIME	304	50.6 ± 20.9	566.6 ± 487.7	10.9 ± 1.6
합계	1,671

AIME 문제 하나에 평균 50개 이상의 수식 노드가 생깁니다. 그래프가 얼마나 복잡한지 가늠이 됩니다.

전체 그래프 스케일은 약 4만 개 정점, 30만 개 엣지입니다. 이 중 수동 보정이 필요했던 것은 정점 88개, 엣지 71개 — 전체의 0.02% 수준입니다. 알고리즘 자동화 품질이 꽤 높습니다.

이전 수동 작업들과 비교하면 이 스케일의 의미가 명확합니다. Tan(2023)은 GSM8K 27개를 수작업으로 주석했고, Lee et al.(2025)은 30개, Bogdan et al.(2025)은 10개였습니다. KisMATH는 이걸 자동화로 1,671개까지 확장했습니다.

테스트한 LLM 15개

1B~70B 파라미터 범위의 오픈웨이트 모델들을 씁니다.

Gemma 3: 1B, 12B, 27B
Qwen 3: 1.7B, 8B, 32B
Qwen 2.5: 7B, 7B-Math
DeepSeek R1: 1.5B, 8B, 8B-0528, 32B, 70B
Llama 3.1: 8B / Llama 3.3: 70B

실험 결과

실험은 크게 세 질문을 답합니다. "추론 노드들이 답에 인과적으로 기여하는가?", "R Path가 정말 핵심 경로인가?", "모델이 CCGraph 구조를 내부적으로 알고 있는가?"

실험 1 — 추론 노드는 정말 인과 기여자인가?

어텐션 억제를 씁니다. 특정 토큰들로 가는 어텐션 가중치를 0으로 만들어버리는 겁니다. 추론 노드 전체에 억제를 걸었을 때 최종 답의 엔트로피가 얼마나 변하는지 봅니다.

결과는 압도적입니다.

KS 검정 p값: p < 10⁻¹² (전 모델, 전 데이터셋)
DeepSeek R1 1.5B 기준: 엔트로피 0.02 → 3.58 (억제 후)

억제 전에는 모델이 확신 있게 답을 골랐습니다. 억제 후에는 완전히 헷갈립니다. 추론 토큰들이 장식이 아니라는 게 통계적으로 확인됩니다.

실험 2 — R Path를 끊으면 얼마나 망가지나?

이번엔 전체 추론 노드가 아니라 R Path 토큰만 억제합니다. 그래프 추출 알고리즘이 식별한 "핵심 경로" 만을 타깃으로 합니다.

KS 거리: 0.8~0.99 범위
통계 유의성: p < 10⁻³⁰⁰
일부 케이스에서는 전체 노드 억제보다 R Path 억제가 더 강한 효과를 보임

다시 말해, CCGraph가 식별한 R Path가 모델 내부에서도 실제 핵심 경로로 작동하고 있습니다. 알고리즘이 맞는 걸 찾아낸 겁니다.

실험 3 — 모델은 CCGraph 구조를 내부적으로 '알고' 있나?

가장 흥미로운 실험입니다. R Path의 전이 확률을 같은 길이의 무작위 경로와 비교합니다. 모델이 CCGraph 경로에 무작위 경로보다 높은 확률을 부여하는지를 봅니다.

두 가지 행동 패턴이 나타났습니다.

집중형 (Qwen3 32B 등 대부분): R Path가 100번째 백분위에서 뾰족한 스파이크를 보입니다. 거의 모든 R Path 전이가 무작위 경로보다 높은 확률로 평가됩니다. 평균 로그 확률 −0.0098, 분산 0.0002. 모델이 CCGraph 구조를 강하게 선호합니다. 탐색 범위가 좁고, 확신 있게 특정 경로를 따라갑니다.

분산형 (DeepSeek R1 32B 등): 분포가 훨씬 넓게 퍼져 있습니다. 평균 로그 확률 −1.7603, 분산 0.9217. 일부 R Path는 낮은 확률을 받습니다. 모델이 여러 경로를 탐색하는 경향이 있습니다.

그리고 여기서 성능 차이가 납니다.

모델	pass@1 (AIME)	pass@10 (AIME)
DeepSeek R1 32B (분산형)	71.6% ± 3.0	90%
Qwen3 32B (집중형)	68.6% ± 3.4	87%

pass@1은 비슷합니다. 그런데 pass@10에서 벌어집니다. 여러 번 시도할 기회가 주어졌을 때, 다양한 경로를 탐색하는 모델이 더 자주 정답에 도달합니다.

저자들은 이걸 강화학습 기반 추론 훈련(RLVR)의 부작용과 연결합니다. 집중형 모델들은 RLVR 훈련으로 특정 경로에 "과신감"이 생긴 것일 수 있습니다. Wang et al.(2025)이 말한 "고엔트로피 포크 토큰"이 다양한 탐색을 가능하게 한다는 주장과도 일치합니다.

수식만으로 충분한가?

마지막 실험은 수식 표현 억제 M(G)와 주변 자연어 텍스트 억제 M(Gᶜ)를 비교합니다.

데이터셋	M(G) 답 변경률	M(Gᶜ) 답 변경률
GSM8K	70.9%	10.3%
MATH500/AIME	균형적	균형적

GSM8K 수준의 계산 문제에서는 수식이 압도적입니다. 자연어를 다 없애도 10% 정도만 흔들리는데, 수식을 없애면 70%가 바뀝니다.

그런데 MATH500·AIME의 복잡한 문제에서는 양쪽이 비슷해집니다. "따라서", "이것으로부터", "필요충분조건" 같은 논리적 담화 연결어들이 수식만큼 중요해집니다. 어려운 문제일수록 수식과 언어가 함께 작동합니다.

결론

KisMATH가 보여준 것은 단순합니다. LLM의 CoT 추론 트레이스에는 암묵적인 인과 그래프 구조가 존재하고, 모델들은 그 구조를 내부적으로 실현하고 있습니다. "중간 토큰들이 단순 장식"이라는 주장에 반박하는 최초의 엄밀한 인과 증거입니다.

한계도 있습니다. 기하학, 추상 대수, 상식 추론에는 적용이 어렵습니다. SymPy 기반 파싱이 "H를 G의 정규 부분군이라 하자" 같은 정의적 문장을 다루지 못합니다. 또한 추론 트레이스를 o3로 생성했기 때문에, 트레이스 생성 모델과 평가 대상 모델 사이에 구조적 유사성 편향이 있을 수 있습니다.

이 연구가 열어놓은 것은 그래프 정렬 개입입니다. 무작위로 토큰을 건드리는 게 아니라, 인과 구조에 기반해서 특정 경로만 표적으로 개입할 수 있습니다. CoT 해석 가능성, 추론 오류 진단, 모델 훈련 시 CoT 경로 제어 — 모두 이걸 기반으로 확장할 수 있습니다.

후속 연구 흐름도 이미 잡히고 있습니다. "Thought Anchors" (arXiv:2506.19143)는 CoT 문장 간 인과 의존성을 어텐션 마스킹으로 측정하고 어떤 thought가 핵심인지를 식별합니다. Causal-CoT (OpenReview)는 DAG 기반 CoT 생성·강화·검증의 3단계 파이프라인을 제안합니다. "CoT를 계산 그래프로 검증" (arXiv:2510.09312)은 CoT 정확성 검증 문제를 그래프 관점으로 접근합니다.

방향이 보입니다. CoT를 블랙박스 텍스트가 아닌 인과 구조로 이해하고 제어하는 쪽으로 연구가 수렴하고 있습니다.

참고 자료