Quantized Reasoning Models Think They Need to Think Longer, but They Do Not

🏷️ 논문 추론 LLM

S. Lotfi, P. Kirichenko, S. Li, and Z. Liu, "Quantized Reasoning Models Think They Need to Think Longer, but They Do Not," arXiv:2606.00206, 2026.

사후학습 양자화(PTQ)는 큰 모델을 싸게 배포하는 표준 도구입니다. 그런데 추론 모델에 적용하면 이상한 일이 벌어집니다. 정확도가 떨어지는 동시에 사고 사슬(chain-of-thought)이 더 길어집니다. 보통은 "양자화가 모델의 능력을 깎아서 답을 못 찾는다"고 짐작합니다. Quantized Reasoning Models Think They Need to Think Longer, but They Do Not은 그 짐작이 틀렸음을 보입니다.

핵심 발견은 제목 그대로입니다. 양자화 추론 모델은 생각을 못 해서 실패하는 게 아니라, 멈추질 못해서 실패합니다. 실패 사례의 최대 52%에서, 모델은 중간 추론 단계에 이미 정답에 도달해 놓고도 그것을 최종 답으로 내놓지 않습니다. 대신 새 추론 가지를 열고, 자기 가정을 의심하고, 이미 찾은 정답을 덮어 버립니다.

quantized-reasoning-overthink.png

저자

메타 FAIR에서 나온 논문입니다. 1저자 겸 교신은 Sanae Lotfi, 공저자는 Polina Kirichenko, Steven Li, Zechun Liu입니다.

조합이 의미심장합니다. Sanae Lotfi는 "압축의 관점으로 일반화를 이해"하는 연구로 ICML에서 상을 받은 사람입니다. 양자화라는 압축이 모델의 추론 행동을 토큰 수준에서 어떻게 바꾸는지 들여다보는 이 논문의 접근이 그 연장선입니다. Zechun Liu는 SpinQuant, LLM-QAT, MobileLLM을 이끈 양자화 전문가로, 논문이 다루는 GPTQ·AWQ·FlatQuant가 그의 앞마당입니다. Polina Kirichenko는 최근 "LLM이 언제 답하지 말아야 하는지"를 재는 AbstentionBench를 냈는데, "모델이 언제 멈추고 답을 확정해야 하는가"라는 이 논문의 질문과 결이 통합니다. 압축으로 일반화를 보는 시선, 양자화 전문성, 멈춤·기권을 보는 시선이 한 팀에 모였습니다.

배경

추론 모델의 과사고(overthinking)는 이미 잘 알려진 현상입니다. 모델이 쉬운 문제에 과도하게 연산을 쏟거나, 반복 루프에 빠지거나, 추론 길이와 정확도가 단조 관계가 아닌 경우가 보고돼 왔습니다. 한편 양자화가 추론을 해친다는 보고도 있었습니다. 저비트 PTQ에서 정확도가 떨어지고 CoT가 길어진다는 것입니다.

이 논문의 차별점은 둘을 잇는 데 있습니다. 단순히 "양자화하면 정확도가 떨어진다"를 벤치마킹하는 대신, 양자화가 추론 트레이스를 토큰 수준에서 어떻게 바꾸는지를 봅니다. 그 결과 과사고 오류의 증가를 원인으로 지목하고, 학습 없이 고치는 처방까지 내놓습니다.

실험 대상은 추론 특화 모델 다섯(DeepSeek-R1-Distill 계열 Qwen 1.5B/7B/14B, Llama 8B, 그리고 RL로 학습된 QwQ-32B)입니다. 양자화는 가중치 전용 GPTQ·AWQ(3·4비트)와, 가중치·활성·KV 캐시를 함께 줄이는 FlatQuant(W4A4KV4·W8A8KV8)를 씁니다. 벤치마크는 GSM8K, MATH-500, AIME-120, LiveCodeBench, GPQA-Diamond입니다.

무엇을 발견했나

먼저 양자화가 셀수록 정확도는 내려가고 사고는 길어집니다. Qwen-1.5B의 MATH-500에서 가장 극적입니다.

양자화

정확도 (%)

CoT 길이 (토큰)

BF16 (원본)

85.6

5.2K

GPTQ 3-bit

71.6

6.8K

FlatQuant W4A4KV4

66.4

8.0K

AWQ 3-bit

47.0

23.4K

3비트 AWQ는 정확도를 85.6%에서 47.0%로 반 토막 내면서, 평균 CoT를 5.2K에서 23.4K 토큰으로 \(4.5\times\) 늘립니다. 28개 모델-양자화 쌍에서 정확도 하락과 CoT 증가의 스피어만 상관은 \(\rho = -0.73\)입니다. 정확도를 가장 많이 잃은 모델이 가장 긴 사고를 토해 냅니다.

그 길어진 사고의 정체가 과사고입니다. BF16에서 과사고는 오류의 26%(72개 중 19개)인데, 3비트 AWQ에서는 52%(265개 중 139개)로 뛰어 절대 수로 \(7.3\times\) 늘고 지배적 실패 모드가 됩니다.

원인은 KL 발산 분석으로 드러납니다. 양자화 모델과 풀정밀(BF16) 모델을 같은 프리픽스에서 돌려, 토큰 위치별로 두 출력 분포의 KL 발산을 잽니다.

\[D_{\text{KL}}(p_t \,\|\, q_t) = \sum_{v \in V} p_t(v) \log \frac{p_t(v)}{q_t(v)}\]

여기서 \(p_t\)는 풀정밀, \(q_t\)는 양자화 모델의 다음 토큰 분포입니다. 결과가 선명합니다. 두 모델이 가장 크게 갈리는(KL 높은) 토큰은 "Wait", "But", "Alternatively", "maybe", "verify" 같은 사고 분기·망설임 토큰이고, 가장 일치하는(KL 낮은) 토큰은 수식·서식 토큰입니다. 양자화는 계산 내용을 담은 수학 토큰은 거의 안 건드리고, 머뭇거리며 새 가지를 여는 토큰만 흔듭니다. 게다가 위치별 KL은 풀정밀 모델의 다음 토큰 엔트로피와 \(\rho = 0.92\)로 강하게 상관합니다. 양자화가 이미 모델이 불확실한 지점을 가장 크게 흔든다는 뜻입니다.

처방

진단이 정확하면 처방은 간단합니다. 디코딩 매 스텝에서, 큐레이션한 과사고 마커 집합 \(S\)(50개)의 로짓에 고정 페널티 \(\lambda\)를 뺍니다.

\[z'_t(v) = \begin{cases} z_t(v) - \lambda & v \in S \\ z_t(v) & \text{그 외} \end{cases}\]

추가 순전파가 없어 연산 비용이 0이고, 하이퍼파라미터는 \(\lambda\) 하나뿐입니다. 마커는 "Wait", "But", "Alternatively", "perhaps", "however", "reconsider", "backtrack", "wrong" 같은, 망설임·자기의심·재고를 뜻하는 토큰들입니다. 추론을 매듭짓는 데 도움이 되는 "so" 같은 토큰은 일부러 뺐습니다.

결과

이 페널티는 5개 모델, 3개 양자화 기법, 5개 벤치마크 전반에서 CoT를 평균 12~23% 줄이면서 정확도를 유지하거나 높입니다. 3비트 AWQ에서 과사고 오류는 139개에서 58개로 58% 줄고, 전체 오류도 265개에서 194개로 내려갑니다.

모델 (AWQ 3-bit)

기본 정확도/길이(k)

페널티 후 정확도/길이(k)

CoT 변화

Qwen-1.5B

29.0 / 28.0

35.2 / 21.6

-28.0%

Llama-8B

46.8 / 10.1

47.6 / 9.0

-12.2%

Qwen-7B

57.3 / 11.0

57.5 / 9.9

-12.0%

QwQ-32B

72.9 / 10.5

73.7 / 9.5

-9.6%

Qwen-14B

66.7 / 9.7

67.4 / 9.2

-7.5%

(벤치마크 평균, 최적 \(\lambda\). 작은 모델일수록 과사고가 심하고 그만큼 개선 폭도 큽니다.)

가장 망가졌던 Qwen-1.5B가 정확도 +6.2점, 길이 -28%로 가장 크게 회복합니다. 큰 모델은 애초에 과사고가 덜해 개선 폭이 작지만 방향은 일관됩니다.

페널티 대상의 특정성도 절제 실험으로 확인됩니다. 무엇을 누르느냐가 결정적입니다.

페널티 대상

CoT 변화

정확도 변화

과사고 마커 (제안)

-12~23%

유지·향상

랜덤 토큰

~0

~0

High-KL 토큰

낮은 \(\lambda\)서 감소

높은 \(\lambda\)서 하락

Low-KL 토큰

+41%

-9.5%

랜덤 토큰을 누르면 아무 효과가 없고, 수학·서식이 몰린 Low-KL 토큰을 누르면 CoT가 41% 늘고 정확도가 9.5% 떨어지는 파국이 옵니다. 거꾸로 \(\lambda\)를 음수로 줘 과사고 마커를 북돋우면 CoT가 445% 폭증하고 정확도가 34% 떨어집니다. 이 토큰들이 양방향으로 추론 길이를 쥐고 있다는 증거입니다. 과사고 마커만이 "짧은 CoT + 유지/향상된 정확도"라는 파레토 좌상단을 차지합니다.

왜 그런가

저자들은 메커니즘 가설도 검증합니다. Yayla and Kumar(2026)는 양자화 신경망의 강건성이 출력층 로짓 마진 \(m = z_{(1)} - z_{(2)}\)(1등과 2등 로짓 간격)에 좌우된다고 보였습니다. 마진이 크면 양자화 잡음이 argmax를 못 바꾸지만, 마진이 작으면 작은 교란에도 선택이 뒤집힙니다.

자기회귀 생성에 옮기면 이렇습니다. 불확실한(엔트로피 높은) 위치일수록 로짓 마진이 좁아 양자화 잡음에 더 크게 흔들립니다. 실제로 KL과 엔트로피의 상관이 \(\rho = 0.92\)입니다. 그리고 과사고 마커는 엔트로피 높은 위치의 상위 20개 예측에 2~4배 더 자주 등장합니다. 결국 양자화 잡음이 불확실한 지점에서 "Wait" 같은 마커 쪽으로 표본을 밀어, 모델이 가던 길을 멈추고 새 가지를 열게 만듭니다.

과사고가 양자화만의 문제는 아닙니다. 페널티는 BF16 원본 모델의 CoT도 5.6~10.0% 줄입니다. 양자화는 새 실패 모드를 만드는 게 아니라, 이미 있던 과사고 경향을 증폭할 뿐입니다.

회고

저자들이 적은 한계는 명확합니다. 첫째, 페널티가 매 스텝 고정 \(\lambda\)를 씁니다. \(\lambda\) 값에 강건하다는 절제 결과가 있긴 하지만, 국소 엔트로피에 따라 \(\lambda\)를 동적으로 조절하는 것이 자연스러운 확장입니다. 둘째, 과사고 마커 목록이 영어 추론 모델용으로 수작업 큐레이션돼 있습니다. 모델별로 자동 구성하면 더 널리 쓸 수 있습니다. 셋째, 평가가 수학·코딩·과학 벤치마크에 한정됩니다. 다른 추론·계획 영역에서도 같은 패턴이 나타나는지는 열린 질문입니다.

한 가지 일반화 여지도 저자들이 짚습니다. 이 KL 발산 진단은 양자화에만 국한되지 않습니다. 가지치기·증류·저랭크 근사처럼 가중치를 교란하는 어떤 압축이든 불확실한 위치를 비슷하게 흔들 수 있으므로, 참조 모델과 압축 모델의 토큰 수준 발산을 비교하는 것은 "압축이 생성의 어디를 취약하게 만드는가"를 진단하는 일반 도구가 될 수 있습니다.

정리