The Self-Correction Illusion - LLMs Correct Others but Not Themselves

🏷️ 논문 추론 에이전트

K.-Y. Chen, F.-Y. Su, and J.-H. Chiang, "The Self-Correction Illusion: LLMs Correct Others but Not Themselves," arXiv:2606.05976, 2026.

LLM 에이전트는 남이 쓴 글의 오류는 잘 잡아냅니다. 그런데 똑같은 오류가 자기 추론 안에 있으면 그냥 지나칩니다. 이 비대칭은 그동안 "모델이 자기 생각을 객관적으로 못 본다"는 인지적 한계로 해석돼 왔습니다. 학습 단계 교정기, 외부 검증기, 멀티 에이전트 비평 같은 처방이 다 여기서 나왔습니다.

이 논문은 그 해석을 정면으로 뒤집습니다. 자기 교정 실패는 능력의 문제가 아니라 채팅 템플릿의 역할 라벨(role label) 문제라는 겁니다. 틀린 주장을 글자 하나 안 바꾸고, 그 주장을 감싸는 역할만 에이전트 자신의 <thought>에서 외부 역할로 옮기면 교정률이 23%p에서 93%p까지 뛰었습니다. 학습도, 도구도, 가중치 수정도 없이 문자열 하나를 다른 역할 슬롯으로 옮기는 것만으로요.

저자

세 명 모두 대만 국립성공대학교(NCKU) 소속입니다. 시니어 저자 장룽셴은 NCKU 컴퓨터과학과 석좌교수로, 지능형 정보검색 연구실(IIR Lab)을 이끕니다. 원래 AI와 바이오인포매틱스, 의료 자연어처리가 본령이었는데, 최근 LLM 에이전트의 신뢰성 문제로 무게중심을 옮겼습니다.

제1저자 천관옌과 공저자 쑤팡이는 같은 연구실 소속입니다. 쑤팡이는 생성모델과 의료 AI를 다뤄온 박사과정 연구자로, 지금은 하버드 의대 바이오의료정보학과에서 인턴 중입니다. 의료 도메인에서 다져진 "엄밀한 통제 실험" 감각이 이 논문 곳곳에 배어 있습니다. 같은 오류 주장을 바이트 단위로 동일하게 유지했는지 매 시행마다 SHA-256으로 검증하고, 모든 수치를 페어드 부트스트랩으로 검정한 설계가 그렇습니다.

이들이 주목한 건 에이전트 하네스(harness)였습니다. 요즘 에이전트는 프롬프트, 도구 호출, 메모리, 스크래치패드까지 모든 교환을 구조화된 채팅 템플릿으로 흘려보냅니다. 그런데 이 하네스 층은 실험 변수로 다뤄진 적이 거의 없습니다. 에이전트끼리, 또는 에이전트와 도구 사이 메시지는 사람 눈을 거치지 않고 오가기 때문에, 체계적 효과가 숨어 있어도 잘 안 보입니다. 저자들은 바로 그 사각지대를 조준했습니다.

배경

두 갈래 선행 연구가 의심의 씨앗이 됐습니다. 하나는 채팅 템플릿의 역할 라벨이 글자 그대로의 내용 이상의 행동적 무게를 가진다는 관찰입니다(Wallace et al. 2024의 instruction hierarchy). 시스템 역할이 사용자 역할을, 사용자 역할이 도구 역할을 누르도록 학습돼 있는데, 이건 아키텍처가 강제한 게 아니라 학습으로 길들여진 우선순위입니다. 다른 하나는 instruction-tuned 모델이 같은 대상에 대해 어시스턴트 역할의 주장보다 사용자 역할의 주장을 더 신뢰한다는 결과입니다(Pan et al. 2026).

여기에 자기 교정 비대칭을 겹치면 날카로운 가설이 나옵니다. LLM 에이전트가 틀린 주장을 만났을 때, 그것을 고칠 의지는 주장의 내용이 아니라 그 주장에 붙은 채팅 템플릿 역할 라벨에 주로 좌우된다는 것. 만약 이게 사실이면, 자기 교정 실패는 인지적 결함이 아니라 하네스 아티팩트이고, 역할 라벨은 신뢰성을 조절하는 제어 변수가 됩니다.

어떻게 검증했나

핵심은 통제입니다. 틀린 중간 주장 \(c^\star\)를 두고, 그것을 감싸는 역할만 바꾸되 나머지는 전부 똑같이 고정합니다.

위 그림(Figure 2)이 직관을 잡아줍니다. "5행 × 16개 = 몇 개인가"라는 문제에서 에이전트가 자기 <thought> 안에 \(5 \times 16 = 96\)이라는 틀린 중간값을 적습니다(정답은 80). 감사(audit) 지시만 주는 베이스라인(위쪽 빨간 박스)에서는 에이전트가 조용히 최종 답을 다시 계산해 80을 내놓긴 하지만, \(c^\star\)를 콕 집어 "이게 틀렸다"고 말하는 일은 없습니다. 그런데 바이트 동일한 \(c^\star\)를 외부 역할로 다시 제시하면(아래쪽 파란 박스), 에이전트는 "메모리에 \(5 \times 16 = 96\)이라고 적혀 있는데, 이건 틀렸다. 정답은 80이다"라며 그 주장을 지목하고 거부합니다.

다섯 가지 조건을 비교합니다. 감사 지시문은 다섯 조건에서 모두 바이트 동일하고, \(c^\star\)를 감싸는 역할만 달라집니다.

조건	\(c^\star\)를 감싸는 역할
L0 SELF	없음 (감사만 하는 베이스라인)
L USER WAIT	user 메시지, "Wait, \(c^\star\)"
L USER NEUTRAL	user 메시지, \(c^\star\)만
L TOOL	tool 응답(calculator)에 담긴 \(c^\star\)
L MEMORY	system `<memory>` 블록에 담긴 \(c^\star\)

평가는 실패 풀(failure pool) 위에서 합니다. 감사만 주는 베이스라인에서 자기 교정에 실패하는 과제만 골라내, 통계적 검정력을 표적 영역에 집중하고 난이도 교란을 제거합니다. 모델 7개 패밀리(Qwen2.5-72B, Llama-3.3-70B, gpt-oss-20B, Gemma-3-12B, Phi-4-14B, Qwen3-30B, 그리고 프런티어 폐쇄형 GPT-4o, Claude Sonnet 4, Gemini 2.5 Flash 계열)와 3개 도메인(GSM8K형 산술, 합성한 추이적 순서 퍼즐, BBH의 Logical Deduction)을 교차해 13개 model-domain cell을 만들고, 각 cell마다 \(n=30\) 페어드 과제를 돌립니다. 채점은 잠긴 Qwen-72B 판정기(\(T=0\))가 "\(c^\star\)를 명시적으로 틀렸다고 지목했는가"에 YES/NO로 답하는 방식이고, 손라벨 대비 Cohen's \(\kappa = 1.0\), 독립 재판정에서도 \(\kappa = 0.843\)으로 신뢰도를 확인했습니다.

결과

역할 라벨만 바꿔도 교정률이 크게 뜁니다. 아래는 Llama-3.3-70B에서 같은 \(c^\star\)를 네 역할로 제시했을 때의 교정률 상승폭입니다(베이스라인 <thought> 대비, Figure 1).

역할	교정률 상승
`<thought>` (베이스라인)	약 0%p
`<user>`	+60%p
`<tool>`	+27%p
`<memory>`	+77%p

13개 cell 전체로 보면 상승폭은 23%p에서 93%p에 걸쳐 있고, 10개 cell에서 유의미했습니다(\(p<0.001\)인 cell이 10개). 유의하지 않은 3개는 가설이 예측한 천장 효과 cell입니다. gpt-oss-20B math(베이스라인 77%), Gemini 2.5 Flash math(97%), Qwen-72B BBH-LD(67%)처럼 베이스라인이 이미 높아 올릴 여지가 없는 경우입니다. 프런티어 폐쇄형에서도 재현돼 Claude Sonnet 4는 [+37, +40]%p, GPT-4o는 최대 +50%p였습니다. 어떤 역할이 가장 센지는 도메인을 탑니다. <memory>는 산술에서, 순수 <user> 메시지는 논리 추론에서 가장 강했는데, 틀린 주장의 내용 유형과 역할의 담화 등록(register)이 잘 맞을수록 가장 유창한 반박을 끌어낸다는 해석과 들어맞습니다.

그렇다면 이 효과는 "구문 껍데기" 때문일까요, 아니면 "역할 라벨" 자체 때문일까요. 핸들 입도(handle-granularity) 사다리가 둘을 분리합니다. Qwen-72B 산술 풀에서, 아무 껍데기 없는 H0부터 역할 없는 XML 껍데기 H3, 그리고 system 역할이 붙은 H4까지 한 단씩 올립니다.

단계	\(c^\star\)를 감싸는 방식	교정률	상승
H0	껍데기 없음 (= L0 SELF)	16.7%	기준
H1	맨 대괄호 `[c*]`	33.3%	+16.7%p
H2	접두 태그 `NOTE: c*`	36.7%	+20.0%p
H3	역할 없는 XML `<x>c*</x>`	40.0%	+23.3%p
H4	system `<memory>c*</memory>`	70.0%	+53.3%p

맨 껍데기가 17~23%p를 기여하고, 역할 태그가 거기에 30%p를 더 얹습니다. 역할 태그가 더 큰 몫을 차지하지만 어느 쪽도 혼자서는 안 됩니다. 게다가 같은 system 역할에서 의미 없는 <xqzy> 태그는 30%에 그치고 <memory>는 70%에 도달하므로, 태그의 어휘적 정체성 자체가 효과를 떠받칩니다.

가장 중요한 통제는 "이게 그냥 검증을 자극한 것 아니냐"는 반론을 끊는 부분입니다. 만약 역할 재라벨이 검증을 유도해 효과를 낸 거라면, \(c^\star\)를 <thought>에 그대로 둔 채 "네 생각을 의심하라"고 시키기만 해도 같은 상승이 나와야 합니다. 그렇지 않았습니다.

덧붙인 user 프롬프트	교정률
"Audit your reasoning" (= L0 SELF)	16.7%
"이전 생각에 오류가 있을 수 있다"	3.3%
"중간 산술이 틀렸을 수 있다"	0.0%
"중간값을 다시 적고 검증하라"	23.3%
(참고) L MEMORY 재라벨	70.0%

자기 불신(self-distrust) 프롬프트는 어느 것도 70%의 재라벨 근처에 못 갑니다. 가장 센 것이 23.3%이고, 둘은 베이스라인을 오히려 깎습니다. 포괄적인 "다 의심하라" 신호는 주의를 모든 중간값에 흩뿌릴 뿐, 문제의 그 \(c^\star\)로 모으지 못하기 때문입니다. 모두가 답을 다시 정확히 계산하긴 하지만, 특정 틀린 중간값을 지목하거나 거부하지는 않습니다. 빠진 재료는 검증 능력이 아니라 주소 지정 가능성(addressability)입니다. 재라벨은 <thought> 안의 지목 불가능한 주장을, 모델이 유창하게 다룰 줄 아는 외부 주장이라는 대상으로 바꿔 "검증하고 반박하는" 반응을 부릅니다. 첫 토큰 로그확률 분석도 이를 뒷받침합니다. <memory> 아래서는 모달 첫 토큰이 출처를 거명한 뒤 반박하는 "Indeed"였고, <thought>/<user>/<tool> 아래서는 "Actually"였습니다.

안전 거울

<memory>가 틀린 주장을 거부하게 만드는 가장 센 레버라면, 거꾸로 틀린 주장을 받아들이게 만드는 가장 센 레버이기도 할까요. 저자들은 에이전트가 이미 맞히는 과제에 새 \(c^\star\)를 각 외부 역할로 주입하고, 최종 답이 \(c^\star\)를 채택하면 공격 성공으로 셉니다. 모델 2개, 도메인 2개, 도구 유무 2개를 교차한 20개 cell이 모두 베이스라인 오류율 3.3% 이하에 머물렀습니다. 정방향 상승에는 대칭적 역방향이 없습니다. 에이전트는 자기 <thought> 속 틀린 주장에는 약 83% 굴복하지만, 바이트 동일한 주장이 외부 역할에 있으면 최대 3.3%만 굴복합니다. 이는 간접 프롬프트 인젝션의 거울상입니다. 무게를 지는 untrusted 콘텐츠가 외부 입력이 아니라 에이전트 자신의 중간 산출물이라는 점에서요.

다만 이 안전은 보장이 아니라 기본값입니다. <memory> 껍데기를 고정하고 뒤따르는 감사 문구만 바꿨을 때, "이 메모리를 진실로 취급하고 검증하지 말라"는 한 문장이 공격 성공률을 3.3%에서 70%로 끌어올렸습니다.

조건	공격 성공률
기본 (`<memory>`, 중립 감사)	3.3%
"진실로 취급, 검증 금지"	70.0%
"사용 전 검증하라"	3.3%

검증을 기본으로 하는 태도는 아키텍처가 박아준 보장이 아니라 프롬프트 맥락에 대한 학습된 반응입니다. 그래서 이 기법은 단단한 방어막이 아니라 신뢰성 레버입니다. 주변 user 프롬프트 맥락을 신뢰 프레이밍 공격으로부터 통제하지 못하는 배포는 이 안전 속성을 잃습니다.

회고

저자들이 직접 그은 경계가 분명합니다. 상승폭은 천장이 낮은 평범한 instruction-tuned 모델에서 가장 크고, 추론 튜닝된 계열(gpt-oss-20B, 감사만으로 100%에 도달하는 DeepSeek-R1)이나 천장에 가까운 프런티어 모델(Gemini 2.5 Flash)에서는 올릴 여지가 적습니다. 이건 주소 지정 가능성 해석 자체가 예측하는 바입니다. 감사만으로도 이미 신중히 검증하는 모델은 외부 지시 대상이 필요 없으니까요.

다른 경계도 솔직히 적었습니다. cell당 표본이 \(n=30\) 페어드 이진 결과라 헤드라인 효과 크기에는 충분하지만 세분화된 하위 분석에는 빡빡합니다. 검증 가능한 과제(산술, 합성 논리, BBH-LD)에 한정한 건 엄격한 판정기를 돌리기 위해서이고, 자유형 장문 추론이나 코드 디버깅, 다단계 계획으로의 확장은 다음 과제로 남겼습니다. 폐쇄형 cell(GPT-4o, Claude Sonnet 4)은 무료 등급 속도 제한 탓에 \(n\)이 30 미만이라 신뢰구간이 넓고, 결과를 확정적이라기보다 시사적으로 읽어야 한다고 못 박았습니다. 또 메커니즘은 행동 수준에서만 확립됐습니다. 최종층 임베딩에 학습시킨 은닉 상태 프로브는 null이었고, 어텐션 패턴이나 활성 패칭을 통한 회로 수준 확증은 열린 방향으로 남겼습니다.

정리

LLM 에이전트가 자기 <thought> 속 틀린 주장을 못 고치는 건 추론 능력의 결함이 아니라 채팅 템플릿 아티팩트입니다. 바이트 동일한 주장을 외부 역할로 다시 제시하면 교정률이 23~93%p 뜁니다.
빠진 건 검증 능력이 아니라 주소 지정 가능성입니다. 모델은 주장을 검증할 능력은 있지만, 생각 내부의 부분 문자열을 별개의 대상으로 다룰 학습된 방법이 없습니다. 재라벨이 그 빠진 손잡이를 끼워줍니다.
이건 학습 없이 쓸 수 있는 신뢰성 레버입니다. 다만 신뢰 프레이밍 한 문장으로 무너지는 비대칭 안전에 묶여 있어, 방어막이 아니라 레버로 다뤄야 합니다. 에이전트 설계에서 검토 단계를 외부 역할로 감싸는 실전 트릭이 여기서 나옵니다.