AI 벤치마크 포화 문제

🏷️ 정보 LLM 벤치마크
1-BenchmarkSaturation.png Claude Mythos Preview 시스템 카드에 이런 문장이 있었습니다.

Cybench 벤치마크가 프론티어 모델에 더 이상 충분히 유의미하지 않다.

Cybench는 CTF 챌린지 40개로 구성된 사이버보안 벤치마크입니다. 상당히 어렵게 설계됐고, 전문 해커도 쉽게 풀지 못하는 문제들입니다. 그런데 Mythos Preview가 35개 서브셋에서 pass@1 100%를 기록했습니다.

Cybench만의 문제가 아닙니다. MMLU는 프론티어 모델들이 이미 88% 이상을 기록하면서 사실상 변별력을 잃었습니다. arXiv에 올라온 논문(2602.16763)은 60개 LLM 벤치마크를 분석한 결과, 절반 가까이가 포화 상태라고 결론 짓습니다.


포화가 왜 생기는가

두 가지 이유가 겹칩니다.

첫째, 모델이 너무 빨리 좋아집니다. "몇 년은 버틸 것"이라고 만든 벤치마크가 몇 달 만에 포화되는 일이 반복되고 있습니다. Cybench가 그랬고, HumanEval이 그랬습니다.

둘째, 훈련 데이터 오염입니다. 벤치마크 문제가 인터넷에 공개돼 있으면, 그 답이 훈련 데이터에 포함될 수 있습니다. 모델이 실제로 잘하는 게 아니라 정답을 기억하는 것일 수 있습니다. 흥미로운 발견이 있는데, 논문에 따르면 테스트 데이터를 비공개로 유지해도 포화 방지에는 별 효과가 없었습니다. 오염 경로가 더 다양하다는 의미입니다.


벤치마크를 세 묶음으로 보기

지금 벤치마크를 이야기하려면 적어도 세 묶음으로 나눠야 합니다. 이미 포화된 것, 아직 변별력이 남아 있는 것, 새로 등장한 것.

1) 이미 포화된 벤치마크

프론티어 모델 비교에는 사실상 쓸모를 잃은 벤치마크들입니다.

이 묶음의 공통점은 앞서 본 포화 패턴과 정확히 겹칩니다. 객관식, 공개된 지 오래, 정답 고정.

2) 아직 변별력이 남아 있는 벤치마크

상단은 어느 정도 채워지고 있지만, 프론티어 모델 사이에 의미 있는 차이가 나오는 구간입니다.

이 묶음은 (ⅰ) 개방형·환경 기반이거나, (ⅱ) 문제를 계속 갱신하거나, (ⅲ) 전문가 큐레이션으로 난이도 상단을 밀어올렸다는 공통점이 있습니다.

3) 신생 프론티어 벤치마크

"지금 만들어도 몇 년은 버티게" 설계된 벤치마크들입니다.

이 묶음의 공통점은 (ⅰ) 전문가 큐레이션, (ⅱ) 비공개 혹은 지속 갱신되는 문제 풀, (ⅲ) 단답이 아닌 개방형·검증형 채점입니다. 앞에서 본 "포화에 강한 설계 요소"를 정확히 따르고 있습니다.


포화된 벤치마크의 공통점

왜 어떤 건 포화되고 어떤 건 버티는가. 논문이 14가지 벤치마크 설계 요소를 분석한 결과, 몇 가지 패턴이 보입니다.

바로 앞 세 묶음의 경계가 이 요소들로 설명됩니다. MMLU·HumanEval이 1번 묶음(포화)으로 내려간 이유, HLE·FrontierMath가 3번 묶음(신생)에서 버티는 이유가 같은 원리입니다.


기업 프로덕션에서의 격차

Stanford HAI 2026 AI Index는 "벤치마크 점수와 실제 배포 성능 사이의 격차가 역대 가장 크다"고 지적합니다. 에이전틱 AI 시스템에서는 이 격차가 37%에 달한다는 분석도 있습니다.

즉, A 모델의 벤치마크 점수가 B 모델보다 높다고 해서 실제 업무에서 A가 낫다고 볼 수 없습니다. 이 격차가 커질수록 벤치마크 비교는 실용적 의미를 잃어갑니다.


실제로 일어난 일들

추상적인 이야기가 아닙니다. 최근 몇 년간 메이저 모델 출시에서 포화된 벤치마크를 근거로 우위를 주장한 사례가 계속 나왔습니다.

Llama 4 Maverick (Meta, 2025년 4월): Meta는 출시 당시 LMArena에서 2위에 올랐다며 성능을 홍보했지만, 공개 버전이 아니라 벤치마크용으로 별도 튜닝한 "실험 버전"을 제출한 것이 드러났습니다. 공개 버전이 업로드되자 순위는 2위에서 32위로 주저앉았습니다. LMArena는 "Meta의 해석이 우리가 기대한 기준과 달랐다"며 정책을 업데이트했고, 업계에서는 이를 "시험 문제를 미리 보고 들어간 것"이라고 비판했습니다.

Claude 3 Opus (Anthropic, 2024년 3월): 출시 공지문은 GPT-4·Gemini 1.0 Ultra와의 비교표를 중심에 두고 MMLU, GSM8K, HumanEval 등 당시 이미 상단이 압축되고 있던 벤치마크에서의 우위를 강조했습니다. 당시에도 MMLU는 88% 근처에 몰려 있어 차이가 실제 능력 차이인지 노이즈인지 구분이 어려웠습니다.

이런 마케팅 패턴이 반복되면서 Vellum 같은 리더보드는 아예 MMLU를 "구식(outdated)" 벤치마크로 분류하고 비교에서 제외하기 시작했습니다. InfoWorld는 Llama 4 사건을 두고 "엔터프라이즈 리더들이 벤치마크 점수를 액면 그대로 받아들이면 안 되는 이유"라고 정리했습니다.


그래서 어떻게 해야 하는가

공정하게 말하면, 벤치마크가 완전히 무용해진 건 아닙니다. 완전히 새로운 모델을 처음 평가할 때, 기본적인 능력 체크 용도로는 여전히 쓸 수 있습니다.

문제는 "이 모델이 저 모델보다 낫다"는 주장에 포화된 벤치마크를 근거로 쓰는 것입니다. 위의 사례들이 보여주듯, 마케팅 문서에서 자주 볼 수 있는 패턴입니다.

실제로 어떤 모델을 써야 하는지 판단하려면, 자신의 실제 작업에 모델을 직접 돌려보는 것 외에 현재로선 더 신뢰할 수 있는 방법이 없습니다. 불편하지만, 그게 현실입니다.


참고: - When AI Benchmarks Plateau: A Systematic Study | arXiv:2602.16763 - AI Benchmarks Are Broken | MIT Technology Review - Technical Performance | Stanford HAI 2026 AI Index - Humanity's Last Exam | Nature - Meta accused of Llama 4 bait-n-switch to juice LMArena rank | The Register - What misleading Meta Llama 4 benchmark scores show enterprise leaders | InfoWorld - Introducing the next generation of Claude | Anthropic - FrontierMath Leaderboard | llm-stats - ARC Prize 2025 Results and Analysis - LLM Benchmarks 2026: MMLU, GPQA Diamond, HLE, LiveCodeBench | CodeSOTA