ARC-AGI-2

🏷️ 벤치마크 AI평가 정보

ARC-AGI-2

ARC-AGI(Abstraction and Reasoning Corpus for AGI)는 François Chollet이 2019년 제안한 추상 추론 벤치마크의 2세대다. 색상 격자 퍼즐 몇 개를 예시로 보고 규칙을 유추해, 새 격자에 적용하는 과제다. 초등 과학 시험인 ARC와는 완전히 다른 벤치마크다.

설계 철학

일반화(generalization) 능력을 지식 누적과 분리해서 측정한다. 각 문제는 새로운 규칙을 요구하므로, 많이 본다고 유리하지 않다. Chollet은 이를 "지능의 본질은 새로운 상황에 대한 기술 획득 효율"이라는 정의로 뒷받침한다.

1세대와의 차이

현재 점수

2026년 기준 Gemini 3.1 Pro 77.1%. 1세대 대비 점수가 2배 이상 뛰면서 "아키텍처적 진짜 진보"의 신호로 해석됐다. 다만 인간 기준은 여전히 95%+라 격차가 남아 있다.

ARC-AGI-3 예고

2026년 출시 예정. 2019년 이후 첫 대규모 포맷 변경으로, 정적 퍼즐에서 상호작용적 추론으로 과제 형식을 바꾼다. 모델이 환경과 상호작용하며 규칙을 발견해야 하는 구조가 될 것으로 예고됐다.

의의

ARC Prize는 상금과 함께 열려 있는 커뮤니티 대회 형태로 운영된다. 포화 방지를 위한 "지속 갱신 + 포맷 재설계" 전략의 대표 사례로 꼽힌다.