MMLU는 이미 포화됐고, Cybench도 100%가 나왔습니다. AI 평가 방법론이 모델 발전 속도를 따라가지 못하고 있습니다. 벤치마크가 망가졌다면, 우리는 무엇으로 모델을 비교해야 할까요.
태그: 벤치마크
45개의 게시물
-
AI 벤치마크 포화 문제 2026-04-23 -
Elephant Alpha 스텔스 모델 2026-04-18OpenRouter에 등장한 100B 파라미터 스텔스 모델 Elephant Alpha. 환각 억제 벤치 1위, 코딩 82%, 무료 공급. '유명한 오픈 모델 랩'의 정체를 공개하지 않은 채 강력한 성능을 내놓았습니다.
-
MA-EgoQA는 여러 구현체(embodied agent)가 동시에 촬영한 1인칭(egocentric) 영상을 종합적으로 이해하고 질의응답하는 최초의 벤치마크입니다. 6명이 7일간 공유 주택에서 생활하며 촬영한 총 266시간의 영상을 기반으로, 1,741개의 다중 에이전트 고유 질문을 제공합니다. 현재 최고 성능 모델인 Gemini-2.5-Flash조차 평균 정확도 36.93%에 그쳤고, 함께 제안된 EgoMAS는 학습 없이(training-free) 공유 메모리 + 에이전트별 동적 검색만으로 Gemini-2.5-Flash를 4.48%p 앞섰습니다.
-
Agent Red Teaming 프롬프트 인젝션 강건성 벤치마크
-
다지선다 종합 지식 평가 벤치마크
-
Humanity's Last Exam 초고난도 벤치마크
-
실제 오픈소스 취약점 재현 능력 평가
-
Google 7세대 TPU, 추론 최적화, 42.5 exaflops
-
데스크톱 GUI 환경 과제 수행 능력 평가
-
터미널 복합 작업 수행 능력 평가
-
초등 수학 문장제 벤치마크
-
미공개 연구 수준 수학 벤치마크
-
차트/그래프 이해 및 추론 벤치마크
-
긴 컨텍스트 그래프 탐색 능력 평가
-
Microsoft 커스텀 AI 칩, TSMC 3nm, 216GB HBM3e
-
실제 직무 산출물 기반 경제 가치 평가
-
AI 은밀 부수 과제 수행 정렬 벤치마크
-
MMLU의 후계, 10지선다 고난도 지식 평가
-
지속 갱신되는 코드 컨테스트 벤치마크
-
NVIDIA Hopper 아키텍처 AI 훈련/추론 표준 GPU
-
미국 수학 올림피아드 수학 추론 벤치마크
-
독해 기반 추출형 질의응답 벤치마크
-
GitHub 이슈 해결 소프트웨어 엔지니어링 벤치마크
-
멀티모달 대학 수준 추론 벤치마크
-
CTF 사이버보안 챌린지 벤치마크
-
AMD CDNA-3 AI 가속기, 192GB HBM3
-
12개 언어 다국어 사실 환각 평가
-
SambaNova Reconfigurable Dataflow Unit, 엔터프라이즈 추론
-
Groq Language Processing Unit, 초저지연 추론 특화
-
추상 추론 퍼즐 기반 AGI 평가
-
파이썬 함수 작성 코딩 벤치마크
-
일상 상식 5지선다 질의응답 벤치마크
-
상식 추론 문장 완성 벤치마크
-
NVIDIA 차세대 칩, HBM4 288GB, 2026 하반기 예정
-
웨이퍼 스케일 AI 칩, 4조 트랜지스터, 접시 크기
-
대학원 수준 과학 질의응답 벤치마크
-
MMLU의 다국어 확장, 57개 과목 14개 언어
-
AI 정렬 상태 자동 평가 벤치마크
-
Apple Silicon M5, 온디바이스 AI 추론, M4 대비 4배
-
AWS 커스텀 AI 칩, 128GB HBM3e, UltraServer 144칩
-
초등 과학 객관식 추론 벤치마크
-
웹 브라우징+정보 수집 능력 평가 벤치마크
-
H100 후속, 141GB HBM3e 추론 최적화 GPU
-
NVIDIA Blackwell 아키텍처, H100 대비 훈련 2.5배 GPU
-
실제 오피스 업무 기반 멀티모달 평가