16MB 이하 모델을 10분 안에 8개 H100에서 최적화하는 ML 엔지니어링 챌린지
태그: 벤치마크
53개의 게시물
-
Parameter Golf 2026-06-10 -
Continual Learning Bench 1.0 2026-06-10AI 시스템이 세션을 넘어 점진적으로 학습하는 능력을 측정하는 첫 번째 실질적 벤치마크
-
SpatialWorld - Benchmarking Interactive Spatial Reasoning of Multimodal Agents in Real-World Tasks 2026-06-10멀티모달 에이전트가 실제 공간을 상호작용하며 이해하는 능력을 8개 시뮬레이터와 760개 과제로 측정한 SpatialWorld. 정적 VQA를 넘어 능동 탐색을 보게 했더니 최강 GPT-5조차 평균 성공률 17.4%에 그쳤고, 더 최신인 GPT-5.4는 조급하게 멈추는 바람에 오히려 뒤처졌습니다.
-
UCLA 팀이 ICLR 2025의 LongMemEval을 웹 에이전트 trajectory 환경으로 확장한 후속 벤치마크입니다. 451개 수작업 문항으로 static state recall·dynamic state tracking·workflow knowledge·environment gotchas·premise awareness 다섯 메모리 능력을 측정하며, 채팅 히스토리에서 ServiceNow·WebArena의 실제 에이전트 행적으로 옮겨가 25M~115M 토큰 규모의 haystack을 다룹니다.
-
컴파일된 바이너리와 문서만 주고 코드를 처음부터 다시 짜라고 했더니, 평가한 9개 최신 모델이 200개 태스크 중 단 한 개도 완전히 풀지 못했습니다. 가장 잘한 [[Claude]] Opus 4.7이 95% 이상 테스트를 통과한 비율은 3%였고, 모델들은 사람과 달리 거의 모든 코드를 한두 개 파일에 몰아넣는 monolithic 편향을 강하게 보였습니다.
-
Soohak - A Mathematician-Curated Benchmark for Evaluating Research-level Math Capabilities of LLMs 2026-05-13처음부터 새로 쓴 1141가지 수학 문제. IMO 이후 LLM 수학 평가가 어디로 가야 하는지를 묻는 SOOHAK 벤치마크를 알아봅니다.
-
WRING - 회전 기반 디바이어싱으로 두더지 잡기 딜레마 풀기 2026-05-05WRING은 모델 구조 훼손을 최소화하고 두더지 잡기 딜레마를 완화합니다. 재학습이 불필요해 실용적입니다.
-
AI 벤치마크 포화 문제 2026-04-23MMLU는 이미 포화됐고, Cybench도 100%가 나왔습니다. AI 평가 방법론이 모델 발전 속도를 따라가지 못하고 있습니다. 벤치마크가 망가졌다면, 우리는 무엇으로 모델을 비교해야 할까요.
-
Elephant Alpha 스텔스 모델 2026-04-18OpenRouter에 등장한 100B 파라미터 스텔스 모델 Elephant Alpha. 환각 억제 벤치 1위, 코딩 82%, 무료 공급. '유명한 오픈 모델 랩'의 정체를 공개하지 않은 채 강력한 성능을 내놓았습니다.
-
MA-EgoQA는 여러 구현체(embodied agent)가 동시에 촬영한 1인칭(egocentric) 영상을 종합적으로 이해하고 질의응답하는 최초의 벤치마크입니다. 6명이 7일간 공유 주택에서 생활하며 촬영한 총 266시간의 영상을 기반으로, 1,741개의 다중 에이전트 고유 질문을 제공합니다. 현재 최고 성능 모델인 Gemini-2.5-Flash조차 평균 정확도 36.93%에 그쳤고, 함께 제안된 EgoMAS는 학습 없이(training-free) 공유 메모리 + 에이전트별 동적 검색만으로 Gemini-2.5-Flash를 4.48%p 앞섰습니다.
-
일상 상식 5지선다 질의응답 벤치마크
-
12개 언어 다국어 사실 환각 평가
-
터미널 복합 작업 수행 능력 평가
-
Cursor 엔지니어링 팀의 실제 코딩 세션에서 만든 사내 코딩 에이전트 벤치마크
-
실제 오피스 업무 기반 멀티모달 평가
-
NVIDIA 차세대 칩, HBM4 288GB, 2026 하반기 예정
-
멀티모달 대학 수준 추론 벤치마크
-
상식 추론 문장 완성 벤치마크
-
실제 직무 산출물 기반 경제 가치 평가
-
파이썬 함수 작성 코딩 벤치마크
-
Humanity's Last Exam 초고난도 벤치마크
-
Google 7세대 TPU, 추론 최적화, 42.5 exaflops
-
다지선다 종합 지식 평가 벤치마크
-
초등 과학 객관식 추론 벤치마크
-
AI 정렬 상태 자동 평가 벤치마크
-
긴 컨텍스트 그래프 탐색 능력 평가
-
AWS 커스텀 AI 칩, 128GB HBM3e, UltraServer 144칩
-
웹 브라우징+정보 수집 능력 평가 벤치마크
-
NVIDIA Hopper 아키텍처 AI 훈련/추론 표준 GPU
-
AMD CDNA-3 AI 가속기, 192GB HBM3
-
GitHub 이슈 해결 소프트웨어 엔지니어링 벤치마크
-
Apple Silicon M5, 온디바이스 AI 추론, M4 대비 4배
-
웨이퍼 스케일 AI 칩, 4조 트랜지스터, 접시 크기
-
대학원 수준 과학 질의응답 벤치마크
-
추상 추론 퍼즐 기반 AGI 평가
-
AI 은밀 부수 과제 수행 정렬 벤치마크
-
Agent Red Teaming 프롬프트 인젝션 강건성 벤치마크
-
미국 수학 올림피아드 수학 추론 벤치마크
-
실제 오픈소스 취약점 재현 능력 평가
-
독해 기반 추출형 질의응답 벤치마크
-
MMLU의 후계, 10지선다 고난도 지식 평가
-
H100 후속, 141GB HBM3e 추론 최적화 GPU
-
데스크톱 GUI 환경 과제 수행 능력 평가
-
Microsoft 커스텀 AI 칩, TSMC 3nm, 216GB HBM3e
-
NVIDIA Blackwell 아키텍처, H100 대비 훈련 2.5배 GPU
-
SambaNova Reconfigurable Dataflow Unit, 엔터프라이즈 추론
-
Groq Language Processing Unit, 초저지연 추론 특화
-
CTF 사이버보안 챌린지 벤치마크
-
초등 수학 문장제 벤치마크
-
차트/그래프 이해 및 추론 벤치마크
-
미공개 연구 수준 수학 벤치마크
-
MMLU의 다국어 확장, 57개 과목 14개 언어
-
지속 갱신되는 코드 컨테스트 벤치마크