HumanEval

🏷️ 벤치마크 AI평가 정보

HumanEval

HumanEval은 2021년 OpenAI가 Codex 논문과 함께 공개한 코드 생성 벤치마크다. 함수 시그니처와 docstring이 주어지면 모델이 함수 본문을 구현하고, 숨겨진 단위 테스트를 통과시키는 과제다.

구성

164개의 파이썬 함수 작성 문제. 각 문제는 사람이 직접 작성했으며, 훈련 데이터와 겹치지 않도록 설계됐다. 문제 유형은 문자열 처리, 간단한 알고리즘, 수학 연산 등이다.

평가 방식

포화 상태

2024년 이후 프론티어 모델이 대부분 90% 이상을 기록한다. 2026년 기준 GPT-5.4가 93.1%, Claude Opus 4.6이 유사한 수준으로 상단이 압축됐다.

주요 한계

후속 벤치마크

HumanEval은 LLM 코딩 평가의 사실상 첫 표준이었지만, 지금은 기본 능력 확인 이상의 의미를 부여하기 어렵다.