HumanEval
HumanEval
HumanEval은 2021년 OpenAI가 Codex 논문과 함께 공개한 코드 생성 벤치마크다. 함수 시그니처와 docstring이 주어지면 모델이 함수 본문을 구현하고, 숨겨진 단위 테스트를 통과시키는 과제다.
구성
164개의 파이썬 함수 작성 문제. 각 문제는 사람이 직접 작성했으며, 훈련 데이터와 겹치지 않도록 설계됐다. 문제 유형은 문자열 처리, 간단한 알고리즘, 수학 연산 등이다.
평가 방식
- pass@k: 모델이 k개의 해법을 샘플링했을 때, 그중 하나라도 테스트를 모두 통과하면 정답. 흔히 pass@1을 보고한다.
- 자동 채점: 단위 테스트 실행 결과로 정답 판정.
포화 상태
2024년 이후 프론티어 모델이 대부분 90% 이상을 기록한다. 2026년 기준 GPT-5.4가 93.1%, Claude Opus 4.6이 유사한 수준으로 상단이 압축됐다.
주요 한계
- 훈련 데이터 오염: 2021년 공개 이후 문제와 해답이 GitHub, StackOverflow 등에 널리 퍼져 있다. 현대 LLM은 이 문제들을 "처음 보는" 문제가 아니다.
- 짧고 독립적인 함수: 실제 소프트웨어 엔지니어링은 여러 파일을 넘나들고 기존 코드를 수정하는 작업이지만, HumanEval은 단일 함수 작성만 평가한다.
후속 벤치마크
- *SWE-bench*: 실제 GitHub 이슈 해결. 저장소 단위 작업을 평가.
- *LiveCodeBench*: 최근 공개된 문제만 수집해 오염 차단.
- HumanEval+: 숨겨진 테스트 수를 수십~수백 배로 늘린 강화 버전.
HumanEval은 LLM 코딩 평가의 사실상 첫 표준이었지만, 지금은 기본 능력 확인 이상의 의미를 부여하기 어렵다.