LiveCodeBench

🏷️ 벤치마크 AI평가 정보

LiveCodeBench

LiveCodeBench는 2024년 공개된 코드 생성 벤치마크다. 핵심 설계는 "모델 출시 이후 공개된 문제만 평가에 쓴다"는 것. 훈련 데이터 오염을 구조적으로 차단하기 위해 시간 축을 기준으로 문제를 꾸준히 갱신한다.

구성

LeetCode, AtCoder, Codeforces 등 코딩 컨테스트 플랫폼에서 공개된 문제를 수집한다. 문제별로 공개 날짜가 기록돼 있어, 특정 모델을 평가할 때 그 모델의 훈련 컷오프 이후 문제만 골라 쓸 수 있다.

네 가지 시나리오

  1. Code Generation: 문제 설명으로 함수 작성.
  2. Self-Repair: 실패한 코드를 오류 메시지 보고 수정.
  3. Code Execution: 주어진 코드가 특정 입력에서 반환할 값을 예측.
  4. Test Output Prediction: 코드가 통과해야 할 테스트 케이스 출력 예측.

차별점

현재 상태

HumanEval 같은 정적 벤치마크가 포화된 2026년에도 여전히 프론티어 모델 사이에 점수 차이가 나타난다. 실무에 더 가까운 알고리즘 문제 해결 능력을 측정하는 현행 표준 중 하나로 자리 잡았다.