LiveCodeBench

🏷️ 벤치마크 AI평가

LiveCodeBench

LiveCodeBench는 2024년 공개된 코드 생성 벤치마크입니다. 핵심 설계는 "모델 출시 이후 공개된 문제만 평가에 쓴다"는 것. 훈련 데이터 오염을 구조적으로 차단하기 위해 시간 축을 기준으로 문제를 꾸준히 갱신합니다.

구성

LeetCode, AtCoder, Codeforces 등 코딩 컨테스트 플랫폼에서 공개된 문제를 수집합니다. 문제별로 공개 날짜가 기록돼 있어, 특정 모델을 평가할 때 그 모델의 훈련 컷오프 이후 문제만 골라 쓸 수 있습니다.

네 가지 시나리오

Code Generation: 문제 설명으로 함수 작성.
Self-Repair: 실패한 코드를 오류 메시지 보고 수정.
Code Execution: 주어진 코드가 특정 입력에서 반환할 값을 예측.
Test Output Prediction: 코드가 통과해야 할 테스트 케이스 출력 예측.

차별점

오염 방지 설계: 훈련 컷오프 이후 문제로 평가하므로 정답 기억이 불가능합니다.
지속 갱신: 새 컨테스트 문제가 계속 추가되며, 벤치마크가 "살아 있다".
다면 평가: 단순 생성뿐 아니라 실행 추론, 수정 능력까지 봅니다.

현재 상태

HumanEval 같은 정적 벤치마크가 포화된 2026년에도 여전히 프론티어 모델 사이에 점수 차이가 나타납니다. 실무에 더 가까운 알고리즘 문제 해결 능력을 측정하는 현행 표준 중 하나로 자리 잡았습니다.