CursorBench

🏷️ 벤치마크 AI평가

CursorBench

CursorBench는 Cursor 엔지니어링 팀이 자체 코딩 세션에서 추출한 과제들로 만든 사내 벤치마크다. Cursor가 자체 학습시키는 Composer 시리즈 모델을 평가하기 위해 쓰며, 공개된 SWE-bench·Terminal-Bench와 함께 모델 발표에 같이 실리는 세 번째 축이다.

만들어진 배경

Composer 2 기술 보고서에 따르면 CursorBench는 "real coding sessions by our engineering team" 에서 유래한다. Cursor 사용자가 실제로 마주치는 상황을 그대로 옮긴 과제다.

이 두 가지 특성이 공개 벤치마크와 결이 다르다. SWE-bench는 GitHub 이슈가 출처라 비교적 잘 정제된 문제 설명이 붙고, Terminal-Bench는 환경 검증이 명확한 단일 과제다. CursorBench는 "한두 줄짜리 요구사항으로 큰 변경을 만들어내는" 실제 IDE 사용 시나리오에 가깝다.

버전 변천

버전

등장 시점

메모

초기

Composer 1.5 발표 시

구체 수치 비공개

v?

Composer 2 발표 시

Composer 2가 61.3점

v3.1 (harder tasks)

Composer 2.5 발표 시

더 어려운 과제로 재편, Composer 2.5가 63.2%

v3.1은 명시적으로 harder tasks 라벨이 붙어 있다. 모델 성능이 빠르게 올라가자 천장을 다시 밀어올린 갱신으로 보인다. Terminal-Bench가 1.0 → 2.0으로 가면서 89개 과제로 재구성한 것과 비슷한 동기다.

Composer 2.5 발표 시점 수치

모델

CursorBench v3.1

Composer 2.5

63.2%

Opus 4.7 (max effort)

64.8%

Opus 4.7 (xhigh default)

61.6%

GPT-5.5 (xhigh)

64.3%

GPT-5.5 (medium default)

59.2%

Composer 2

52.2%

Composer 2.5의 default 동작이 Opus 4.7의 max effort 근처에 자리한다. Composer 2 대비 11%p 향상으로, 같이 공개된 세 벤치 중 가장 큰 폭의 진전이다.

한계와 주의점

다만 Cursor가 Opus 4.7의 default와 max를 같이 보여주고, GPT-5.5의 medium·xhigh를 같이 표시한 점은 비교적 정직한 표시 방식이다. "effort에 따라 점수가 갈리니 default끼리 비교하라" 는 정보를 의도적으로 노출한 것이다.

같이 보면 좋은 항목