Parameter Golf
OpenAI에서 공개한 오픈소스 ML 엔지니어링 벤치마크. 에이전트가 학습 코드를 직접 수정하고, 훈련을 실행하고, 로그를 확인하며 다음 실험을 자율적으로 결정하는 과정을 테스트한다.
특징
- 제약 조건: 16MB 크기, 10분 이내, 8×H100 GPU
- 자동화 수준: 에이전트가 코드 수정부터 평가까지 모두 담당
- 평가 기준: 모델의 탐색 전략과 의사결정 능력 검증
Andrej Karpathy의 autoresearch 프로젝트와 유사한 구조로, 자가 수정 루프 성능을 측정하는 데 활용된다.