HellaSwag

HellaSwag는 2019년 Zellers 등이 공개한 상식 추론 벤치마크다. 짧은 상황 묘사가 주어지면 이어질 문장으로 가장 자연스러운 것을 4개 중에서 고르는 과제다. 이름은 "Harder Endings, Longer contexts, and Low-shot Activities"의 약자다.

구성

약 70,000문항으로 훈련·검증·테스트 분할이 제공된다. 문제는 ActivityNet 비디오 자막과 WikiHow 텍스트에서 뽑아 사람이 검수했다. 오답 선택지는 GPT 같은 모델이 생성한 뒤, 사람이 보기엔 어색하지만 모델이 속기 쉬운 것들로 선별됐다(Adversarial Filtering).

설계 의도

당시 BERT 같은 모델이 SWAG 데이터셋에서 인간 근접 수준으로 잘했기 때문에, "기계는 속지만 사람에겐 쉬운" 문항만 살려 더 어려운 버전을 만들었다. 공개 당시 인간은 95.6%, GPT-2는 48%였다.

포화 상태

2022년 이후 LLM이 빠르게 95%를 돌파하며 사실상 포화됐다. 2026년 기준 프론티어 모델 대부분이 95% 이상이라 변별력이 없다. 리더보드 비교에서는 점점 제외되는 추세다.

의의

포화됐지만 NLP 평가사에서 중요한 벤치마크다. Adversarial Filtering이라는 문항 제작 기법을 정착시켰고, 상식 추론을 계량화하는 초기 표준을 제공했다. 다만 객관식·정적 문제 풀이라는 한계가 결국 포화로 이어진 전형적 사례이기도 하다.