SQuAD

🏷️ 벤치마크 AI평가 정보

SQuAD

SQuAD(Stanford Question Answering Dataset)는 2016년 스탠퍼드에서 공개한 독해(Reading Comprehension) 벤치마크다. 위키피디아 지문과 질문이 주어지면, 지문에서 정답에 해당하는 연속된 구간을 추출하는 과제다.

두 버전

평가 방식

포화 상태

2026년 현재 프론티어 LLM에겐 거의 완전 포화 상태라 비교 벤치마크로는 사용되지 않는다.

의의

SQuAD는 현대 LLM 벤치마킹의 원형에 가까운 존재다. 크라우드소싱, 공개 리더보드, 자동 채점이라는 조합을 초기에 정착시켰고, BERT를 비롯한 트랜스포머 계열 모델의 경쟁을 가속화했다. 동시에 "객관식·단답·정적 풀"이라는 구조가 결국 빠른 포화로 이어진다는 사례이기도 하다.