SQuAD

SQuAD(Stanford Question Answering Dataset)는 2016년 스탠퍼드에서 공개한 독해(Reading Comprehension) 벤치마크다. 위키피디아 지문과 질문이 주어지면, 지문에서 정답에 해당하는 연속된 구간을 추출하는 과제다.

두 버전

SQuAD 1.1 (2016): 약 107,000문항. 모든 질문에 지문 내 정답이 반드시 존재한다.
SQuAD 2.0 (2018): 약 150,000문항. "답이 없는" 문항 약 50,000개를 추가해, 모델이 모를 때 모른다고 답하는 능력을 측정한다.

평가 방식

Exact Match (EM): 정답 구간이 완전히 일치할 때.
F1 점수: 토큰 수준 부분 일치를 허용.

포화 상태

SQuAD 1.1: 2018년 BERT가 사람 상한을 넘겼다.
SQuAD 2.0: 2019~2020년 사이에 역시 사람 수준을 초과.

2026년 현재 프론티어 LLM에겐 거의 완전 포화 상태라 비교 벤치마크로는 사용되지 않는다.

의의

SQuAD는 현대 LLM 벤치마킹의 원형에 가까운 존재다. 크라우드소싱, 공개 리더보드, 자동 채점이라는 조합을 초기에 정착시켰고, BERT를 비롯한 트랜스포머 계열 모델의 경쟁을 가속화했다. 동시에 "객관식·단답·정적 풀"이라는 구조가 결국 빠른 포화로 이어진다는 사례이기도 하다.