CommonsenseQA

크라우드소싱 품질: 전문가 큐레이션이 아니라 문항 난이도·타당성에 편차가 있다.
공개 오염: 2019년 공개 이후 훈련 데이터에 광범위하게 포함돼 있다.
객관식 제약: 상식을 "생성"하는 능력은 측정하지 못한다.

CommonsenseQA는 2019년 Talmor 등이 공개한 상식 질의응답 벤치마크다. 일상생활에서 사람이 당연하게 알고 있는 상식을 묻는 5지선다 문항으로 구성된다.

구성

약 12,000문항. ConceptNet이라는 상식 그래프에서 관련 개념들을 뽑아 크라우드소싱 작업자가 질문을 작성했다. 각 질문에는 정답 1개와 ConceptNet에서 가져온 그럴듯한 오답 4개가 붙는다.

표준 5지선다 정확도. 문제는 짧고 배경 지식이 거의 필요 없어, 순수 상식 능력을 분리해 측정하려는 의도였다.

2022년 이후 프론티어 모델이 90%를 돌파했고, 현재는 사람 상한에 근접해 사실상 포화됐다. 크라우드소싱 기반이라 문제 품질 편차가 있다는 점도 지적된다.

상식 추론 평가의 초기 표준 중 하나로 자리 잡았지만, 지금은 변별력을 잃어 프론티어 모델 비교에는 거의 쓰이지 않는다.