CommonsenseQA

🏷️ 벤치마크 AI평가 정보

CommonsenseQA

CommonsenseQA는 2019년 Talmor 등이 공개한 상식 질의응답 벤치마크다. 일상생활에서 사람이 당연하게 알고 있는 상식을 묻는 5지선다 문항으로 구성된다.

구성

약 12,000문항. ConceptNet이라는 상식 그래프에서 관련 개념들을 뽑아 크라우드소싱 작업자가 질문을 작성했다. 각 질문에는 정답 1개와 ConceptNet에서 가져온 그럴듯한 오답 4개가 붙는다.

평가 방식

표준 5지선다 정확도. 문제는 짧고 배경 지식이 거의 필요 없어, 순수 상식 능력을 분리해 측정하려는 의도였다.

포화 상태

2022년 이후 프론티어 모델이 90%를 돌파했고, 현재는 사람 상한에 근접해 사실상 포화됐다. 크라우드소싱 기반이라 문제 품질 편차가 있다는 점도 지적된다.

한계

상식 추론 평가의 초기 표준 중 하나로 자리 잡았지만, 지금은 변별력을 잃어 프론티어 모델 비교에는 거의 쓰이지 않는다.