ECLeKTic

🏷️ 벤치마크 AI평가

ECLeKTic

ECLeKTic는 12개 언어에 걸친 다국어 사실 환각(factual hallucination) 평가 벤치마크이다. 모델이 다양한 언어에서 사실에 기반한 정확한 정보를 생성하는지, 아니면 그럴듯하지만 틀린 내용을 만들어내는지를 측정한다.

대상 언어

영어, 독일어, 프랑스어, 히브리어, 힌디어, 인도네시아어, 이탈리아어, 일본어, 한국어, 중국어, 포르투갈어, 스페인어

주요 결과 (Mythos)

범주

비율

정답

55.2%

불확실

31.5%

오답

12.1%

Mythos는 전체 모델 중 최고 성능을 달성하였다. 특히 오답 비율이 12.1%로 가장 낮았으며, 불확실하다고 응답한 비율이 31.5%로 높은 편이다. 이는 모델이 확신이 없는 경우 잘못된 답변을 생성하기보다 불확실성을 표현하는 방향으로 보정되어 있음을 보여준다.