평가자 간 일치도
평가자 간 일치도
평가자 간 일치도(Inter-rater Agreement)는 동일한 항목에 대해 여러 평가자들이 독립적으로 내린 판단이 얼마나 일치하는지를 정량적으로 측정하는 지표이다. LLM 평가의 신뢰성을 검증하는 데 사용된다.
핵심
- 코헨의 카파(Cohen's Kappa): 우연히 일치하는 비율을 보정한 일치도 계수
- 피어슨 상관계수, 스피어만 상관계수 등으로 수치 평가의 일치도를 측정한다
- 낮은 평가자 간 일치도는 평가 기준이 모호하거나 과제 자체가 주관적임을 의미한다
- LLM-as-a-Judge 평가에서 인간 평가자와의 일치도 검증에 사용된다
- 일치도를 높이기 위해 명확한 평가 루브릭(rubric)과 평가자 교육이 중요하다
수식
코헨의 카파: \(\kappa = \frac{p_o - p_e}{1 - p_e}\)
여기서 \(p_o\)는 실제 일치율, \(p_e\)는 우연 일치 기댓값이다.