모델 붕괴
모델 붕괴
모델 붕괴(Model Collapse)는 LLM이 생성한 합성 텍스트로 다음 세대 LLM을 반복적으로 훈련할 때, 훈련 데이터의 다양성이 감소하여 출력의 다양성과 품질이 점진적으로 저하되는 현상이다.
핵심
- LLM 생성 텍스트는 인간 텍스트보다 분포의 꼬리(tail)가 얇아 다양성이 낮다
- 세대를 거듭할수록 언어 분포가 "평균화"되어 희귀하고 창의적인 표현이 사라진다
- 2025년 현재 인터넷의 상당 부분이 LLM 생성 텍스트로 채워지고 있어 현실적 문제이다
- 고품질 인간 작성 데이터를 선별하는 데이터 큐레이션으로 대응한다
- 사전 훈련과 미세 조정 사이에 고품질 데이터로 중간 훈련(mid-training)을 추가하는 전략도 사용된다