모델 붕괴

🏷️ LLM

모델 붕괴

모델 붕괴(Model Collapse)는 LLM이 생성한 합성 텍스트로 다음 세대 LLM을 반복적으로 훈련할 때, 훈련 데이터의 다양성이 감소하여 출력의 다양성과 품질이 점진적으로 저하되는 현상이다.

핵심

LLM 생성 텍스트는 인간 텍스트보다 분포의 꼬리(tail)가 얇아 다양성이 낮다
세대를 거듭할수록 언어 분포가 "평균화"되어 희귀하고 창의적인 표현이 사라진다
2025년 현재 인터넷의 상당 부분이 LLM 생성 텍스트로 채워지고 있어 현실적 문제이다
고품질 인간 작성 데이터를 선별하는 데이터 큐레이션으로 대응한다
사전 훈련과 미세 조정 사이에 고품질 데이터로 중간 훈련(mid-training)을 추가하는 전략도 사용된다