사전 훈련
사전 훈련
사전 훈련(Pre-training)은 수조 토큰 규모의 대규모 텍스트 데이터로 언어의 구조, 지식, 추론 능력을 학습하는 LLM 훈련의 첫 번째 단계이다. 다음 토큰 예측(next token prediction)이 주요 학습 목표이다.
핵심
- 다음 토큰 예측(자기 회귀 언어 모델링)으로 방대한 비레이블 텍스트에서 학습한다
- Chinchilla 스케일링 법칙: \(N\)개의 매개변수에는 \(20N\)개의 토큰으로 훈련하는 것이 최적이다
- 사전 훈련 후 미세 조정(fine-tuning)으로 특정 용도에 맞게 적응한다
- 계산 비용이 매우 크며, 대규모 GPU 클러스터가 필요하다
- 사전 훈련 데이터의 품질과 다양성이 모델 성능을 크게 좌우한다