토큰화
토큰화
토큰화(Tokenization)는 텍스트를 언어 모델이 처리할 수 있는 최소 단위인 토큰(token)으로 분할하는 전처리 과정이다. 단어, 서브워드, 문자 등 다양한 수준에서 수행할 수 있다.
핵심
- 단어 수준: 공백 기준으로 분할. 어휘 사전이 방대해질 수 있다
- 서브워드 수준: BPE, WordPiece, SentencePiece. 희귀 단어를 조각으로 분할해 어휘 크기와 표현력을 균형 있게 유지한다
- 문자 수준: 모든 문자를 토큰으로 사용. 어휘 소규모이나 시퀀스가 매우 길어진다
- 현대 LLM은 서브워드 토크나이저를 표준으로 사용하여 어근 재활용 이점을 취한다
- 토큰 수가 컨텍스트 길이 제한에 직접 영향을 미친다