토큰화

🏷️ LLM NLP

토큰화(Tokenization)는 텍스트를 언어 모델이 처리할 수 있는 최소 단위인 토큰(token)으로 분할하는 전처리 과정입니다. 단어, 서브워드, 문자 등 다양한 수준에서 수행할 수 있습니다.

핵심

단어 수준: 공백 기준으로 분할. 어휘 사전이 방대해질 수 있습니다
서브워드 수준: BPE, WordPiece, SentencePiece. 희귀 단어를 조각으로 분할해 어휘 크기와 표현력을 균형 있게 유지합니다
문자 수준: 모든 문자를 토큰으로 사용. 어휘 소규모이나 시퀀스가 매우 길어집니다
현대 LLM은 서브워드 토크나이저를 표준으로 사용하여 어근 재활용 이점을 취합니다
토큰 수가 컨텍스트 길이 제한에 직접 영향을 미칩니다