토큰화

🏷️ 정보 LLM

토큰화

토큰화(Tokenization)는 텍스트를 언어 모델이 처리할 수 있는 최소 단위인 토큰(token)으로 분할하는 전처리 과정이다. 단어, 서브워드, 문자 등 다양한 수준에서 수행할 수 있다.

핵심