컨텍스트 윈도우
컨텍스트 윈도우(context window)는 LLM이 한 번의 추론에서 동시에 다룰 수 있는 토큰의 최대 길이를 가리킨다. 입력 프롬프트와 모델이 생성하는 출력을 모두 포함하며, 이 한도를 넘는 정보는 잘리거나 별도의 요약·검색 단계가 필요하다.
GPT-3 시절 2K, GPT-3.5 4K, GPT-4 8~32K로 시작한 한도는 Gemini 1.5에서 100만 토큰을 돌파한 뒤 Claude Opus 1M, GPT-5 시리즈 1M 등 프론티어 모델 대부분이 1M 토큰 안팎을 지원하는 수준까지 확장됐다.
다만 윈도우가 커진다고 해서 모델이 그 안의 모든 정보를 균등하게 활용하는 것은 아니다. 중간 부분의 정보를 흘려버리는 lost-in-the-middle 현상이 보고되어 있고, 입력이 길어질수록 추론 비용과 지연도 비선형적으로 증가한다. 이 때문에 무한정 긴 컨텍스트보다 RAG나 메모리 기법으로 필요한 부분만 정확히 골라 넣는 전략이 함께 발전해왔다.