양자화

🏷️ 정보 LLM 머신러닝

양자화(quantization)는 모델 가중치와 활성값을 FP32·BF16 같은 고정밀 부동소수점에서 INT8·INT4 등 저정밀 표현으로 변환해 모델 크기와 추론 속도를 개선하는 기법이다. 메모리 사용량과 계산량이 줄어들기 때문에 동일한 하드웨어에서 더 큰 모델을 돌리거나, 더 작은 기기에 모델을 올릴 수 있다.

주요 방식은 학습 후 변환하는 PTQ(Post-Training Quantization)와 학습 과정에 양자화를 반영하는 QAT(Quantization-Aware Training)로 나뉜다. LLM에서는 GPTQ·AWQ·GGUF·SmoothQuant 같은 PTQ 기법이 사실상 표준이며, llama.cpp 기반 4bit 양자화는 노트북·휴대폰에서 LLM을 돌리는 핵심 기술이 되었다.

정밀도를 낮추면 정확도가 일부 떨어지는 트레이드오프가 존재한다. INT8까지는 손실이 거의 없지만 INT4 이하에서는 모델·태스크에 따라 성능 저하가 보고된다. 이 때문에 어떤 레이어를 더 많이 양자화할지를 동적으로 정하는 혼합 정밀도 기법이 활발히 연구된다.