K-평균 클러스터링
K-평균 클러스터링
K-평균 클러스터링(K-means Clustering)은 데이터를 \(K\)개의 클러스터로 나누기 위해, 각 데이터 포인트를 가장 가까운 클러스터 중심(centroid)에 할당하고 중심을 반복적으로 갱신하는 비지도 학습 알고리즘이다.
핵심
- 초기화 → 할당 → 갱신 단계를 수렴할 때까지 반복한다
- 목적 함수는 각 클러스터 내 분산(within-cluster sum of squares)의 합을 최소화한다
- 클러스터 수 \(K\)는 사용자가 사전에 지정해야 한다
- EM 알고리즘의 특수한 경우로 볼 수 있다
- 초기 중심 선택에 민감하며, K-means++ 초기화로 개선할 수 있다
수식
\[\min_{c, \mu} \sum_{i=1}^{m} \|x^{(i)} - \mu_{c^{(i)}}\|^2\]