K-평균 클러스터링

🏷️ 머신러닝

K-평균 클러스터링(K-means Clustering)은 데이터를 \(K\)개의 클러스터로 나누기 위해, 각 데이터 포인트를 가장 가까운 클러스터 중심(centroid)에 할당하고 중심을 반복적으로 갱신하는 비지도 학습 알고리즘입니다.

핵심

초기화 → 할당 → 갱신 단계를 수렴할 때까지 반복합니다
목적 함수는 각 클러스터 내 분산(within-cluster sum of squares)의 합을 최소화합니다
클러스터 수 \(K\)는 사용자가 사전에 지정해야 합니다
EM 알고리즘의 특수한 경우로 볼 수 있습니다
초기 중심 선택에 민감하며, K-means++ 초기화로 개선할 수 있습니다

수식

\[\min_{c, \mu} \sum_{i=1}^{m} \|x^{(i)} - \mu_{c^{(i)}}\|^2\]