클러스터링

🏷️ 머신러닝

클러스터링(Clustering)은 레이블 없는 데이터를 내재된 유사성을 기준으로 여러 그룹(클러스터)으로 나누는 비지도 학습 과제입니다. 데이터의 자연스러운 구조를 발견하는 데 사용됩니다.

핵심

같은 클러스터 내 포인트들은 유사하고, 다른 클러스터 포인트들은 다르다는 것이 목표입니다
K-평균, DBSCAN, 계층적 클러스터링, 가우시안 혼합 모델(EM) 등이 대표 알고리즘입니다
클러스터 수를 사전에 정해야 하는 알고리즘과 자동 결정하는 알고리즘으로 나뉩니다
실루엣 점수, 군내 분산 등으로 클러스터링 품질을 평가합니다
고객 세분화, 문서 군집화, 이상 탐지 등에 활용됩니다