클러스터링
클러스터링
클러스터링(Clustering)은 레이블 없는 데이터를 내재된 유사성을 기준으로 여러 그룹(클러스터)으로 나누는 비지도 학습 과제이다. 데이터의 자연스러운 구조를 발견하는 데 사용된다.
핵심
- 같은 클러스터 내 포인트들은 유사하고, 다른 클러스터 포인트들은 다르다는 것이 목표이다
- K-평균, DBSCAN, 계층적 클러스터링, 가우시안 혼합 모델(EM) 등이 대표 알고리즘이다
- 클러스터 수를 사전에 정해야 하는 알고리즘과 자동 결정하는 알고리즘으로 나뉜다
- 실루엣 점수, 군내 분산 등으로 클러스터링 품질을 평가한다
- 고객 세분화, 문서 군집화, 이상 탐지 등에 활용된다