PCA
PCA
PCA(Principal Component Analysis, 주성분 분석)는 데이터의 분산을 가장 많이 설명하는 직교 방향(주성분)을 찾아, 고차원 데이터를 저차원으로 압축하는 차원 축소 알고리즘이다.
핵심
- 데이터 공분산 행렬의 고유벡터가 주성분 방향이고, 고유값이 각 방향의 분산이다
- 상위 \(k\)개의 주성분만 유지하면 데이터를 \(k\)차원으로 압축할 수 있다
- 데이터 전처리 시 평균을 빼고 분산으로 정규화하는 것이 일반적이다
- 비지도 학습의 차원 축소, 시각화, 노이즈 제거에 널리 사용된다
- ICA와 달리 통계적 독립성이 아닌 비상관성(uncorrelated)을 기준으로 성분을 찾는다
수식
데이터 공분산: \(\Sigma = \frac{1}{m}\sum_{i=1}^m x^{(i)}{x^{(i)}}^T\)
주성분: \(\Sigma u_j = \lambda_j u_j\) (고유분해)