clustering1 [머신러닝] 군집화(Clustering) 📚 군집화 각 문서에 대한 label 정보가 필요 없는 대표적인 unsupervised learning 방식이 군집화이다. 데이터포인트간의 유사도를 기반으로 유사한 데이터포인트끼리 묶어서 그룹을 생성한다. 군집화는 각 데이터 샘플(=관측치=row)의 정보를 하나의 종 벡터로 간주하고 계산한다. 이 과정에서 사용되는 변수(=벡터)는 내가 수행하고자 하는 task에 적합한 것이어야 한다. 여기서는 K-means, 계층적 군집화, DBSCAN 에 대해서 정리한다. 📚 K-Means 가장 대표적인 알고리즘으로, 유클리디안 거리(Euclidean distance)를 사용해서 벡터(데이터 포인트)간의 거리를 계산하고 그룹화한다. ✅ 계산 방식 k-means 알고리즘은 군집의 수 k를 분석자가 설정해야 한다. k=3.. 2022. 3. 28. 이전 1 다음