본문 바로가기
머신러닝, 딥러닝/머신러닝

[머신러닝] 클러스터링(Clustering)

by 장찐 2021. 12. 1.

◈ 개념  

✔ 목표 : 동질적인 데이터를 하나의 그룹으로 묶는 것. 대표적인 비지도 학습 방식. 

• exploratory method로 데이터의 그룹에 대한 사전 지식이 필요 없으며, 주로 다른 데이터마이닝 기법 적용 전에 사용되는 경우가 많다. 

 

• 지도학습 기법에서도 해석가능성이 중요하지만, 클러스터링은 특히 해석 가능성이 중요하다. 아무리 깔끔하게 클러스터링 시각화가 가능하더라도, 해석이 모호하면 무용지물. 

 

 ✅ Distance 계산 

✔ Euclidean Distance :

• 변수가 4개 이상으로 많아지면 시각적으로 클러스터 확인이 어렵기 때문에, 유클리드 거리를 자주 사용함 

• 각 변수의 scale의 영향을 받기 때문에, 정규화를 필수적으로 해야함. 

• 그 외 distance measure 

 

✔ Categorical 변수의 거리 계산? (Distance for Binary data)

 

    ① Matching Coef. = (a+d) / n 

    ② Jaquard's Coef. = d / (b+c+d) 

          • 자카드 계수는 발생한 사건에 중요도를 두기 때문에, 0인 사건(a)는 무시하고 계산함 

 

 

 ✅ 클러스터 간의 거리를 계산하는 방법

• 계층적 클러스터링 방법에서, 서로 다른 클러스터를 하나의 클러스터로 묶을 때 사용하는 기준 

   ① Minimum Distance : 두 클러스터에서 가장 가까운 거리를 계산 

   ② Maximum Distance : 두 클러스터에서 가장 먼 거리를 계산 

   ③ Average Distance : 두 클러스터의 평균 거리를 계산 

   ④ Centroid Distance : 두 클러스터 중심의 거리를 계산 

 

 

✅ 계층적 클러스터링 (Hierarchical Clustering) 

Agglomerative Methods : 합병에 의한 방법  (cf. Divisive Methods : 분할에 의한 방법)

 

• 미리 클러스터의 수를 지정하지 않음 

• 개별 레코드가 하나의 클러스터로 간주하고 시작 

• 가장 가까운 두 개의 클러스터를 하나의 클러스터로 결합 

• 이러한 step by step 과정을 Dendrogram 으로 표시 가능함 

  ex) 아래 그림에서 (1,18), (14,19)가 각각 클러스터로 분류되었고, 이 두 클러스터가 상위 단계에서 하나의 클러스터로 결합함 

• 계층적 군집화에서 상위 클러스터로 결합할 때의 기준은 다음과 같음. 

클러스터 결합 방식 설명 
Single Linkage  상위 클러스터로 결합 시, minimum distance 사용함
Complete Linkage  상위 클러스터로 결합 시, maximum distance 사용함
Centroid Linkage 상위 클러스터로 결합 시, Centroid Distance 사용 
Average Linkage  상위 클러스터로 결합 시, Average Distance 사용

 

 

• Dendrogram에 수평선을 그어서 적절한 클러스터의 구성과 수를 선정해야 함 

 

 

 

 

✅ 비계층적 클러스터링 (Non-Hierarchical Clustering)

• 대표적으로 K-means clustering 

• 사전에 클러스터의 수를 정해야 함 

 

   <K-means 실행 단계 > 

• 임의로 데이터를 k 개의 그룹으로 나눔 

• 각 그룹의 중심점 계산하고, 중심점에서 가까운 레코드를 찾아서 클러스터 업데이트 

• 위 과정을 계속 반복해서, 더이상 중심점이 변화하지 않을 때 까지 반복함 

 

 

 

✅ 클러스터링 평가 

• 통계적 검증

     A, B 클러스터를 비교할 때, A 내부의 레코드간의 거리와 A와 B 클러스터의 차이가 유의미한지 통계적으로 확인 

 

• train / test

     데이터를 분리해서, 각 데이터셋에서 동일하게 클러스터가 나타나는지 확인 

 

• 분석 목적에 부합하는 지 평가 

    클러스터링을 실시한 경우에는 해당 클러스터의 수와 구성 레코드가 분석 목적에 맞도록 유의한지 확인해야 함 

 

 


 

◈ 참고자료 출처 

Data Mining for Business Analytics: Concepts, Techniques, and Application in R" by R, Galit Shmueli, Peter C. Bruce, Inbal Yahav, Nitin R. Patel, Kenneth C. Lichtendahl Jr. Wiley. 1st edition. Wiley, 2017.

 

 

 

 

댓글