본문 바로가기
논문 리뷰/머신러닝, 딥러닝

[머신러닝] A new hybrid classification algorithm for customer churn prediction based on logistic regression and decision trees

by 장찐 2021. 9. 30.

논문 정보 

De Caigny, A., Coussement, K., & De Bock, K. W. (2018). A new hybrid classification algorithm for customer churn prediction based on logistic regression and decision trees. European Journal of Operational Research, 269(2), 760-772.

 

 

 논문을 정리해서 수업 시간에 발표한 자료를 기반으로 포스트를 작성하였다. 

 

 

 

 

 머신러닝 분야에서, 특히 경영학과 접목되어 있는 부문에서는 모델의 예측 성능과 설명력 간의 tradeoff가 중요한 이슈이다. 최근에 XAI가 많은 주목을 받고있는 것처럼, 그동안 블랙박스로 여겨졌던 부분에 대해서 설명력을 확보하고자 하는 시도가 계속되고 있다. 

 

 

 

 경영학에서 이탈 고객 관리(Churn Management)는 머신러닝이 활발하게 사용되고 있는 주제이다. 신규 고객 유치보다 현재 고객을 유지하는 것이 비용이 더 적게 들 뿐더러, 장기적인 관계 현성을 통해서 긍정적인 효과를 얻을 수 있다. 이 논문에서는 고객 이탈 관리분야에서 설명력과 예측 성능을 확보하는 모델로 Logit Leaf Model을 제안했다. 

 

 

 

 LLM 모델의 전체 구조는 다음과 같다. 논문에서는 이를 Two-step Hybrid Model 이라고 설명하고 있는데, 두 가지 알고리즘을 이용하여 두 번의 단계를 거쳐서 이탈 고객을 분류하는 모델이다. 우선 첫 번째 단계에서 Decision Tree를 이용하여 각 고객들을 동질적인 그룹으로 분류한다. 그리고 각 그룹에 대해사 로지스틱 회귀로 이탈 여부를 예측한다. 

 

 

 

 이 연구에서는 financial service / retail / DIY / newspaper / telecom / energy와 같이 여러 분야에서 총 14개의 데이터셋을 사용하여 모델의 성능을 검증하였다. 이 부분은 장단점이 명확한 지점이다. 장점으로는 모델의 성능을 여러 데이터에 대해서 robust하게 검증할 수 있다는 것이고, 단점으로는 각 데이터 셋에 적합하게 모델을 수정할 수 없다는 것이다. 위에 있는 표에서 attributes 수의 편차도 굉장히 심하고, 데이터 셋의 이탈률에도 차이가 있기 때문에 데이터 별로 특징이 상이하지만 이를 정교하게 반영할 수 없다. 

 

 

 

 연구의 전체 프레임워크는 위와 같다. 결측치와 이상치 처리를 진행한 후에 언더샘플링을 실시하여 클래스 불균형을 해소하였다. 그리고 Fisher score를 이용하여 변수를 20개 가량으로 줄인 후에, LLM 성능에 따라서 파라미터 튜닝을 실시하였다. 

 

 

 

 학습 과정에서 Robustness를 확보하기 위해서 5x3 CV를 이용하였다. 

 

 

 

 LLM 모델을 학습하고 예측한 결과는 위와 같다. 초록색 부분이 DT를 이용하여 6개 그룹으로 분리한 결과이다. 그리고 파란색 부분은 로지스틱 회귀로 분석을 실시한 결과인데 Shared 변수와 Segment specific 변수가 각 그룹마다 다르게 나타났다. 이 연구에서는 이를 통해 각 그룹의 exact drivers를 확인할 수 있다고 설명하고 있다. 

 

 

 

 ROC와 AUC에 대해 설명한 부분이다. 

 

 

 다른 모델과의 AUC 값을 비교한 결과이다. 각 데이터 셋에 대해서 전반적으로 LLM 모델이 높게 나타났으나, 이 수치 차이가 성능의 관점에서 유의미하다고 판단하기에는 부족한 부분이 있다고 생각한다. 실제로 RF 모델의 성능도 꽤 준수하게 나타났다. 

 

 

 

 Gain Chart, Lift Chart에 대해서 설명한 부분 

 

 

 Top decile lift는 값이 클수록 상위 그룹에서 이탈 고객을 많이 분류한다는 의미이다. LLM 모델의 값이 전반적으로 높게 나타났지만, RF 모델도 성과가 준수함을 알 수 있다. 

 

 

 

 

 모델의 예측 성능에서는 유의미한 차이가 없더라도, 이 논문에서는 제시한 LLM 모델의 장점은 더 높은 설명력을 확보할 수 있다는 것이다. Table 14 에서 LLM 모델의 Terminal node의 갯수가 비교적 적게 나타났음을 확인할 수 있다. Table 15에서 사용된 변수의 갯수에서도 LLM 모델이 상대적으로 적은 갯수의 변수를 사용하였다. 이를 통해 모델을 해석할 때, 보다 직관적인 설명이 가능함을 알 수 있다. 

 

 

 

 Logit Leaf Model의 장점을 정리하자면 위와 같다. 결론적으로 모델의 예측 성능과 설명력을 적절하게 타협한 모델이라고 볼 수 있다. 

 

 

 

 

댓글