본문 바로가기
프로젝트 및 공모전

[공모전] 상품 키워드 사전을 이용한 홈쇼핑 매출액 예측 및 최적 편성표 제안

by 장찐 2022. 9. 20.

📚 상품군별 키워드 사전 구축을 통한 홈쇼핑 매출액 예측 및 최적편성표 제안 

📌 프로젝트 개요 

분석 목적 홈쇼핑 기업의 방송별 매출액을 예측하고, 이를 바탕으로 최적 편성표를 제안 
사용 데이터 홈쇼핑 기업 방송 편성표, 매출액 데이터
공모전명 2022 빅 콘테스트 데이터 분석 분야 챔피언리그 
분석기간  2020.7 ~ 2020.10
역할 분석, 발표, 문헌조사
사용언어  Python

 

 2020 빅 콘테스트 데이터 분석 분야에 참여하면서 준비한 내용을 정리한 포스트이다. 이 공모전은 예선 탈락했기 때문에 결과적으로는 실패한 공모전이지만, 과정에서는 배운 점이 많았다. 이번 공모전에서는 다른 전공을 가진 팀원들을 모집해서 분석을 진행했다. 통계,컴공,데이터사이언스 전공의 팀원들이 모델링 부분을 전담하고, 나와 다른 경영학과 팀원들은 선행연구 조사, EDA, 발표에 집중하면 시너지 효과를 낼 수 있을 것이라고 판단했다. 에타와 학교 커뮤니티를 통해서 컴공 2명, 데이터사이언스 1명, 경영학과 2명의 팀을 구성하고 방학 기간에 곧바로 분석을 진행했다. 

 

 분석 시작 단계에서 가장 난감했던 것은 평가 방식이었다. 홈쇼핑 기업의 각 방송별 매출액을 예측하고 최적 편성표를 제시해야 하는데, 1차 심사에서는 Test set을 예측한 값으로 예측 정확도 평가하고 상위 팀을 선별한다. 그리고 2차 심사에서는 1차 심사를 통과한 팀을 대상으로 제안한 최적 편성표와 분석 아이디어를 평가한다.  몇 번의 토의를 거쳤는데 명확하게 어떤 방향으로 분석을 진행할 것인지, 예상 결과물은 어떻게 되는지에 대해서 의견을 모으지 못했다. 예측 정확도와 설명력의 trade off를 어떻게 고려해야 할 지 정하는 것이 참 난감했다. 그래서 '일단 분석을 한번 해보자' 라는 생각으로 진행했다. 어떻게든 EDA를 진행하고 모델링을 하다보면 해답이 보일 것 같았다. 하지만 결론적으로 이 단계에서 전체 팀의 목표 설정이 명확하지 못했던 것이 가장 근본적인 실패 요인이었다고 생각한다. 

 


✅ 1. 분석 배경 및 필요성 

 집에서 어머니가 홈쇼핑으로 주문하는 것은 자주 보았지만, 내가 홈쇼핑을 이용한 경험이 거의 없었기 때문에 아는 부분이 적었다. 그래서 일부 팀원들이 변수 가공 방식을 고민할 때, 나와 다른 팀원은 도메인 지식을 집중적으로 탐색했다. 분석 배경을 살펴보면서 의외였던 점은 홈쇼핑 시장이 굉장히 크다는 것이었다. 코로나 19와 맞물리면서 집에 있는 시간이 증가했고, 라이브 커머스와 같이 상호작용 위주의 홈쇼핑 방송도 등장했다. 데이터를 제공한 NS 홈쇼핑의 경우 농수축산물 상품에 특화된 강점을 가지고 있었다. 또한 50대 이상의 고객들이 TV를 이용해서 주문하는 비중이 58% 가량으로 상당히 높았다. 또한 최근의 홈쇼핑은 녹화된 영상을 송출하는 경우도 있기 때문에 구매 가능성이 높은 고객들이 시청하도록 유도하는 것이 중요하다. 즉 최적 방송 편성표를 만드는 것이 기업 입장에서는 매우 중요한 과제임을 알 수 있었다. 

 

 이 과정에서 아쉬웠던 점을 피드백 하자면, 분석 배경에서 조사한 여러 도메인 지식들을 최적 편성표 구축에 적절하게 활용하지 못했다. 아래에서 설명하겠지만, 우리 팀은 단순히 예측 모델을 위주로 편성표 개선을 제안했기 때문에 최적 편성표 제안 아이디어가 단순했다.

 


✅ 2. 데이터 탐색 ( EDA ) 

 다양한 방식으로 데이터 탐색을 진행했다. 이 과정에서는 팀원들이 각자 데이터를 살펴보고 최대한 많은 인사이트를 얻고자 했다. 연속형, 범주형 변수들이 골고루 있어서 다양한 방식으로 데이터를 살펴보았다. 

 

 

 이 과정에서 가장 주목한 점은 상품군에 따라서 구매 패턴이나 금액이 상이하다는 것이다. 상품 유형마다 구매 대상 고객, 주요 구매 시간, 구매 계절 등이 상이했다. 단순히 상품군을 변수로 사용하여 학습을 진행할 수도 있지만, 이러한 상품군 유형이 중요한 요소라고 생각해서 분석 과정에서 이를 강조하여 다른 팀과의 차별점을 두고자 하였다. 

 

 


3. 데이터 전처리 

 

 


 4. 모델 학습 및 파라미터 튜닝 

 


 5. 편성표 최적화 방안 제안 

 


키워드 사전 목록 


📚 후기 

 

 


📚  Reference

 Ahmad, M. W., Mourshed, M., & Rezgui, Y. (2017). Trees vs Neurons: Comparison between random forest and ANN for high-resolution prediction of building energy consumption. Energy and Buildings147, 77-89.

 

 Hung, C. Y., Chen, W. C., Lai, P. T., Lin, C. H., & Lee, C. C. (2017, July). Comparing deep neural network and other machine learning algorithms for stroke prediction in a large-scale population-based electronic medical claims database. In 2017 39th Annual International Conference of the IEEE Engineering in Medicine and Biology Society (EMBC) (pp. 3110-3113). IEEE.

 

 김원겸. (2004). 상품유형별 쇼핑과업상황에 따른 소비자 반응에 관한 연구-쇼핑가치의 조절역할을 중심으로상품학연구, 85-107.

 

 구명진, & 여정성. (2015). 소비자 정보탐색단계별 탐색어려움과 구매결정-상품 유형성을 중심으로소비자정책교육연구11(2), 59-85.

 

 정인희. (2015). 소비자 성별에 따른 상품 유형별 관심도 차이, 내재적 혁신성과의 상관관계 상품 지각 구조 분석한국의류학회지39(4), 505-516.

 Mockus, J., Tiesis, V., & Zilinskas, A. (1978). The application of Bayesian methods for seeking the extremum. Towards global optimization, 2(117-129), 2.

 •  Snoek, J., Larochelle, H., & Adams, R. P. (2012). Practical bayesian optimization of machine learning algorithms. In Advances in neural information processing systems (pp. 2951-2959).

 

 

댓글