본문 바로가기
논문 리뷰/추천시스템

[추천시스템] 추천시스템 기법 연구동향 분석

by 장찐 2022. 2. 9.

📚 논문 정보 

손지은, 김성범, 김현중, & 조성준. (2015). 추천 시스템 기법 연구동향 분석. 대한산업공학회지, 41(2), 185-208.

 

 

 


📚 요약 

 이 논문은 추천시스템의 종류, 특징, 장단점, 평가 방식, 사용 소프트웨어 동향 등을 정리하여 분석하였다. 향후 연구 주제 선정 및 진행에 도움이 될 수 있는 내용이 많아서 정리하였다. 본 논문에서 정리한 추천시스템 기법의 분류는 다음과 같다. 

 

 

콘텐츠 기반 필터링 

 

  아이템 콘텐츠를 직접 분석해서 아이템과 아이템 or 아이템과 사용자의 유사도로 추천하는 방식이다. 

①에서 고객의 선호도를 파악할 때 과거의 구매이력이나 사용자의 프로필 정보를 사용한다. 따라서 CF처럼 고객의 평가 정보가 없더라고 추천을 할 수 있다는 장점이 있다. 또한, 아이템이 새롭게 추가된 경우에도 기존 아이템과 유사도를 계산해서 추천할 수 있다. 즉, First Rater 문제를 어느 정도 완화할 수 있다. 

 하지만 다른 사용자들의 행동이나 선호를 반영하지 못하고, 유사한 상품만 계속해서 추천된다는 단점도 존재한다. 

 

 

 

✅ 협력필터링 

 

특정 아이템에 대해서 선호도가 유사한 고객들은 다른 아이템에 대해서도 비슷한 선호도를 보일 것이라는 가정을 바탕으로 추천하는 방식이다. 컨텐츠 기반과 달리 사용자가 아이템에 대해서 평가한 정보를 바탕으로 선호도를 예측한다. 

 

 

 CF는 아이템 기반과 사용자 기반으로 나눌 수 있다. 또한, 메모리 기반과 모델 기반으로도 분류가 가능하다. 

CF 알고리즘과 관련된 주요 이슈들은 다음과 같다. 

 

 

📌Sparse Matrix (데이터 희소성) 

 

  행렬 계산에서 가장 먼저 고려되어야 하는 부분이다. 실제 데이터에는 매트릭스의 값이 비어있는 경우가 더 많기 때문에 정상적인 계산이 어렵다. 이를 해결하기 위한 여러 연구 아이디어가 제시되었다. 

 

 참고 논문 : 

Ko, H. G., Kim, E., Ko, I. Y., & Chang, D. (2014, January). Semantically-based recommendation by using semantic clusters of users' viewing history. In 2014 international conference on big data and smart computing (BIGCOMP) (pp. 83-87). IEEE.

 

→ 사용자를 '주 사용자' 와 '일반 사용자' 로 분리하고, '주 사용자' 로 유사도를 분석해서 군집을 도출한다. 그리고 다음으로 '일반 사용자'와 '주 사용자' 의 유사한 군집을 매칭시켜서, '일반 사용자' 에게 추천한다. 

 

 

📌Grey Sheep

 

 취향이 특수하거나 일관성이 없는 사용자들은 모델의 정확도 향상에 방해가 된다. 

 

 

📌 Shilling Attack 

 

 가짜 리뷰로 인해서 추천 시스템 전체의 정확도가 감소할 수 있다. Recommender System + Fake Review 주제도 흥미로울 듯. 

 

 Burke, R. (2007), Hybrid web recommender systems, In The adaptive web, 377-4 08.

→ 가짜 리뷰 공격 유형을 분석, 가짜 리뷰가 추천 결과에 미치는 영향을 최소화하기 위한 모델 제시 

 

 

📌CF와 위치정보 활용 

Noh, Y., Oh, Y., and Park, S. (2014), A Location-based Personalized News Recommendation, Big Data and Smart Computing (BIGCOMP),
99-104.

→ 뉴스를 읽는 독자의 흥미는 독자의 위치에 따라서 변화한다는 아이디어 

 

Yin, H., Sun, Y., Cui, B., Hu, Z., and Chen, L. (2013), LCARS : A Location-Content-Aware Recommender System, KDD.

 

→ LDA로 지역별 관심 토픽을 도출하고 이를 반영하여 추천 방식 제안함 

 

 

Park, K. S. and Moon, N. M. (2012), Multidimensional Optimization Model of Music Recommender Systems, information processing so-ciety journal, 19B(3), 155-164.

→ 상황, 사회관계, 시간 등을 변수로 해서 선호도 예측 

 

 

✅ 하이브리드 시스템 

 

 컨텐츠 기반과 CF의 단점을 보완하고 장점을 살리기 위해서 다양한 하이브리드 추천 방식이 제안되고 있다. 대표적인 하이브리드 방식은 다음과 같다. 

 

① 여러 알고리즘으로 학습한 뒤, 가중평균으로 추천 점수 계산 

• 여러 알고리즘의 결과를 전반적으로 사용할 수 있음

• 점수 정규화가 필요하고, 결과를 결합할 때 가중치를 잘 선정해야 한다. 

 

 

② 학습된 여러 개의 추천 엔진에서 현재 상황에 가장 적절한 모델을 선택하는 방법 

• 현재 상황을 인지하기 위한 추가적인 계산이 필요하다. 

 

 

③ 여러 알고리즘의 추천 결과를 혼합해서 제시하는 방법 

• 추천 결과의 다양성 확보 가능함 

 

 

④ 각각의 알고리즘에 사용되는 모든 변수를 하나의 알고리즘의 변수로 병합하여 사용 

 

⑤ 한 알고리즘이 추천한 아이템을 다음 알고리즘의 후보로 이용하여 단계별로 추천 

 

 

 

McAuley, J. and Leskovec, J. (2013), Hidden factors and hidden topics : unde rstanding rating dimensions with review text, In Proceedings of the 7th ACM co nference on Recommender systems, 165-172.

 

→ 리뷰 토픽모델링 시 평점도 함께 고려 

 

 

Ling, G., Lyu, M. R., and King, I. (2014), Ratings meet reviews, a combined approach to recommend, In Proceedings of the 8th ACM Con-
ference on Recommender systems, 105-112.

→ 사용자들이 선택하는 아이템들에 숨겨진 변수가 있다고 가정하여, 숨겨진 변수를 리뷰로부터 추출 

 

 

 

✅ 연관성 분석 

 장바구니 분석의 기본 아이디어를 추천 시스템에도 채택할 수 있다. 고객이 A 아이템에 대해서 만족할 경우, B에 대해서도 만족한다는 아이디어를 기반으로 추천을 진행한다. 

 항목의 동시출현 빈도를 기반으로 추천 우선순위를 계산하기 때문에, 데이터 희소성 문제와 Grey Sheep 문제를 해결할 수 있다. 하지만, 아이템과 사용자 수가 많아질 경우 연산이 복잡하고 계산량이 많아진다. 

 

 

✅ 시간의 역동성을 고려한 추천시스템 

 일정 기간 동안의 데이터만 사용하는 무빙 윈도우 방식을 사용하거나, 구매된 시점을 기준으로 시간이 지남에 따라 가중치를 감소시키는 감쇄 함수를 사용하는 방법 등이 있다. 

 

 

Baluja, S., Seth, R., Sivakumar, D., Jing, Y., Yagnik, J., Kumar, S., and Aly, M. (20 08), Video suggestion and discovery for youtube : taking random walks through the view graph, In Proceedings of the 17th international conference on World Wide Web, 895-904.

→ 유튜브 영상처럼 서비스 아이템의 수명주기가 매우 짧은 경우에는 한 시점에 아이템이 집중적으로 소비되고, 어느 정도 시간이 지나면 소비가 감소한다. 

 

 

 

✅ 추천시스템 소프트웨어 

 

 


📚 장점 및 의의 

• 2015년을 기준으로 추천시스템 연구의 흐름을 잘 정리하였다. 추천 시스템과 관련하여 연구 방향 및 주제를 설정하는 데 있어서 기본적인 베이스를 다지는 데에 유익한 내용들이 많았다. 

 


📚 한계점 및 추가 연구 아이디어 

• 최근에는 추천시스템에도 딥러닝 기반 모델들이 활발하게 사용되고 있는데, 해당 논문들에 대한 추가 정리가 있었다면 보다 유익한 정보를 많이 얻을 수 있었을 것이다. 

 

 

댓글