본문 바로가기
논문 리뷰/IS 일반

Two empirical studies on Restaurant Fake Reviews

by 장찐 2022. 6. 9.

📚 논문 정보 

 

 


📚 요약 

 이 연구는 가짜 리뷰 탐지와 관련하여 크게 두 가지 분석을 진행하였다. 첫 번째 분석에서는 계량경제학적 기법을 통해서 가짜 리뷰와 관련 있는 변수를 파악하였다. 두 번째 분석에서는 머신 러닝을 이용한 가짜 리뷰 탐지 모델을 제안하였다. 이 연구에서는 Yelp의 뉴욕지역 상위 100개 레스토랑의 리뷰 데이터를 사용하였다.

 

<분석 1. Explanatory Modeling through Econometric Analysis>

 첫번째 분석에서는 계량경제적 분석을 통해서 가짜 리뷰에 영향을 미치는 요소를 파악하였다. 기존 연구에서는 주로 평점, 리뷰길이, 리뷰 경험, 리뷰어 평판 등의 변수를 사용했다. 이 연구에서는 리뷰 텍스트에서 나타나는 심리적인 단서와 언어적 단서를 보다 더 많이 활용하기 위해서 affective, cognitive, social, perceptual cue를 사용했다. 추가로 리뷰 텍스트 외에도 time distance(식당이 얼마나 오래되었는지), reviewer location 변수도 사용하였다.

 

 

 분석 결과 affective cues, social cues, time distance, local reviewer 변수가 가짜 리뷰일 확률에 정의 영향을 미쳤다. 반대로 perceptual cues는 가짜 리뷰에 음의 영향을 주는 것을 확인할 수 있다. 반면 cognitive cues의 경우 유의미한 관계가 나타나지 않았다.

 

 

<분석 2. Predictive Modeling through Supervised Machine Learning Classification Analysis>

 두 번째 분석에서는 머신러닝을 이용한 가짜리뷰 탐지 모델을 제안하였다. 기본적인 텍스트 데이터 전처리를 진행하였고, motion words, psychological distancing, review depth writing style, number of photos와 같은 변수를 추가하여 모델을 학습하였다.

 모델 테스트 결과 위와 같이 random forest 알고리즘의 성능이 가장 높게 나타났으며, 변수 중요도를 계산하여 가짜 리뷰 탐지에 유용하게 사용될 수 있는 변수를 제안하였다.  

 

 

 


📚 한계점 및 추가 연구 아이디어 

 

 가짜 리뷰 관련 연구에서는 주로 Yelp 데이터가 사용되는 경우가 많다. 실제로 해당 리뷰가 진짜인지 가짜인지를 정확하게 판별할 수 없기 때문에, Yelp에서 라벨링한 리뷰가 차선책으로 사용된다. 발표 내용 중에 가짜리뷰는 실제로 binary로 구분할 수 없다고 설명하신 부분이 인상깊었다. 하나의 리뷰에는 가짜와 진짜 정보가 혼합되어 있기 때문에 이를 단순히 0,1로 라벨링 하기 어렵다.

 

 따라서 이를 고려해서 추가 분석을 진행한다면 보다 정확한 분석을 위해서 정교한 데이터 수집이 필요하다고 생각한다. 기존에 제공되는 데이터가 이진 정보만을 제공한다는 한계점을 보완하기 위해서 Amturk 등을 이용해서 거짓 정보의 정도를 문장 또는 문단마다 다르게 하여 리뷰를 작성하게 하고 이를 분석할 수 있다. 이진 라벨링만 되어있는 경우에는 각 문장별 분석이 불가능하고 정보 손실도 많이 발생한다. 리뷰 단위보다 문장 또는 문단 단위로 분석한다면, 이 연구에서 제시한 affective, cognitive, social, perceptual cue와 같은 변수의 영향을 정교하게 분석할 수 있을 것이다.

 

머신러닝을 이용한 가짜 리뷰 탐지 모델에서 모델의 학습 및 평가과정에 대한 구체적인 설명이 제공되지 않은 것이 아쉬웠다. 다양한 알고리즘을 사용하였으나 나타난 결과에 대한 설명이 부족하다고 생각된다. 특히 Neural Net 알고리즘의 경우 성능이 매우 낮게 나타났는데, 다수의 파라미터에 대해서 적절하게 학습이 이루어지지 않았을 가능성이 높다.

 

머신러닝 모델에서 도출된 feature importance score에 대해서 추가적인 설명이 제공되지 않은 점이 아쉬웠다. 이 연구 결과에서는 random forest 모델의 성능이 가장 뛰어나게 나타났지만, 만약 다른 도메인의 데이터셋에 대해서 random forest가 아닌 다른 알고리즘의 성능이 가장 높게 나타났을 경우에는 어떤 방식으로 변수 중요도를 제시할 수 있을지에 대한 설명이 없었던 것이 아쉬웠다.

 

 

댓글