본문 바로가기
논문 리뷰/머신러닝, 딥러닝

[머신러닝] Fake News, Investor Attention, and Market Reaction

by 장찐 2021. 11. 4.

◈ 논문 정보 

• Clarke, J., Chen, H., Du, D., & Hu, Y. J. (2020). Fake news, investor attention, and market reaction. Information Systems Research, 32(1), 35-52.

 


◈ 요약 

 이 연구에서는 가짜 뉴스가 증권 시장에 영향을 미치는지를 분석했다. 구체적으로, 가짜 뉴스가 투자자들에게 어떤 영향을 미치는지, commentor 가 가짜 뉴스를 분류할 수 있는지, 머신러닝 모델로 가짜 뉴스 분류가 가능한지, 시장 전체에 어떤 영향을 미치는지를 다방면으로 파악하였다. 연구 가설은 다음과 같다.

 

   H1. 가짜 뉴스는 진짜 뉴스보다 투자자들에게 더 많은 관심을 불러일으킬 것이다

   H2. 가짜 뉴스는 언어학적인 특성(linguistic feature)을 통해서 탐지 가능(detectable)할 것이다.

   H3. 진짜 뉴스는 가짜 뉴스보다 거래량을 더 많이 증가시킬 것이다.

   H4. 가짜 뉴스에 의한 비정상 수익은 진짜 뉴스보다 적게 나타날 것이다.

 

 이 연구에서는 SEC에서 발표한 346개의 가짜 뉴스와, 투자 사이트인 Seeking Alpha에서 작성된 51,051개의 진짜 뉴스를 수집하였다. 유사한 13개의 금융 사이트 중에서 Seeking Alpha가 가짜 리뷰가 가장 많고 비교적 큰 SNS이기 때문에 선정하였다. 또한, 해당 뉴스의 기업에 대한 정보와 애널리스트들이 분석한 정보를 바탕으로 추가 변수를 수집하였다. 가설 1,3,4는 PSM을 실시 후 regression으로 분석하였으며, 가설 2는 머신러닝으로 분류를 실시했다.

 

 

 

 Figure 1. 에서 가짜 뉴스가 발표된 이후에 이틀 동안 관심도가 높게 나타났지만, 그 이후 급격하게 감소하는 것을 확인할 수 있다. 또한, Table 3의 분석 결과에서 열에 있는 변수들은 투자자들의 관심도를 반영하는 변수들이다. 열 1~3을 통해서 가짜 뉴스의 조회수/방문자 수/끝까지 읽은 수가 더 높게 나타난 것을 알 수 있고, 코멘트의 경우 진짜 뉴스와 유의미한 차이가 나타나지 않았다.

 

 

 Table 4의 Comment 변수에서 가짜 뉴스는 코멘트 수와 유의미한 관계를 보이지 않았다. 이를 통해서 가짜 뉴스는 더 많은 관심을 유도하지만 이것이 토론으로 연결되지는 않는다는 것을 확인할 수 있었다. 두 번째 열은 해당 기사에 대한 반대의 정도를 나타낸다. 여기서도 Fake 변수와 유의미한 관계가 나타나지 않아서, 사람이 가짜 뉴스를 판별하기는 매우 어렵다는 것을 알 수 있다.

 

 

 

Table 5의 결과에서, SA의 전문가들은 가짜 뉴스에 대해서 유의미하게 낮게 평가하였다. 하지만 이 정도가 진짜 뉴스에 비해서 economical 하게 낮지 않았기 때문에, 전문가들도 가짜 뉴스를 유의미하게 판별하기 어렵다고 보았다.

 

 

 언어학적 특징을 이용하여 가짜 뉴스를 판별하는 과정에서 LIWC를 사용하였고 t-test 결과 93개 변수 중에서 65개 변수가 유의미한 차이가 있었다. 6개의 분류 알고리즘을 이용하여 모델을 학습시켰으며, 각 모델마다 100번을 반복하여 평균 스코어를 계산했다. 그 결과, Gradient Boosting이 가장 높은 F1 score를 기록했고, Logistic Regression, Random Forest도 상대적으로 높은 성과를 기록했다. XGBoost의 feature importance를 이용하여 중요도가 높은 상위 변수를 추출한 결과는 Table 8과 같다. Word count, Words per sentence 등이 중요한 특징으로 추출된 것을 확인할 수 있다.

 

 

 가설 3 검증을 위하여 가짜뉴스와 진짜 뉴스 발표에 따른 거래량을 살펴보았을 때, Table 9에서 가짜 뉴스는 모든 time window에서 진짜 뉴스에 비해 거래량을 유의미하게 감소시켰음을 알 수 있다.

 


◈ 장점 및 의의 

 

• Econometric 연구 방법과 머신러닝 기반 연구 방식을 적절하게 사용하였다. 두 개의 다른 방법론을 함께 것이라서 혼란이 있을 수도 있는데, 논문의 전개가 깔끔하고 설득력이 있었다. 기계적으로 머신러닝을 사용하면 경영학적인 의미가 부족한 경우가 많은데, 이 논문에서는 전반부의 Econometric 분석을 통해서 가짜 리뷰 분류에 머신러닝을 사용한 이유를 잘 설명했다 (Regression 분석 결과 가짜 뉴스를 정확하게 판별하지 못함 -> 머신러닝을 통해서 언어학적 특성을 이용하여 분류 시도).

 

• 즉, 논문 전체의 스토리텔링이 아주 좋았다. 이콘 분석 부분에서는 일반 투자자들이 가짜 뉴스를 찾을 수 없다는 내용인데 이를 머신러닝을 통해서 detect 할 수 있다고 자연스럽게 연결하였다. 

 

• 머신러닝 학습 과정에서 사용된 기사의 총 개수가 748개로 많지 않아서, 과적합 문제가 생길 수 있었지만, 이 과정을 100회 정도 실시하여 결점을 최대한 보완하고 robust한 모델을 구축하고자 하였다. 또한, 단순히 6개의 알고리즘의 성능을 비교만 한 것이 아니라, 어떤 변수가 가짜 뉴스를 분류에 중요한 지 feature importance 등을 통해서 최대한 설명하고자 하였다. 특히, word count, words per sentence 등이 중요하게 나타났다는 것은, 거짓 정보를 전달하는 데에는 더 많은 부연설명과 합리화가 필요하다는 것을 알 수 있어서 흥미로웠다.

 

 

 

 


◈ 한계점 및 추가 연구 아이디어 

 

• Table 5의 결과에서 각 점수 항목들과 Fake 변수가 통계적으로는 유의미했지만, 규모(magnitude)가 economically 크지 않기 때문에 전문가들도 올바르게 가짜 뉴스를 판별했다고 보기는 어렵다고 설명했다. 이 부분이 계량경제학적 분석의 결과를 통해 머신러닝 모델이 필요함을 주장하는 논리를 제시하는 부분인데, 기준이 자의적이라는 생각이 들었다.

또한, 도메인 지식이 충분한 전문가인 경우 뉴스의 내용과 외부 맥락을 고려하여 가짜 뉴스를 효과적으로 판별하는 경우도 많다. 따라서 Seeking Alpha의 commentor가 충분히 qualified 한 지 살펴볼 필요가 있다.

 

• 머신러닝 모델에서 언어학적 특징만 사용하여 가짜 뉴스 분류를 실시하였다. 3.5 firm characteristic에서, 가짜 뉴스 대상 기업은 기업 규모가 작고 이윤도 적다고 했는데 이러한 정보를 함께 학습시키면 모델의 성능을 더 높일 수 있을 것이라고 생각한다.  

• 비판적으로 보자면 머신러닝을 사용하여 분석 한 부분이 맥락 상 뜬금없다고 볼 수도 있다. 게다가 사용된 알고리즘들이 최신 알고리즘이 아니라서 성능이 좋은 모델이라고 보기는 어렵다. RNN / CNN / LSTM 사용했다면 성능이 더 좋았을 수도 있다. 

→ 이에 대한 반박 : 딥러닝 학습하기에는 샘플 수가 충분하지 않고, 오히려 모델의 설명력이 떨어질 수 있다. ( XGB는 변수 중요도를 뽑아내는 것 가능) 

 

• Fake news 자체가 attention 을 끌기 위해서 만든 것인데, 이 논문의 결과가 완전히 새롭다고 할 수 있는가? 

댓글