본문 바로가기
논문 리뷰/머신러닝, 딥러닝

[머신러닝] Fake News, Investor Attention, and Market Reaction

by 장찐 2022. 5. 19.

📚 논문 정보 

 

Clarke, J., Chen, H., Du, D., & Hu, Y. J. (2020). Fake news, investor attention, and market reaction. Information Systems Research, 32(1), 35-52.

 


📚 요약 

 이 논문에서는 가짜 뉴스가 투자자와 시장에 미치는 영향을 분석하였다. SEC를 통해서 가짜 뉴스로 분류된 뉴스와 Seeking Alpha의 뉴스를 비교분석 하였다. 연구 진행을 위해서 SEC가 분류한 383개의 가짜 뉴스, 157,000개의 진짜 뉴스, 그리고 그와 관련된 정보들(댓글, 조회수 등)을 수집하였다. Investor attention 측면에서 가짜 뉴스는 page view, 기사 완독 횟수가 더 높다는 것을 알 수 있었다. 이 연구에서는 Commenter, editor가 직접 가짜 뉴스를 분류하는 실험도 진행하였는데, 가짜와 진짜 뉴스에서 나타나는 특성들이 유사하기 때문에 판별 능력이 떨어진다는 것을 알 수 있었다. 이 연구에서는 기사의 Linguistic Characteristic을 이용한 분류 머신러닝 알고리즘을 제안하였다. LIWC 단어 사전과 여러 머신러닝 알고리즘을 이용하여 모델을 학습하고 평가하였다. 전반적으로 사람이 분류한 것 보다 높은 성능을 보였고 특히 Gradient Boosting 모델에서 가장 높은 F1 값을 기록하였다. 가짜 뉴스와 주가와의 관계를 살펴보았을 때, 가짜뉴스에 대한 비정상적 거래량과 수익은 합법적인 뉴스에 비해서 적었으며, 이를 통해서 시장이 가짜 뉴스를 discount 함을 알 수 있다.


📚 장점 및 의의 

• Investor Attention, Commenter/Editor Reaction, Abnormal Return, Firm characteristic 등을 정의하고 통제하는 과정이 정교하고 합리적으로 잘 이루어졌다. 특히 Propensity Score Matching 과 Probit Regression을 통해서 fake news와 legitimate news의 짝을 구하는 방법에 대해서 추가적인 학습이 필요하다고 느꼈다.

 

• 머신러닝 학습 과정에서 사용된 기사의 총 개수가 748개로 많지 않았다. 모델 과적합 등의 문제가 생길 수 있었지만, undersampling, train 과정을 100회 정도 실시하여 결점을 최대한 보완하고 robust한 모델을 구축하였다.

 

• 단순히 머신러닝을 사용해서 가짜 뉴스를 분류하는 연구는 많이 진행되었다. 이 연구는 사람들이 직접 가짜 뉴스를 비교하는 실험도 진행하여, 주제에 대해서 다각적으로 탐구하였다는 측면에서 의의가 있다고 생각한다.


📚 한계점 및 추가 연구 아이디어 

• 학습 단계에서 사용된 데이터 샘플이 각각 374개인데, 데이터의 수가 충분하지 않다고 판단된다. 데이터불균형 문제 해결을 위해서 Legitimate news 대해서 Under Sampling을 실시하였는데, Easy Data Augmentation 기법 등을 이용하여 Over Sampling을 실시할 수도 있었다고 생각한다.

 

• 6가지 분류 알고리즘 적용하였는데, 왜 이 알고리즘들을 적용하였고 Gradient Boosting에서 좋은 성과가 나왔는지에 대한 설명이 부족하다.

 

• 본 연구에서는 article의 linguistic characteristic을 통해서 분류를 시도하였다. 한계점에서도 지적했지만,이러한 언어적 특징은 Seeking Alpha의 게시글에서 나타나는 특징일 수도 있으므로 다른 데이터를 이용하여 연구를 진행해서 결과를 비교분석 할 수도 있다.

 

 

 

 

댓글