📚 논문 정보
손새아, 신우식, & 김희웅. (2021). 사이버비행 요인 파악 및 예측모델 개발: 혼합방법론 접근. 정보시스템연구, 30(2), 29-56.
📚 요약
청소년의 사이버 비행으로 인한 피해가 커지면서 심각한 사회적 문제로 대두되고 있다. 이 연구에서는 사이버 비행의 요인을 탐색하고, 사이버 비행 가해자 예측 모델을 구축해서 범죄를 예방하는 것을 목적으로 한다. 청소년 사이버비행을 설명하기 위해서 이 연구에서는 일반긴장이론, 사회학습이론, 사회유대이론, 일상행위이론을 사용하였다.
기존에 이러한 이론을 바탕으로 청소년들의 행동을 분석한 연구들을 많았지만, 대부분 단일 이론을 기반으로 한다. 이 연구는 여러 이론을 사용하여 종합적인 접근을 시도하였다.
이 연구의 전체 분석과정은 위와 같다. 연구를 위해서 청소년들의 사이버비행과 관련된 데이터를 사용하였다. 종속변수는 비행 여부를 나타내는 이진변수이고, 독립변수는 앞선 이론들을 기반으로 선정하였다. 계량 모델 테스트 단계에서 로지스틱 회귀로 사이버 비행에 영향을 미치는 변수를 분석하여, 각 이론에 따라서 종속변수의 유의한 영향을 미치는 변수들을 확인할 수 있었다.
또한 사이버 비행 가해자 예측 모델을 구축하기 위해서 이 변수들로 LSTM 모델을 학습하였다. 평가 지표로는 F1 score를 사용하였다. LSTM 모델이 시계열 정보를 반영할 수 있기 때문에 다른 머신러닝 알고리즘과 비교해서 높은 성능을 확보할 수 있었다.
또한 딥러닝 모델의 설명력을 확보하기 위해서 shap value를 사용하였고, 로지스틱 회귀 모형에서 도출된 결과와 유사한 변수들의 중요성이 높게 나타난 것을 확인했다. 로지스틱 회귀와 LSTM 모델에서 중요도가 다르게 나타난 변수들에 대해서도 해석을 제공하였다. 이 연구의 따르면, 로지스틱 회귀 모델에서 통계적으로 유의하지 않더라도 Shap value가 높은 변수는 실무적으로 예측 모델을 만들 때 중요하게 사용될 수 있다. 반대로 Shap value가 높더라도 로지스틱 회귀에서는 유의하지 않게 나타난 변수들은 원인 탐색에 유의하게 사용될 수 있다.
📚 장점 및 의의
• 전체적인 연구의 구조와 흐름이 유기적으로 잘 연결되어 있다는 생각이 들었다. 이론을 기반으로 변수를 선정하였고, 그 변수로 계량모델(로지스틱 회귀)을 테스트해서 변수 유의성을 확인했다. 또한 딥러닝 예측 모델을 만들고 단순히 모델 성능을 제안만 한 것이 아니라 shap value로 변수의 중요도를 설명했다. 이러한 전체 과정이 매끄럽게 잘 연결되어 있어서 연구 내용이 흥미롭고 이해가 쉬웠다. 향후 개인적인 연구 진행에 있어서도 유용한 내용들을 많이 배울 수 있는 논문이었다.
• 예측 모델을 만드는 과정에서 모델의 설명력 확보에 집중한 것이 인상깊었다. 최근에는 단순 알고리즘 성능 개선보다, 모델 사용의 의미와 설명력에 대한 요구가 점차 증가하고 있다. 이 연구에서는 계량경제 모델에서 도출한 변수의 유의성과 LSTM 모델의 Shap value를 비교해서 공통점과 차이에 대한 설명을 제공하였다. 개인적으로 이러한 분석을 시도하였을 때, 유의한 변수가 다르게 나타나는 경우 해석에 어려움을 많이 겪었다. 하지만 이 연구에서는 실무적인 측면, 원인 분석의 측면에서 합리적인 설명을 제공하였다고 생각한다.
📚 한계점 및 추가 연구 아이디어
• 딥러닝 모델 학습에 사용한 변수들의 유의성을 확인하기 위해서 추가 분석이 가능하다고 생각한다. 이연구에서는 계량 모델에서 유의한 변수만을 사용해서 예측 모델을 만들었는데, 유의하지 않은 변수들을 이용해서도 학습을 진행하고 결과를 비교해 볼 수 있다. 이러한 방식으로 실무적으로 유용한 비선형적인 패턴을 추가로 발견할 수도 있으며, 계량 모델에서 확인한 변수의 유용성도 보다 확실하게 검증할 수 있다.
댓글