본문 바로가기
논문 리뷰/머신러닝, 딥러닝

온라인 해킹 불법 시장 분석 : 데이터 마이닝과 소셜 네트워크 분석 활용

by 장찐 2022. 6. 2.

📚 논문 정보 

김민수, & 김희웅. (2020). 온라인 해킹 불법 시장 분석: 데이터 마이닝과 소셜 네트워크 분석 활용. 정보시스템연구, 29(2), 221-242.

 


📚 요약 

 이 연구는 온라인 해킹 불법 시장에서 발생하는 사이버 범죄를 대비하는 보안 방법을 제안한다. 기존 연구는 주로 사이버 범죄 피해 사례를 제시하고 경각심을 일깨우거나 현황을 살펴보는 연구가 대부분이었다. 이 연구에서는 온라인 불법 해킹 시장 중 market, cracking 시장에 대해서 정량적인 분석을 시도했다. Research question은 다음과 같다.

 

1)    어떤 유저가 가장 동기부여가 많이 되어있는 해커인가?

2)    해커들이 공격을 준비하고 있는 타겟은 어떤 기업 혹은 사이트인가?

3)    앞으로 집중적으로 보안 관리자를 세워야 할 곳은 어디인가?

 

 이 연구에서는 일상행위이론을 바탕으로 온라인 해킹 불법 시장에 대해서 해커들의 활동성, 행위 특성, 니즈를 분석했다. 일상행위이론에서는 동기부여된 공격자, 관리자의 존재, 적합한 타겟이라는 3가지 요인이 사이버범죄 기회에 영향을 미친다. 따라서 이러한 요소를 온라인 상의 불법 해킹 관련 게시글에서 추출하기 위해서 텍스트마이닝과 사회연결망 분석을 사용하였다. 동기부여된 공격자는 SNA를 사용하여 분석하였고, 적합한 타겟은 텍스트 마이닝을 이용하여 분석하였다. 관리자의 존재 여부는 관리자가 필요한 영역을 파악하는 것으로 대체하였다.

 이 연구에서는 온라인 해킹 불법 시장의 데이터를 정보 공급자 관점과 정보 수요자 관점의 데이터로 분리하여 분석을 진행하였다. 이를 통해서 두 그룹이 겹치는 부분은 해킹 위험성이 높은 분야라고 판단할 수 있고, 한 쪽에만 해당하는 경우에는 잠재적 해킹 위험이 있다고 볼 수 있다.

 토픽모델링은 판매자/구매자 데이터에 대해서 토픽을 각각 5개씩 추출하였다. Proxy의 경우 판매자에게서만 도출되었고, Method는 구매자 데이터에서만 도출되었다. Combo는 가짜 계정과 패스워드와 관련된 토픽으로 두 데이터 모두 도출되었다.

 키워드 추출 분석에서는 TF-IDF를 사용하여 상위 10개 키워드를 추출하였다. 토픽모델링 결과와 전반적으로 매칭되는 키워드들이 추출되었다.

 

 토픽모델링과 키워드 추출 분석에서 나타난 단어와 토픽을 비교 분석하면 위와 같다. Account, combo, cracking에 대한 이슈가 가장 위험한 해킹 분야라고 볼 수 있다.

 

 SNA는 크게 두 가지로 나누어서 진행하였는데 네트워크 단위 분석에서는 관리자가 필요한 영역을 파악하였고, 노드 단위에서는 동기부여된 타겟을 추출하였다. 위 결과는 네트워크 단위 분석의 결과로 판매자 데이터에 더 많은 유저가 있지만, 네트워크 밀도와 클러스터링 계수는 구매자 데이터에서 높게 나타났다. 즉 구매자 유저의 경우 수는 상대적으로 적지만 서로 밀접하게 관련이 있음을 알 수 있다. 시각화 결과도 이와 동일하게 나타났다.

 또한 노드 단위 SNA에서는 위와 같이 내향,외향,근접,매개 중심성이 높은 노드(유저) 50명을 필터링하여 제시하였다. 이를 통해서 판매자와 구매자 관점에서 어떤 유저들이 활발한 활동을 하고 있는지 확인할 수 있다.

 

 


📚 장점 및 의의 

• 여러 유형의Descriptive analysis를 체계적으로 분석 목적에 적합하게 사용하였다. 토픽모델링, TF-IDF, SNA3 가지 분석 방식을 사용하였는데, 이 분석 결과들이 유기적으로 연결되어 있어서 연구 대상에 대한 다각적인 인사이트를 도출할 수 있었다. 서술적 분석만을 사용한 경우 학술적 의의 측면에서 부족하다는 피드백을 많이 받았었는데, 이 연구를 통해서 서술적 분석이라도 목적에 적합한 방식을 사용한다면 차별점을 만들 수 있다는 것을 알게 되었다.

 


📚 한계점 및 추가 연구 아이디어 

• 서술적 분석이기 때문에 인과관계에 대한 설명을 충분히 할 수 없다는 한계점이 존재한다. 예를 들어, 이 논문의 토픽모델링과 키워드 추출 결과를 결합하여 분석하는 부분에서, 중복되는 이슈로 account, combo, cracking이 나타났을 때 이 분야들이 앞으로 해킹에 취약할 것이라고 주장하였다. 하지만 이에 대한 인과관계를 정확하게 알 수 없기 때문에 이러한 이슈들이 중요하다고 볼 수는 있으나 인과관계로 해석하기에는 한계가 있다.  

 

• 이 연구의 분석 대상인 온라인 해킹 불법 시장의 개념이 모호하다는 생각이 들었다. 온라인 해킹에는 여러가지 유형이 존재하는데, 이 연구에서 구체적으로 특정 유형의 범죄 예방 수단을 제시한 것이 아니라, 추상적인 단계의 해킹 범죄에 대한 해결책을 제시하였다. 따라서 해당 커뮤니티의 정보로 해킹 취약점을 제대로 파악할 수 있는지, 구체적으로 어떤 방식을 통해서 해킹을 예방할 수 있을지 등의 실무적인 의의 제시에 한계가 있다고 생각한다.

 

 

댓글