본문 바로가기
데이터 분석/인과 추론

인과추론(Causal Inference) 개요

by 장찐 2022. 6. 22.

📚 인과추론 vs 예측  

• 인과추론(causal inference)과 예측(prediction)은 데이터 분석의 목적이 다르다. 목적이 다르기 때문에 사용 분석 기법도 차이가 있다. 

Korea Summer Workshop on Causal Inference 2022

• 분석을 통해서 Input인 독립변수를 파악해서 조절하는 것이 목적이라면 인과 추론이 보다 적절하다. 

만약 Output을 정확하게 아는 것이 목적이라면 예측 기법이 적절하다. 

 

 하지만 이 두가지 방법론이 서로 배타적인 것은 아니며 상황에 따라서 적절하게 사용할 수 있다.

ex 1) 인과 추론을 통해서 도출한 유의한 변수로 예측 모델링을 하는 경우에 보다 성능을 높일 수 있다. 

ex 2) 새로운 추천 알고리즘을 도입했을 때, 이것이 매출을 증진하는 것을 살펴보기 위해서 인과 추론을 사용할 수 있다

 

 인과추론의 의의 : 인과추론의 결과를 반드시 유일한 정답이라고 할 수는 없다. 인과추론 모델도 근본적인 한계점들을 가지고 있다. 하지만 인과추론은 그래도 합리적이고 구체적인 증거를 기반으로 주장할 수 있는 근거가 된다. 

 

 

Hünermund, P., Kaminski, J., & Schmitt, C. (2021). Causal Machine Learning and Business Decision Making.  Available at SSRN 3867326 .

 대부분의 머신러닝은 예측 방법에 속하고 상관관계를 바탕으로 데이터의 패턴을 찾아는 것에 집중한다. 최근에는 머신러닝으로도 인과 추론을 하는 기법들도 사용되고 있다. 

 


📚 인과추론의 어려움 

 

인과추론의 핵심적이고 근본적인 문제는 내생성(endogeneity)이다. 실제로 현상은 다양한 요소들이 서로서로 영향을 주고받고 있다. 즉 우리가 관심이 있는 독립변수 외에도 수많은 변수들이 종속변수에 영향을 미친다. 어떤 내생성이 있는지를 확인하려면 데이터의 생성 및 수집 과정에서 일어나는 일을 모두 알아야 한다. 하지만 실제로 데이터를 분석하는 입장에서는 이것을 해결할지가 어렵다. 

 

따라서 상황에 따른 내생성 문제를 통제하고 treatment group과 control group을 동등하게 비교하기 위해서 다양한 인과추론 모델들이 사용된다. 

 

• 내생성이 있기 때문에 인과 추론은 external validity(=tranportability)가 약하다. 즉 다른 context에 모델을 적용한다면 모델 구축 시 사용한 변수와는 다른 수많은 요소들이 영향을 미치기 때문에 동일한 결과를 도출한다는 보장이 없다.

 

실제로 인과추론을 통해서 데이터에서 결론을 도출하는 것은 매우 어렵다. 명확하게 인과관계와 상관관계가 구분되지 않는 경우도 많고, 다양한 통제 변수가 존재하며, 우연에 의해서 관계가 나타날 수도 있다. 그리고 이러한 특성들은 데이터로 파악하기가 매우 어렵다. 

 

Simpson's Paradox : 각 변수를 고려하지 않고 전체 통계 결과를 유추하다 발생하는 오류. 일반적인 직관과는 반대되는 역설적인 상황이 발생할 수 있다. 아래 예시는 특정 질병에 대해서 treatment를 한 결과이고 Total은 사망률을 나타낸다. 

전체 통계를 봤을 때에는 Treatment A가 사망률이 낮기 때문에 보다 효과적이라고 해석할 수 있다. 하지만 같은 데이터라도 causal structure에 따라서 해석이 달라진다. 즉 변수 간의 선행관계를 고려해야 한다. 여기서는 증상(symptom) 변수를 고려해야 한다. 

만약 symptom이 confounder로 작용한다면 Treatment B가 사망률을 낮추는 데에 보다 유의하다. 

 

하지만 symptom이 mediator인 경우에는 treatment A가 효과적이다 

 

 


📚내생성 해결을 위한 방법들 

내생성을 통제하고 treatment 와 control 집단을 구분하기 위해서는 일반적으로 위와 같이 3가지 접근법이 존재한다. 

 

(1) Research Design for Causal Inference : 

연구자가 애초에 데이터 수집 과정을 디자인해서 내생성을 통제한다. 

 

a. Radomized Controlled Trial : 직접 실험 자들을 모집해서 treatment 와 control 집단을 나누면 selection process를 연구자가 통제할 수 있다. 가장 강력한 방법이지만 현실적인 한계점이 있다 

 

b. Quasi-Experiment : 

실험과 비슷한 상황을 사용하거나, 자연적으로 발생한 실험과 같은 상황을 사용하는 방법 

 

c. Local Average Treatment Effect (=Late 분석) 

도구 변수를 사용하는 방법. 가장의 연구 디자인 

 

(2) Selection Model 

 통계적인 방식 사용 

 

(3) Causal Graph

 그래프 형태로 모델링 

 

 


📚  Reference

- Korea Summer Workshop on Causal Inference 2022, Bootcamp for beginners - 인과추론과 예측 방법론의 차이

- Hünermund, P., Kaminski, J., & Schmitt, C. (2021). Causal Machine Learning and Business Decision Making.  Available at SSRN 3867326 .

- https://www.youtube.com/watch?v=luesQBhBBI4

댓글