본문 바로가기
데이터 분석/인과 추론

Potential Outcome Framework

by 장찐 2022. 6. 26.

📚 Potential Outcome Framework 

Counterfactual (반사실) 

Korea Summer Workshop on Causal Inference 2022

 인과관계는 treatment의 효과와, 그것을 받지 않았을 때의 잠재적 결과(Counter factual)의 차이를 의미한다. 하지만 실제로 treatment를 받은 관측치들의 counterfactual 데이터는 관측이 현실에서는 불가능하다. 반대로 treatment를 받지 않은 경우도 treatment를 받은 경우에 대한 데이터(counterfactual)를 수집하는 것이 불가능하다.

 

 따라서 현실에서는 이러한 한계 때문에 가장 counterfactual에 가까운 control group을 사용한다. 이때 개별적인 conterfactual을 구할 수가 없기 때문에 그룹으로 나눠서 평균치를 비교한다.  Potential Outcome Framework에서 핵심은 Average Treatment Effect(ATE)이다. 즉 treatment 그룹과 control 그룹에서 나타는 효과의 평균 크기를 비교한다. 

 

 

 Selection Bias (선택 변향) 

 treatment 그룹과 control 그룹은 관심 대상인 변수 외에 동일해야 인과관계를 정확하게 추론할 수 있지만 실제로는 여러 부분에서 차이가 있다. 특히 현실에서는 treatment와 관련된 그룹이 랜덤으로 할당되지 않는 경우가 많다. 즉, treatment에 해당되는 사람들은 이유가 있어서 treatment를 선택하는 경우가 많다. 따라서 이를 selection bias라고 하고 이를 통제해야 한다. 

selection bias를 야기하는 교란 요소를 confounding factor, confounder라고 부른다. 

 

📌Ceteris Paribus (Comparable Control Group) 

: treatment를 받았다는 사실을 제외하고 나머지는 모두 동일하다는 조건 

→ Potential outcome framework에서 가장 중요한 원칙으로 selection bias를 없애기 위한 조건이다. 

 

 위와 같이 재택 근무 자원자에 따른 차이를 살펴보고자 할 때, 인과관계만 분석하기 위해서는 self-selected group 내에서 다시 랜덤 추출을 진행해야 한다.  

 따라서 2와3의 차이는 selection bias에 해당하고 1과 3은 인과관계 + selection bias에 해당한다. 정확한 추론을 위해서는 1과 2를 비교해야 한다. 

 

 


 

📚 인과추론 방법론의 단계 

✅ Level of Causal Inference 

 • 인과 추론의 수준이 가장 높은 것은 Meta Analysis이다. 이는 기존 연구에서 일관적으로 나타나는 인과관계를 종합하여 결론을 내리는 방식을 의미한다. 단일 방법론으로 인과 추론 수준이 가장 높은 것은 Randomized Controlled Trial (RCT)이다. 

 

 • 하지만 실제 상황에서는 무작위 실험이 불가능한 경우가 많기 때문에, 준실험(Quasi-experiment) 방식이 많이 사용된다. 

 

 • Regression / Matching 방식은 비교적 인과 추론에서 한계가 많아서 가장 낮은 단계에 있다. 하지만 causal knowledge 또는 적절한 이론을 기반으로 regression / matching을 진행하는 designed regression / matching 은 인과 추론 수준이 한 단계 높다. 

 

 • 단순 기술통계(descriptive statistics)은 인과 추론이 거의 불가능하다. 

 

 • 무작위 실험, 준실험, 도구변수 방법은 Selection on Unobservables Strategites에 해당한다. 즉 관찰되지 않은 변수들에 의한 selection도 해결하고자 하는 전략이다. 

 

 • 반면 Regression/Matching 은 Selection on Observables Strategies에 해당하므로 관찰된 변수에 의한 selection만 고려할 수 있다. 

 

 

 

연구방법론 선택 flow 

 •  가장 최선은 무작위 실험 방식이다. 

 •  무작위 실험이 불가능한 경우에는 준실험 디자인이 가능한지 알아봐야 한다 

 

 

 

 

 


📚  Reference

 Korea Summer Workshop on Causal Inference 2022, Potential Outcome Framework, Regression, and Matching 

 

 

댓글