📚 인과추론에서의 회귀분석
✅ 개요
• 회귀 분석은 인과추론의 수준이 가장 낮으며, 특정 이론이나 도메인 지식을 기반으로 Designed Regression을 실시하는 경우 인과추론의 수준을 한 단계 높일 수 있다. 이러한 방식은 관찰 가능한 변수에 의해서만 selection을 통제할 수 있다는 가정을 기반으로 하며, 관찰 불가능한 변수에 의한 selection은 통제할 수 없다.
주요 방법론은 다음과 같다.
(1) 적절한 통제변수를 사용해서 회귀분석을 진행해서 인과관계를 추론하는 방식
(2) 비교 대상인 두 집단의 특성 자체를 비슷하게 만드는 것.
(3) treatment를 받을 확률의 역수만큼을 각 데이터의 가중치로 부여해서, 무작위 실험과 비슷하게 treatment를 받을 확률을 비슷하게 만드는 방법
회귀 분석은 가장 간단하고 다양한 방식으로 사용할 수 있기 때문에 많이 사용된다. 하지만 그만큼 주의해서 사용해야 할 필요가 있다. 회귀 분석이 사용되는 방식은 분야마다 조금씩 차이가 있다.
✅ 전통 회귀 vs 인과추론의 회귀
아래와 같은 회귀식이 있다고 했을 때,
전통적인 회귀분석에서는 독립변수들이 종속변수를 온전하게 설명하는 true model을 찾는 것이 목적이다. 따라서 설명력인 R^2가 매우 중요하다.
하지만 인과 추론에서는 true model을 찾는 것이 목표가 아니기 때문에 R^2를 따지는 경우는 거의 없다. 인과추론에서는 selection bias를 통제하기 위한 confounding factor를 컨트롤하는 것이 중요하다. 즉 의미 있는 통제변수를 사용하는 것이 중요하다.
• 왼쪽 상단 potential outcome 부분의 식에서 X는 treatment 여부이고 이로 인해서 나타는 효과가 β 이다. α 는 전체 샘플에서 나타나는 평균이다. ε은 각각 X가 0,1 일 때의 평균에서의 차이를 나타낸다.
Y1i는 X가 1인 경우(treatment를 받은 경우)이기 때문에 인과 효과인 β 도 추가된다.
• Regression Model 부분은 이것을 회귀식으로 풀어서 쓴 것이다. X는 treatment 여부에 따라서 0 또는 1 이기 때문에 한 식으로 나타내기 위해서는 𝑌𝑖 = (1 − 𝑋𝑖) 𝑌0𝑖 + 𝑋𝑖𝑌1𝑖 와 같이 작성해야 한다. X=0 이면 오른쪽 항이 사라지고 X=1이면 왼쪽 항이 사라진다.
이 식을 다시 풀어서 쓰면 𝑌𝑖 = 𝛼 + [𝛽 + (𝜀1𝑖 − 𝜀0𝑖)] 𝑋𝑖 + 𝜀0𝑖 로 나타낼 수 있는데, X의 계수에는 selection bias가 포함되어 있기 때문에 causal effect가 아니라는 것을 알 수 있다. 즉 전통적인 회귀 방법으로 해석하면 오류가 발생한다.
• ATE를 계산해 봤을 때에도 selection bias가 포함되어 있는 것을 확인할 수 있다.
• causal effect를 확인하기 위해서는 𝜀1𝑖 − 𝜀0𝑖 =0 으로 만들어야 한다. 우측 부분처럼 특정한 통제변수 Ci 가 에러를 설명할 수 있고, 선형 관계를 가지고 있다고 가정하자. 그러면 오른쪽 아래 부분과 같은 식으로 나타낼 수 있다.
이를 바탕으로 통제변수를 이용해서 식을 다시 정리해보면 위와 같다.
regression model 부분에서 X의 계수에서 selection bias가 사라지고 β만 남아있는 것을 알 수 있다.
ATE 부분에서는 여전이 treu causal effect가 아니다. 즉 𝛾 뿐만 아니라 통제 변수의 차이까지도 계산이 된다.
여기서 통제 변수를 conditioning 하면(통제 변수를 고정하면) 통제변수의 차이를 없앨 수 있고, conditional ATE를 뽑아낼 수 있다.
이것은 두 가지 가정을 바탕으로 한다.
1. selection bias를 컨트롤 할 수 있는 통제변수를 모두 알고 있어야 한다.
2. 오차와 통제변수가 특정한 functional form을 가지고 있어야 한다. 위에서는 (𝜀1𝑖 − 𝜀0𝑖) ∝ (𝐶1𝑖 − 𝐶0𝑖) 부분과 같이 선형의 관계가 있다고 가정했다.
인과 추론이 가능하게 하는 가정을 identification Assumption이라고 부른다. 회귀 분석에서의 identification Assumption은 conditional independence라고 볼 수 있다.
• 식 설명 : 컨트롤 변수 C가 통제되어 있는 상황에서 원인변수 X의 여부와 상관없이 error term인 e 의 값의 평균값이 동일해야 한다. 즉 컨트롤 변수가 컨디셔닝 되어있는 상태에서 원인변수와 에러 텀 과의 상관관계가 없어야 한다는 의미이다.
컨트롤 변수는 결국 selection bias를 설명하는 역할을 한다. 통제변수가 추가되면 R^2 도 올라가지만 인과 추론에서는 이것이 중요하지 않다.
📌 통제변수의 사용 및 해석 정리
1.인과 추론의 회귀 식에서는 모든 독립변수들이 동일한 역할을 하는 것이 아니다. 즉 원인 변수와 통제 변수를 분리시켜서 해석해야 한다.
2. 통제변수의 역할은 selection bias를 설명하는 것이다.
3. 통제 변수의 영향을 인과 효과로 해석하지 않도록 유의해야 한다.
📚 Reference
• Korea Summer Workshop on Causal Inference 2022, Boot Camp for Beginners, 인과추론 관점에서의 회귀분석
•Angrist, J.D. and Pischke, J.S., 2017. Undergraduate econometrics instruction: through our classes, darkly. Journal of Economic Perspectives, 31(2), pp.125-144.
'데이터 분석 > 인과 추론' 카테고리의 다른 글
DID와 Synthetic Control 비교 (0) | 2022.06.27 |
---|---|
무작위 실험 (Random Assignment), 준실험 ( Quasi-experiment) (0) | 2022.06.27 |
Matching & Weighting (0) | 2022.06.27 |
Potential Outcome Framework (0) | 2022.06.26 |
인과추론(Causal Inference) 개요 (0) | 2022.06.22 |
댓글