본문 바로가기
데이터 분석/인과 추론

회귀 분석 (Regression)

by 장찐 2022. 6. 26.

📚 인과추론에서의 회귀분석

개요

•  회귀 분석은 인과추론의 수준이 가장 낮으며, 특정 이론이나 도메인 지식을 기반으로 Designed Regression을 실시하는 경우 인과추론의 수준을 한 단계 높일 수 있다. 이러한 방식은 관찰 가능한 변수에 의해서만 selection을 통제할 수 있다는 가정을 기반으로 하며, 관찰 불가능한 변수에 의한 selection은 통제할 수 없다. 

 

주요 방법론은 다음과 같다. 

(1) 적절한 통제변수를 사용해서 회귀분석을 진행해서 인과관계를 추론하는 방식 

 

(2) 비교 대상인 두 집단의 특성 자체를 비슷하게 만드는 것.  

 

(3) treatment를 받을 확률의 역수만큼을 각 데이터의 가중치로 부여해서, 무작위 실험과 비슷하게 treatment를 받을 확률을 비슷하게 만드는 방법 

 

 회귀 분석은 가장 간단하고 다양한 방식으로 사용할 수 있기 때문에 많이 사용된다. 하지만 그만큼 주의해서 사용해야 할 필요가 있다. 회귀 분석이 사용되는 방식은 분야마다 조금씩 차이가 있다. 

 

 

✅ 전통 회귀 vs 인과추론의 회귀 

아래와 같은 회귀식이 있다고 했을 때, 

 전통적인 회귀분석에서는 독립변수들이 종속변수를 온전하게 설명하는 true model을 찾는 것이 목적이다. 따라서 설명력인 R^2가 매우 중요하다. 

하지만 인과 추론에서는 true model을 찾는 것이 목표가 아니기 때문에 R^2를 따지는 경우는 거의 없다. 인과추론에서는 selection bias를 통제하기 위한 confounding factor를 컨트롤하는 것이 중요하다. 즉 의미 있는 통제변수를 사용하는 것이 중요하다. 

 

•  왼쪽 상단 potential outcome 부분의 식에서 X는 treatment 여부이고 이로 인해서 나타는 효과가 β 이다. α 는 전체 샘플에서 나타나는 평균이다. ε은 각각 X가 0,1 일 때의 평균에서의 차이를 나타낸다. 

Y1i는 X가 1인 경우(treatment를 받은 경우)이기 때문에 인과 효과인  β 도 추가된다. 

 

•  Regression Model 부분은 이것을 회귀식으로 풀어서 쓴 것이다. X는 treatment 여부에 따라서 0 또는 1 이기 때문에 한 식으로 나타내기 위해서는 𝑌𝑖 = (1 − 𝑋𝑖) 𝑌0𝑖 + 𝑋𝑖𝑌1𝑖 와 같이 작성해야 한다. X=0 이면 오른쪽 항이 사라지고 X=1이면 왼쪽 항이 사라진다.

 이 식을 다시 풀어서 쓰면 𝑌𝑖 = 𝛼 + [𝛽 + (𝜀1𝑖 − 𝜀0𝑖)] 𝑋𝑖 + 𝜀0𝑖 로 나타낼 수 있는데, X의 계수에는 selection bias가 포함되어 있기 때문에 causal effect가 아니라는 것을 알 수 있다. 즉 전통적인 회귀 방법으로 해석하면 오류가 발생한다. 

 

• ATE를 계산해 봤을 때에도 selection bias가 포함되어 있는 것을 확인할 수 있다.

 

• causal effect를 확인하기 위해서는 𝜀1𝑖 − 𝜀0𝑖 =0 으로 만들어야 한다. 우측 부분처럼 특정한 통제변수 Ci 가 에러를 설명할 수 있고, 선형 관계를 가지고 있다고 가정하자. 그러면 오른쪽 아래 부분과 같은 식으로 나타낼 수 있다. 

 

 이를 바탕으로 통제변수를 이용해서 식을 다시 정리해보면 위와 같다. 

regression model 부분에서 X의 계수에서 selection bias가 사라지고 β만 남아있는 것을 알 수 있다. 

 

 ATE 부분에서는 여전이 treu causal effect가 아니다. 즉 𝛾 뿐만 아니라 통제 변수의 차이까지도 계산이 된다. 

여기서 통제 변수를 conditioning 하면(통제 변수를 고정하면) 통제변수의 차이를 없앨 수 있고, conditional ATE를 뽑아낼 수 있다. 

 

이것은 두 가지 가정을 바탕으로 한다. 

 

1. selection bias를 컨트롤 할 수 있는 통제변수를 모두 알고 있어야 한다. 

2. 오차와 통제변수가 특정한 functional form을 가지고 있어야 한다. 위에서는 (𝜀1𝑖 − 𝜀0𝑖) ∝ (𝐶1𝑖 − 𝐶0𝑖) 부분과 같이  선형의 관계가 있다고 가정했다. 

 

 인과 추론이 가능하게 하는 가정을 identification Assumption이라고 부른다. 회귀 분석에서의 identification Assumption은 conditional independence라고 볼 수 있다. 

 

• 식 설명 : 컨트롤 변수 C가 통제되어 있는 상황에서 원인변수 X의 여부와 상관없이 error term인 e 의 값의 평균값이 동일해야 한다. 즉 컨트롤 변수가 컨디셔닝 되어있는 상태에서 원인변수와 에러 텀 과의 상관관계가 없어야 한다는 의미이다. 

 

 컨트롤 변수는 결국 selection bias를 설명하는 역할을 한다. 통제변수가 추가되면 R^2 도 올라가지만 인과 추론에서는 이것이 중요하지 않다. 

 

 

 

📌 통제변수의 사용 및 해석 정리 

1.인과 추론의 회귀 식에서는 모든 독립변수들이 동일한 역할을 하는 것이 아니다. 즉 원인 변수와 통제 변수를 분리시켜서 해석해야 한다. 

 

2. 통제변수의 역할은 selection bias를 설명하는 것이다. 

 

3. 통제 변수의 영향을 인과 효과로 해석하지 않도록 유의해야 한다. 

 

 


📚  Reference

• Korea Summer Workshop on Causal Inference 2022, Boot Camp for Beginners, 인과추론 관점에서의 회귀분석 

•Angrist, J.D. and Pischke, J.S., 2017. Undergraduate econometrics instruction: through our classes, darkly. Journal of Economic Perspectives, 31(2), pp.125-144.

댓글