본문 바로가기
데이터 분석/인과 추론

Difference-in-Differences (이중차분법)

by 장찐 2022. 6. 27.

📚 Difference in Differences

✅ 기본 개념 

 DID는 특정 사건 전후실험집단과 통제집단의 차이를 비교하기 위해서 주로 사용된다. 실험집단과 동질적인 통제집단을 설정하여 전후관계를 비교함으로써 시간에 따라 변하는 관측 불가능한 요인이 제거되어 인과효과 추정값을 식별할 있는 장점이 있다. 이중차분 추정량을 통해 어떤 사건의 인과효과를 분석하기 위해서는 실험집단의 사건 이후와 이전 자료, 통제집단의 사건 시행 이후와 이전 자료 집단에 대한 료를 활용해야한다.

 

 

• 횡단면 차분 : TA - TB는 treatment 그룹의 시간에 따른 변화를, CA - CB는 control 그룹의 시간에 따른 변화를 의미한다. 

• 종단면 차분: TA - CA 는 treatment 이후에 tratment 그룹과 control 그룹의 차이를, TB-CB는 treatment 시점 이전에 treatment 그룹과 Control 그룹의 차이를 의미한다. 

 

 DID는 횡단면 차분값에서 다시 종단면 차분 값을 빼는 두 번의 차분(뺀 값)을 구하는 방식이다. treatment와 control 그룹 각각의 treatment 시점 전후의 차이를 구하고, 이것을 다시 treatment의 차이에서 control의 차이를 뺀다.

 

 

 

 counterfactual인 T'A를 빨간색 부분처럼 나타낼 수 있다. 여기서 T'A - TB 부분이 treatment가 없었을 때 시간의 흐름에 따라 나타난 treatment 그룹의 변화에 해당된다. 

 

 이러한 시간에 따른 변화  T'A - TB 는 실제로 관측이 불가능하기 때문에 parallel trend assuption을 기반으로 컨트롤 그룹의 값으로 대체해서 사용한다. 

 

 DID는 시간에 의해 변하지 않는 요인을 제거하는 반면 시간에 의해 변하는 요인은 제거하지 못한다. 따라서 DID 에서는 기본적으로  parallel trend assumption을 통해서 시간 흐름에 따른 변화는 없다고 가정한다. (아래에서 설명)

 즉 TA - TB에는 시간의 흐름에 따라 발생하는 효과와 treatment의 효과가 함께 포함되어 있다. 반면 CA-CB에는 treatment가 없기 때문에 시간의 흐름에 따른 변화만 포함되어 있다. 만약 시간에 따른 변화가 treatment와 control 그룹에서 동일하다면 위의 DID estimator 계산을 통해서 인과관계만 추려낼 수 있다.

 

https://www.publichealth.columbia.edu/research/population-health-methods/difference-difference-estimation
손호성,이재훈 (2018).

그림으로 나타내면 위와 같이 control 그룹의 변화와 평행하게 treatment 집단에서도 counterfactual이 변할 것이라고 가정한다.

 

 

📌 parallel trend assumption :

만약 사건이 일어나지 않았다면 실험 집단과 통제 집단결과변수의 값이 사건 시행 전후로 비슷한 추세를 보인다는 가정 

손호성,이재훈 (2018).

 데이터를 통해서 treatment 이후에 평행 추세 가정을 실제로 확인할 수는 없다(현실에서 아예 일어나지 않은 일이기 때문). 이렇게 treatment가 일어나지 않았을 경우를 conterfactual이라고 부른다. 따라서 일반적으로는 위와 같이 시각화를 통해서 간접적으로 평행 추세가 있는지를 확인하거나, 추가적인 통계 기법을 사용한다. 

 

 

✅ 다른 설명 

손호성, & 이재훈. (2018). 행정학・ 정책학 연구에서의 이중차분 추정기법의 활용과 쟁점. 현대사회와 행정, 28(3), 1-31.

 

<그림을 이용한 설명 >

<표를 이용한 설명 >

 

 

 

✅ DID 식 작성하기 (1)

손호성, & 이재훈. (2018). 행정학・ 정책학 연구에서의 이중차분 추정기법의 활용과 쟁점. 현대사회와 행정, 28(3), 1-31.

선형 회귀식으로 나타내기 

오차항 포함

 

위 식을 fixed effect term을 넣어서 표현할 수도 있다. 

 

 

✅ DID 식 작성하기 (2)

Korea Summer Workshop on Causal Inference 2022

 일반적인 DID 식은 위와 같다 

 

• Treati : treatment 그룹 여부 

• Aftert : treatment를 받은 시점 이후인지 여부 

• Treati x Aftert : treatment 그룹에서 treatment를 받은 시점 이후인지 여부. 이 계수가 최종적으로 DID를 통해서 추정하고자 하는 treatment에 대한 효과이다. 

• δi: unit fixed effect. 패널데이터에는 treatment와 control 모두 시간에 따라 변화하는 데이터가 존재한다. 따라서 각 유닛에 대해서 시간에 따라서 변화하지 않는 부분을 설명하기 위해서 unit fixed effect를 넣는다.

• θt : time fixed effect.  treatment와 control에 상관없이 특정 시점에 공통적인 영향을 주는 요인을 고려하기 위해서 time fixed effect를 넣는다. 

 

실제 분석을 하다보면 Treati 와 Aftert 가 각각의 fixed effect에 흡수되기 때문에 저절로 빠지고 interaction term만 남아있는 경우가 많다. 

 

 DID 식은 위와 같이 나타낼 수 있다. 여기서 P는 시간 변화(treatment 시점)를 나타내는 더미 변수이고, T는 treatment 그룹을 나타내는 더미 변수이다. 이 두 변수를 fixed effect를 이용해서 나타내면 다음과 같다. 

https://medium.com/eatpredlove/regression-difference-in-differences-208c2e787fd2

 

 

 

📌예시 1

https://blog.naver.com/PostView.nhn?blogId=modernyoon&logNo=221895928365&parentCategoryNo=&categoryNo=23&viewDate=&isShowPopularPosts=true&from=search

 

📌예시 2

박진백. (2017). 전매제한 규제강화가 아파트 가격에 미치는 영향-11.3 부동산 대책을 중심으로. 부동산 분석, 3(1), 73-88.

 

📌예시 3

정준환, 이지연, & 김형건. (2013). 알뜰주유소 전환으로 인한 자영주유소의 휘발유가격 인하효과 분석. 에너지경제연구, 12(1), 125-158.

 

📌예시 4

임태경. (2019). 준실험설계에 의한 혁신도시 개발정책이 지역경제 성장에 미치는 영향. 지방행정연구, 33(3), 233-260.

 

📌예시 5

 

 

 

✅ Relative Time Model 

 treatment 시점이 모든 관측치마다 일치하면 DID를 사용할 수 있지만, 각 관측치마다 다른 경우에는 relative time model을 사용할 수 있다. treatment 시점을 기준으로 1,2,3년 전과 1,2,3년 후 등을 더미 변수로 넣어서 모델에 넣는다. 

 

parallel trend 가정이 성립한다면 treatment 이전 시점에는 처치와 통제 집단의 차이가 나지 않아야 한다. 

Greenwood, B. N., & Wattal, S. (2017). Show Me the Way to Go Home: An Empirical Investigation of Ride-Sharing and Alcohol Related Motor Vehicle Fatalities. MIS Q., 41(1), 163-187.

 

Korea Summer Workshop on Causal Inference 2022

 treatment 시점이 다 다르기 때문에 DID 처럼 After t 변수를 사용할 수 없다. 따라서 treatment 그룹이면서 특정 시점인 t에 treatment를 받은 여부를 나타내는 Treat_After it 변수를 사용한다. 이런 방식으로 나타내면 treatment 시점이 다 다르더라도 1,0의 바이너리 형태로 나타낼 수 있다. 

 

 

 

 

 


📚  Reference

• Korea Summer Workshop on Causal Inference 2022, Boot Camp for Beginners, 이중차분법

https://www.publichealth.columbia.edu/research/population-health-methods/difference-difference-estimation   

 

 

Greenwood, B. N., & Wattal, S. (2017). Show Me the Way to Go Home: An Empirical Investigation of Ride-Sharing and Alcohol Related Motor Vehicle Fatalities. MIS Q., 41(1), 163-187.

 

손호성, & 이재훈. (2018). 행정학・ 정책학 연구에서의 이중차분 추정기법의 활용과 쟁점. 현대사회와 행정, 28(3), 1-31.

 

정준환, 이지연, & 김형건. (2013). 알뜰주유소 전환으로 인한 자영주유소의 휘발유가격 인하효과 분석. 에너지경제연구, 12(1), 125-158.

 

박진백. (2017). 전매제한 규제강화가 아파트가격에 미치는 영향-11.3 부동산대책을 중심으로. 부동산분석, 3(1), 73-88.

 

https://medium.com/eatpredlove/regression-difference-in-differences-208c2e787fd2

 

https://blog.naver.com/PostView.nhn?blogId=modernyoon&logNo=221895928365&parentCategoryNo=&categoryNo=23&viewDate=&isShowPopularPosts=true&from=search

댓글