본문 바로가기

데이터 분석42

Difference-in-Differences (이중차분법) 📚 Difference in Differences ✅ 기본 개념 DID는 특정 사건 전후로 실험집단과 통제집단의 차이를 비교하기 위해서 주로 사용된다. 실험집단과 동질적인 통제집단을 설정하여 전후관계를 비교함으로써 시간에 따라 변하는 관측 불가능한 요인이 제거되어 인과효과 추정값을 식별할 수 있는 장점이 있다. 이중차분 추정량을 통해 어떤 사건의 인과효과를 분석하기 위해서는 실험집단의 사건 시행 이후와 이전 자료, 통제집단의 사건 시행 이후와 이전 자료 등 총 네 개 집단에 대한 자료를 활용해야한다. • 횡단면 차분 : TA - TB는 treatment 그룹의 시간에 따른 변화를, CA - CB는 control 그룹의 시간에 따른 변화를 의미한다. • 종단면 차분: TA - CA 는 treatment 이.. 2022. 6. 27.
DID와 Synthetic Control 비교 📚 DID ✅ 개요 DID는 시간의 흐름에 따른 treatment 그룹의 변화를 conterfactual인 control 그룹의 변화와 비교해서 파악한다. 위의 potential outcome framework 플로우 상에서 DID를 사용하는 조건을 살펴보면 다음과 같다. • 완전 무작위 실험이 불가능할 때 • treatment와 control 그룹이 둘 다 관찰 가능할 때 • longitudinal data 일 때 • parallel trend 가정을 만족할 때 위 그림에는 1,2,3,4 subject에 대해서 각각의 두 개의 행은 시간의 흐름에 따른 변화를 나타낸다. 1,2는 treatment 이고 3,4는 control에 해당한다. 통제 집단에서 시간의 흐름에 따라서 1과 0씩 값이 증가했으며 이는.. 2022. 6. 27.
무작위 실험 (Random Assignment), 준실험 ( Quasi-experiment) 📚 Random Assignment • 여러 인과추론 방법론 중에서 단일 방법론으로는 가장 인과 추론의 수준이 높다. 무작위 실험은 개별 관측치들이 가진 다른 특성에 상관없이 treatment와 control 그룹을 배정할 수 있다. 즉 샘플의 수가 충분히 많으면 다른 특징들은 두 그룹 사이에서 비슷하기 때문에 treatment의 효과를 평균적으로 비교가 가능해진다. 랜덤화가 잘 되었다면 통제변수를 추가해서 동일한 분석을 진행했을 때 결과에 차이가 없어야 한다. 📌연구 사례 Carter, S. P., Greenberg, K., & Walker, M. S. (2017). The impact of computer usage on academic performance: Evidence from a random.. 2022. 6. 27.
Matching & Weighting 📚 Matching ✅ 개요 treatment 그룹과 control 그룹의 특성을 유사하게 만들어서 비교하는 방법 • 매칭과 회귀분석은 사실상 같은 역할을 하지만, 매칭은 회귀 분석과는 다르게 오차와 통제변수 사이의 특정한 functional form을 가정하지 않는다. ✅ Propensity Score Matching (PSM) 통제 변수가 주어진 상태에서 treatment를 받을 확률을 propensity score라고 한다. treatment 그룹과 control 그룹의 관측치 각각에 대해서 propensity score를 계산하고, 이 값이 비슷한 데이터끼리 매칭하는 방법이 PSM 이다. propensity score는 종속변수를 treatment 여부로 두고 logistic regression .. 2022. 6. 27.
회귀 분석 (Regression) 📚 인과추론에서의 회귀분석 ✅ 개요 • 회귀 분석은 인과추론의 수준이 가장 낮으며, 특정 이론이나 도메인 지식을 기반으로 Designed Regression을 실시하는 경우 인과추론의 수준을 한 단계 높일 수 있다. 이러한 방식은 관찰 가능한 변수에 의해서만 selection을 통제할 수 있다는 가정을 기반으로 하며, 관찰 불가능한 변수에 의한 selection은 통제할 수 없다. 주요 방법론은 다음과 같다. (1) 적절한 통제변수를 사용해서 회귀분석을 진행해서 인과관계를 추론하는 방식 (2) 비교 대상인 두 집단의 특성 자체를 비슷하게 만드는 것. (3) treatment를 받을 확률의 역수만큼을 각 데이터의 가중치로 부여해서, 무작위 실험과 비슷하게 treatment를 받을 확률을 비슷하게 만드는 방.. 2022. 6. 26.
Potential Outcome Framework 📚 Potential Outcome Framework ✅ Counterfactual (반사실) 인과관계는 treatment의 효과와, 그것을 받지 않았을 때의 잠재적 결과(Counter factual)의 차이를 의미한다. 하지만 실제로 treatment를 받은 관측치들의 counterfactual 데이터는 관측이 현실에서는 불가능하다. 반대로 treatment를 받지 않은 경우도 treatment를 받은 경우에 대한 데이터(counterfactual)를 수집하는 것이 불가능하다. 따라서 현실에서는 이러한 한계 때문에 가장 counterfactual에 가까운 control group을 사용한다. 이때 개별적인 conterfactual을 구할 수가 없기 때문에 그룹으로 나눠서 평균치를 비교한다. Potent.. 2022. 6. 26.