데이터 분석/인과 추론11 [R] Plm vs lm 모델의 R square 값 차이 📚 Plm vs lm 함수의 결과 차이 R 에서 Two-way Fixed effect regression 분석을 하기 위해서는 plm()과 lm() + dummy variables 방식을 사용할 수 있는데, R-squared 값에서 차이가 나타난다. (coefficient, p-value는 동일) 특히 plm()을 사용할 때, adjusted R 값이 음수가 나와서 모델이 제대로 fit 되어있지 않은 문제가 종종 발생한다. lm() + 더미변수에서는 충분한 R^2 값이 나오지만, plm() 을 사용할 경우 그 값이 낮아지거나 음수가 되는 케이스들을 아래와 같이 찾을 수 있었다. https://stats.stackexchange.com/questions/496761/negative-adjusted-r-sq.. 2022. 10. 2. 도구변수(Instrumental Variable)와 2SLS 분석 📚 도구변수 개념 *Korea Summer Workshop on Causal Inference 2022의 부트캠프 내용과 기타 구글링 결과를 참고하여 작성하였습니다. ✅ 독립변수와 Error Term의 관계 (feat. selection bias) • 회귀분석의 기본 가정 : conditional independence → 통제변수가 있는 상황에서 독립변수(X)와 error term의 상관관계가 없어야 한다. (하지만 완벽하게 통제된 실험 연구가 아니라, 2차 데이터를 수집해서 분석하는 경우에는 이러한 조건을 충족시키기 어렵다) treatment group에서 treatment가 없었을 때를 의미하는 counteractual와 control group의 차이를 selection bias라고 한다. 관찰되.. 2022. 9. 17. Panel Data 분석 - Fixed Effect / Random Effect 📚 패널 데이터란? 위와 같이 Cross-sectional 데이터와 time-series 데이터의 특징을 둘 다 가지고 있는 데이터를 패널 데이터라고 한다. → A panel data set consists of a time series for each cross-sectional member 패널 데이터를 사용함으로써 얻을 수 있는 장점은 다음과 같다. 1. 개인이 가지고 있는 특이성(individual-specific heterogeneity)을 고려할 수 있음 2. 종단/횡단의 두 차원을 결합함으로써 more variation, less collinearity, more degrees of freedom 확보 3. cross sectional 또는 time-series 데이터 각각으로는 파악하기 힘.. 2022. 8. 26. Fixed Effect vs Random Effect 📚Fixed Effect Model vs Random Effect Model ✅ Fixed Effect •개별 관측치의 특성을 나타내는 변수(ai)를 추가한다. 이 변수는 독립변수(xit)와 상관관계가 있음 • 각 관측치가 가지고 있는 개별적인 특징은 종속변수에 영향을 줄 수 있다. 따라서 이러한 특징들 중에서 time-invariant한 특징을 제거하기 위해서 FE 모델을 사용한다. • FE모델에서는 ai를 추정해야 하는 모수(parameter)로 간주되고, 상수항이 패널 개체마다 서로 다르면서 고정되어 있다고 가정한다. 이러한 ai는 위 그림과 같이 차분하거나 기간평균 차분 등을 이용하면 사라지게 된다. • 대부분의 경우 RE 모델보다 FE 모델이 더 많이 사용된다. 📌 Two-way fixed ef.. 2022. 7. 3. Difference-in-Differences (이중차분법) 📚 Difference in Differences ✅ 기본 개념 DID는 특정 사건 전후로 실험집단과 통제집단의 차이를 비교하기 위해서 주로 사용된다. 실험집단과 동질적인 통제집단을 설정하여 전후관계를 비교함으로써 시간에 따라 변하는 관측 불가능한 요인이 제거되어 인과효과 추정값을 식별할 수 있는 장점이 있다. 이중차분 추정량을 통해 어떤 사건의 인과효과를 분석하기 위해서는 실험집단의 사건 시행 이후와 이전 자료, 통제집단의 사건 시행 이후와 이전 자료 등 총 네 개 집단에 대한 자료를 활용해야한다. • 횡단면 차분 : TA - TB는 treatment 그룹의 시간에 따른 변화를, CA - CB는 control 그룹의 시간에 따른 변화를 의미한다. • 종단면 차분: TA - CA 는 treatment 이.. 2022. 6. 27. DID와 Synthetic Control 비교 📚 DID ✅ 개요 DID는 시간의 흐름에 따른 treatment 그룹의 변화를 conterfactual인 control 그룹의 변화와 비교해서 파악한다. 위의 potential outcome framework 플로우 상에서 DID를 사용하는 조건을 살펴보면 다음과 같다. • 완전 무작위 실험이 불가능할 때 • treatment와 control 그룹이 둘 다 관찰 가능할 때 • longitudinal data 일 때 • parallel trend 가정을 만족할 때 위 그림에는 1,2,3,4 subject에 대해서 각각의 두 개의 행은 시간의 흐름에 따른 변화를 나타낸다. 1,2는 treatment 이고 3,4는 control에 해당한다. 통제 집단에서 시간의 흐름에 따라서 1과 0씩 값이 증가했으며 이는.. 2022. 6. 27. 이전 1 2 다음