본문 바로가기

전체 글184

Matching & Weighting 📚 Matching ✅ 개요 treatment 그룹과 control 그룹의 특성을 유사하게 만들어서 비교하는 방법 • 매칭과 회귀분석은 사실상 같은 역할을 하지만, 매칭은 회귀 분석과는 다르게 오차와 통제변수 사이의 특정한 functional form을 가정하지 않는다. ✅ Propensity Score Matching (PSM) 통제 변수가 주어진 상태에서 treatment를 받을 확률을 propensity score라고 한다. treatment 그룹과 control 그룹의 관측치 각각에 대해서 propensity score를 계산하고, 이 값이 비슷한 데이터끼리 매칭하는 방법이 PSM 이다. propensity score는 종속변수를 treatment 여부로 두고 logistic regression .. 2022. 6. 27.
회귀 분석 (Regression) 📚 인과추론에서의 회귀분석 ✅ 개요 • 회귀 분석은 인과추론의 수준이 가장 낮으며, 특정 이론이나 도메인 지식을 기반으로 Designed Regression을 실시하는 경우 인과추론의 수준을 한 단계 높일 수 있다. 이러한 방식은 관찰 가능한 변수에 의해서만 selection을 통제할 수 있다는 가정을 기반으로 하며, 관찰 불가능한 변수에 의한 selection은 통제할 수 없다. 주요 방법론은 다음과 같다. (1) 적절한 통제변수를 사용해서 회귀분석을 진행해서 인과관계를 추론하는 방식 (2) 비교 대상인 두 집단의 특성 자체를 비슷하게 만드는 것. (3) treatment를 받을 확률의 역수만큼을 각 데이터의 가중치로 부여해서, 무작위 실험과 비슷하게 treatment를 받을 확률을 비슷하게 만드는 방.. 2022. 6. 26.
Potential Outcome Framework 📚 Potential Outcome Framework ✅ Counterfactual (반사실) 인과관계는 treatment의 효과와, 그것을 받지 않았을 때의 잠재적 결과(Counter factual)의 차이를 의미한다. 하지만 실제로 treatment를 받은 관측치들의 counterfactual 데이터는 관측이 현실에서는 불가능하다. 반대로 treatment를 받지 않은 경우도 treatment를 받은 경우에 대한 데이터(counterfactual)를 수집하는 것이 불가능하다. 따라서 현실에서는 이러한 한계 때문에 가장 counterfactual에 가까운 control group을 사용한다. 이때 개별적인 conterfactual을 구할 수가 없기 때문에 그룹으로 나눠서 평균치를 비교한다. Potent.. 2022. 6. 26.
인과추론(Causal Inference) 개요 📚 인과추론 vs 예측 • 인과추론(causal inference)과 예측(prediction)은 데이터 분석의 목적이 다르다. 목적이 다르기 때문에 사용 분석 기법도 차이가 있다. • 분석을 통해서 Input인 독립변수를 파악해서 조절하는 것이 목적이라면 인과 추론이 보다 적절하다. 만약 Output을 정확하게 아는 것이 목적이라면 예측 기법이 적절하다. • 하지만 이 두가지 방법론이 서로 배타적인 것은 아니며 상황에 따라서 적절하게 사용할 수 있다. ex 1) 인과 추론을 통해서 도출한 유의한 변수로 예측 모델링을 하는 경우에 보다 성능을 높일 수 있다. ex 2) 새로운 추천 알고리즘을 도입했을 때, 이것이 매출을 증진하는 것을 살펴보기 위해서 인과 추론을 사용할 수 있다 • 인과추론의 의의 : 인.. 2022. 6. 22.
GMM (Gaussian Mixture Models) 📚 GMM ✅ 개요 • KNN, 위계적 군집화, DBSCAN 등의 알고리즘은 벡터간 유사도로 군집화를 실시한다. 반면 GMM은 관측된 데이터가 특정 확률 분포를 이용해서 생성되었다고 가정하는 확률 모델이다. • GMM은 독립변수에 대한 다변량 분포(multivariate distribution)를 사용해서 데이터가 생성되었다고 가정한다. 하나의 분포가 하나의 군집을 의미하고, 다변량 분포에서는 여러 개의 확률 분포(=여러 개의 피쳐)를 사용한다. GMM에서는 각 분포가 가우시안 분포(=정규 분포)를 따른다. ✅ 정규 분포 (= 가우시안 분포) 독립변수가 하나인 경우 정규분포는 아래와 pdf를 따른다. 정규분포의 주요 파라미터는 평균과 분산이고 아래와 같이 표현할 수 있다. 독립변수가 1개인 데이터가 있을.. 2022. 6. 18.
서포트 벡터 머신 (Support Vector Machine) 📚 SVM ✅ 개요 • 2010년 전후로 많이 사용되었는데 정형 데이터에 대해서는 앙상블 기법, 비정형 데이터에 대해서는 인공신경망이 등장하면서 상대적으로 사용 빈도가 감소했다. • 주로 분류 문제에 많이 사용된다. 관측치를 벡터로 변환해서 공간상의 점으로 표현하고 그 점들을 구분하는 여러 개의 hyperplane(직선) 중에서 최적의 직선을 찾는 방식으로 학습한다. • n차원 공간(피쳐가 n개가 있는 경우)에 대한 하이퍼플레인은 다음과 같이 표현된다. 즉 위와 같이 2차원 공간에서는 직선의 형태가 되고 b0, b1, b2와 같은 파라미터에 의해서 직선의 형태가 달라진다. SVM은 학습을 통해서 최적의 파라미터를 탐색한다. ✅ 최적의 hyperplane을 탐색하는 방법 hyperplane과 가장 가까운 .. 2022. 6. 18.