본문 바로가기

데이터 분석42

인과추론(Causal Inference) 개요 📚 인과추론 vs 예측 • 인과추론(causal inference)과 예측(prediction)은 데이터 분석의 목적이 다르다. 목적이 다르기 때문에 사용 분석 기법도 차이가 있다. • 분석을 통해서 Input인 독립변수를 파악해서 조절하는 것이 목적이라면 인과 추론이 보다 적절하다. 만약 Output을 정확하게 아는 것이 목적이라면 예측 기법이 적절하다. • 하지만 이 두가지 방법론이 서로 배타적인 것은 아니며 상황에 따라서 적절하게 사용할 수 있다. ex 1) 인과 추론을 통해서 도출한 유의한 변수로 예측 모델링을 하는 경우에 보다 성능을 높일 수 있다. ex 2) 새로운 추천 알고리즘을 도입했을 때, 이것이 매출을 증진하는 것을 살펴보기 위해서 인과 추론을 사용할 수 있다 • 인과추론의 의의 : 인.. 2022. 6. 22.
교차 엔트로피(Cross Entropy) 📚교차 엔트로피 ✅ 엔트로피 • 정의 : 정보이론에서 나온 개념으로, 변수의 불확실성을 나타내는 지표이다. 엔트로피는 확률분포 p를 가지는 변수 X에 대해서 아래와 같이 정의된다. • X가 특정한 값을 가질 확률이 1인 경우에 엔트로피는 최솟값이 된다. 이 때의 엔트로피 값은 0이다. 즉, 불확실성이 감소할수록 엔트로피 값은 작아진다. • 반대로 각 값을 가질 확률이 동일한 경우, 즉 위의 경우는 p(X=k) = 1/K 인 경우 최대 (이러한 경우 불확실성이 제일 크다는 것을 의미) ✅ 교차 엔트로피 정의 : 엔트로피는 하나의 변수가 가지는 확률 분포의 불확실성을 의미함. 교차 엔트로피틑 하나의 변수(X)가 가질 수 있는 서로 다른 분포(p, q)를 가질 경우, 해당 분포들의 차이를 의미함. ✅ 머신러닝.. 2022. 4. 11.
다변량 확률 분포, Maximum Likelihood Estimator 📚 Multivariate Probability Distribution ✅ 결합확률분포 : Joint probability distribution • 변수가 2개 이상일 때, 변수들이 취할 확률 값을 계산하기 위한 확률 분포 • Joint probability is a statistical measure that calculates the likelihood of two events occurring together and at the same point in time 두 개 변수에 대한 이산확률분포, 연속확률분포를 위와 같이 나타낼 수 있음 X는 동전 던질 때의 사건, Y는 주사위를 던질 때의 사건이다. (X, Y는 독립) 각 셀은 X,Y 두 변수에 대한 결합확률 분포를 나타낸다. ✅ Marginal .. 2022. 4. 10.
확률 기본 개념 📚 Probability(확률) ✅ 확률 관련 기본 용어 정리 🏷️ 집합 여러 개의 원소로 구성된 그룹이고, 중복되는 원소를 가질 수 없다. 🏷️ 시행 (Experiment, trial) 동일한 조건에서 반복 수행이 가능하고, 결과를 사전에 알 수 없는 행동. 집합으로 표현된다. 🏷️ 표본공간 (Sample space) 어떤 시행에서 발생 가능한 모든 결과의 집합. 표본공간의 각 원소를 sample point라고 한다. ex) 주사위를 한 번 던지는 시행의 표본 공간 = {1,2,3,4,5,6} 동전을 한 번 던지는 시행의 표본 공간 = {앞, 뒤} 두 개의 동전을 동시에 던지는 시행의 표본 공간 = { (H,H), (H, T), (T, H), (T, T) } 🏷️ 사건(Event) 시행의 결과로 나타날.. 2022. 3. 28.
for, if 문 한 줄로 작성하기 ✅ for 반복문 emp_list = list(range(10)) for i in emp_list: print(i) #한줄1 [i for i in emp_list] #한줄2 for i in emp_list : print(i) [ 출력결과 for 반복문 ] 형태로 작성한다. ✅ if 조건문 📌조건 1개 #조건 1개 v=3 if v 2022. 3. 8.
데이터분석 팁 정리 📚 데이터 분석 Tip • 데이터 사이언스를 공부하면 할수록 분석가의 노하우도 상당히 중요하다는 것을 느끼고 있다. 적절한 노하우가 있다면 분석의 효과와 효율을 높일 수 있기 때문에 그동안 스스로 수업, 프로젝트, 공모전, 세미나 등을 통해서 얻은 노하우와, 교수님, 현직자, 전문가 분들께 얻은 지식 정리하고자 한다. ✅ 이상치 처리 기준 • 이상치 처리 과정에서 Q3 + 1.5*IQR 기준이 빈번하게 사용된다. 근데 이 기준도 절대적인 것이 아니기 때문에 유연하게 사용해야 한다. 아래 출처에서 왜 1.5를 기준으로 쓰는지에 대한 설명 제공 https://towardsdatascience.com/why-1-5-in-iqr-method-of-outlier-detection-5d07fdc82097 • Z-s.. 2022. 2. 28.