본문 바로가기

데이터 분석/통계, 분석기법7

교차 엔트로피(Cross Entropy) 📚교차 엔트로피 ✅ 엔트로피 • 정의 : 정보이론에서 나온 개념으로, 변수의 불확실성을 나타내는 지표이다. 엔트로피는 확률분포 p를 가지는 변수 X에 대해서 아래와 같이 정의된다. • X가 특정한 값을 가질 확률이 1인 경우에 엔트로피는 최솟값이 된다. 이 때의 엔트로피 값은 0이다. 즉, 불확실성이 감소할수록 엔트로피 값은 작아진다. • 반대로 각 값을 가질 확률이 동일한 경우, 즉 위의 경우는 p(X=k) = 1/K 인 경우 최대 (이러한 경우 불확실성이 제일 크다는 것을 의미) ✅ 교차 엔트로피 정의 : 엔트로피는 하나의 변수가 가지는 확률 분포의 불확실성을 의미함. 교차 엔트로피틑 하나의 변수(X)가 가질 수 있는 서로 다른 분포(p, q)를 가질 경우, 해당 분포들의 차이를 의미함. ✅ 머신러닝.. 2022. 4. 11.
다변량 확률 분포, Maximum Likelihood Estimator 📚 Multivariate Probability Distribution ✅ 결합확률분포 : Joint probability distribution • 변수가 2개 이상일 때, 변수들이 취할 확률 값을 계산하기 위한 확률 분포 • Joint probability is a statistical measure that calculates the likelihood of two events occurring together and at the same point in time 두 개 변수에 대한 이산확률분포, 연속확률분포를 위와 같이 나타낼 수 있음 X는 동전 던질 때의 사건, Y는 주사위를 던질 때의 사건이다. (X, Y는 독립) 각 셀은 X,Y 두 변수에 대한 결합확률 분포를 나타낸다. ✅ Marginal .. 2022. 4. 10.
확률 기본 개념 📚 Probability(확률) ✅ 확률 관련 기본 용어 정리 🏷️ 집합 여러 개의 원소로 구성된 그룹이고, 중복되는 원소를 가질 수 없다. 🏷️ 시행 (Experiment, trial) 동일한 조건에서 반복 수행이 가능하고, 결과를 사전에 알 수 없는 행동. 집합으로 표현된다. 🏷️ 표본공간 (Sample space) 어떤 시행에서 발생 가능한 모든 결과의 집합. 표본공간의 각 원소를 sample point라고 한다. ex) 주사위를 한 번 던지는 시행의 표본 공간 = {1,2,3,4,5,6} 동전을 한 번 던지는 시행의 표본 공간 = {앞, 뒤} 두 개의 동전을 동시에 던지는 시행의 표본 공간 = { (H,H), (H, T), (T, H), (T, T) } 🏷️ 사건(Event) 시행의 결과로 나타날.. 2022. 3. 28.
Association Rules - 장바구니 분석 ◈ 개념 및 용어 정리 • Market basket analysis (Agrawal et al., 1993) 논문에서 처음 제시됨. • 비지도 학습의 일종으로, 고객들이 특정 품목을 구매할 때 어떤 다른 항목들을 같이 구매(co-occurence)하는지 분석하기 위해서 사용 •affinity analysis 또는 market basket analysis 라고도 불리며, cross-selling 목적으로 사용됨 •Apriori algorithm이 주로 사용되고, 계산량을 줄이기 위해서 support 개념을 이용해서 자주 등장하는 itemset 을 선정함 • 해당 규칙의 성과를 평가하기 위해서 confidence 와 lift 사용 ✔ 예시 : 고객들의 faceplate 구매 내역 ✔ 예시 : 특정 유저가 읽.. 2021. 11. 24.
생존분석(Survival Analysis) : Kaplan-Meier / Cox Proportional Hazard / BYTD ◈ 개념 • 종속변수 : 특정 이벤트가 발생할 때, 발생하기까지 걸린 시간 • non-parametric / semi-parametric 으로 구분됨 → 모수적 방법이 훨씬 좋으나, 현실적으로 한계가 있기 때문에 비모수적 방법 사용함 • Death의 경우 죽었는지를 확인할 수 있지만, Survival의 경우 언제 죽는지 알 수 없다 (분석 기간 후에 사망할 수도) ✅ 사용 분야 : 원래 의학 분야에서 개발됐지만, 경영학에서도 고객 이탈 분석에서 사용됨 ① Acquisition Analytics : 사용자 획득 단계 분석 • 최소 비용으로 최대의 마케팅 효•율 내는 광고 채널 선택 ② Experience Analytics : 인앱에서 행동 분석 • 앱 설치 직후 행태 분석 → 지속 사용 유저 파악 • 로그.. 2021. 11. 15.
VAR (Vector Auto Regressive) 모형 보호되어 있는 글 입니다. 2021. 11. 1.