본문 바로가기

전체 글184

차원축소 기본 - 고유값, 고유벡터, 고유분해 📚 차원 축소 ✅ 차원의 저주 (Curse of Dimensionality) : 피쳐의 수가 지나치게 많아져서 발생하는 문제 • 지도 학습 : 노이즈 제거를 통해서 과적합 가능성 감소 및 모델 성능 향상 • 비지도 학습 : 피쳐가 많으면 각 관측치 간의 거리가 유사해진다. 거리 계산하는 요소가 많아지면 평준화되는 경향이 있다. 또한 한 관측치를 설명하는 피쳐가 많으면, 중요한 피쳐가 무엇인지 파악하기 어렵기 때문에 벡터가 관측치의 unique한 특성을 반영할 수가 없어서 벡터간 구분이 어렵다. • 각 관측치가 가지고 있는 피쳐의 수 = 해당 벡터가 존재하는 공간의 차원의 수 = 해당 벡터의 원소의 수 ✅ 차원 축소 방법 📌1. Feature Selection • 원래 피쳐 중에서 목적에 적합한 중요 변수.. 2022. 5. 29.
앙상블 기법(Ensemble Method) - Boosting 📚Boosting - Adaboosting, Gradient Boosting Boosting 방식은 sub sample을 사용하지 않고 원래의 학습 데이터에 여러 개의 weak learner를 순차적으로 적용한다. 이전 learner가 잘못 예측한 부분을 이후의 learner가 보완하는 방식으로 학습이 진행된다. Gradient boosting, Adaptive boosting이 여기에 속한다. 최근에는 배깅보다 부스팅 방식이 성능이 더 뛰아나서 많이 사용된다. 부스팅 방식에서는 각 data point에 유니크한 가중치가 부여되는데, 이전 learner에서 제대로 예측하지 못한 data point의 경우 다음 learner에서 가중치를 더 크게 부여해서 올바르게 학습되도록 유도한다. 📚 AdaBoosti.. 2022. 5. 28.
Customer experience management in the age of big data analytics: A strategic framework 📚 논문 정보 📚 요약 최근 고객경험관리(Customer eXperience Management)가 빅데이터 분석(BDA)과 관련하여 비즈니스적 측면에서 중요한 요소로 떠오르고 있다. 이 연구에서는 향후 연구와 실무를 위해서 두 가지 영역을 통합하는 프레임워크를 제안한다. CX는 고객들이 구매 과정에서 여러 지점에서 기업과 상호작용하는 전체 과CR정을 의미하며, CXM은 이러한 CX를 향상시키고 고객 충성도를 확보하는 것에 초점을 둔다. 이 연구에서 제안한 CX와 BDA를 통합한 개념적 프레임워크는 아래와 같다. • CX and CX data CX관련 데이터는 structured/unstructured유형과 solicited/unsolicited유형에 따라서 구분된다. 이 데이터들은 형식, 정제 필요성,.. 2022. 5. 26.
Investigating the intention to purchase digital items in social networking communities : A customer value perspective 📚 논문 정보 📚 요약 이 연구에서는 SNC(Social Networking Club) 이용자들을 대상으로 분석을 진행하였다. 당시 대부분의 회사들은 광고를 수익모델로 사용하였으나, 싸이월드를 기점으로 음악 디지털 항목과 그래픽 디지털 항목(배경, 액세서리, 아바타) 항목을 통해서 수익을 창출하는 SNC가 증가하였다. 하지만 이전까지 SNC 멤버들이 이러한 디지털 아이템을 구매하는 동기는 명확하지 않았다. 따라서 이 연구에서는 Customer Value Theory를 바탕으로 디지털 아이템을 구매하는 동기를 분석하였다. 고객 가치 이론은 위와 같이 functional, emotional, social value 세 가지로 구성되고 이들은 구매 의도에 중요한 영향을 미친다. 위 이론을 바탕으로 price .. 2022. 5. 26.
앙상블 기법(Ensemble Method) - Bagging 📚 Bagging (Bootstrap Aggregating) 일반적으로 단일 weak learner를 사용하면 충분한 성능을 확보하기 어렵다. 따라서 앙상블 기법(Ensemble method)은 여러 개의 weak learner를 결합하여 stronger learner를 생성한다. 앙상블 방법에는 Bagging과 Boosting이 있다. 이 포스트에서는 Bagging 방식에 대해서 정리한다. 배깅은 학습 데이터에서 sub-sampling을 진행해서 여러 개의 하위 샘플을 생성하고, 각 샘플들에 대해서 DT를 만들어서 예측을 진행하고 결과를 종합한다. 여러 개의 모델을 결합하기 때문에 과적합 가능성이 감소하고 모델의 일반화 가능성이 증가한다는 장점이 있다. 대표적으로 Random Forest 기법이 배깅 .. 2022. 5. 24.
의사결정나무 (Decision Tree) 📚 Decision Tree DT는 기본적으로 독립변수 값에 따라서 종속변수를 값이 유사한 여러 개의 그룹으로 분리하고, 각 그룹에 속한 관측치들을 모두 동일한 값으로 예측한다. DT는 종속변수를 그룹으로 나누기 위해서 데이터 포인트를 트리 구조로 분리한다. DT는 회귀문제와 분류문제 모두에 사용할 수 있다. DT는 독립변수를 이용해서 각 데이터 포인트를 그룹으로 묶고, 각 그룹에 모두 동일한 값을 할당하여 리턴한다. 회귀문제는 각 그룹 종속변수의 평균값을 사용하고, 분류문제는 각 그룹의 최빈값을 사용한다. ✅ 노드를 분류하는 기준? 기본적으로 각 노드에서 split을 했을 때, 발생하는 error의 정도를 최소화 하는 방향으로 split 한다. 여기서 회귀문제와 분류문제에서는 error의 정도를 계산하.. 2022. 5. 24.