본문 바로가기

전체 글184

[머신러닝] Decision Tree ◈ Decision Tree 개념 가장 기본적이면서 직관적인 알고리즘이지만, 최근 머신러닝 문제에 자주 사용되는 여러 부스팅 계열 알고리즘의 기본이 된다. • Recursive Partitioning : 트리에서 branch를 최대한 많이 만들어서 maximum homogeneity를 달성한다. 즉 데이터의 상태가 최대한 pure 한 상태가 되도록 가지를 생성함 (이진 분류인 경우 한쪽 클래스로만 분류되도록) Pruning Tree : branch가 너무 많을 경우 과적합이 발생할 수 있으므로, pruning을 실시한다. • Riding mower 사례에서, 좌측처럼 2개의 변수로 분류를 실시할 때, 우측처럼 데이터를 최대한 pure한 상태(이질성이 적은 상태)로 분류하는게 최선의 트리이다. ✅ Impu.. 2021. 10. 13.
협업필터링 + KNN ◈ 협업필터링과 KNN을 함께 사용 • 특정 사용자에 대해서 예측값 가중치를 계산할 때, 가장 가까운 K명의 neighbor의 데이터만 사용하는 방식 ✔ 가정 • 취향이 비슷한 사람들은 모든 아이템에 대한 선호가 일관되게 유사하다 • 추천 대상인 사용자와 유사도가 높은 사용자일수록, 취향을 정확하게 반영할 수 있다. ✔ 이웃의 크기 결정 방식 ① KNN : 특정 사용자와 최대한 유사한 K 명의 이웃을 사용 ② Thresholding : 유사도의 기준을 정해두고(ex. 0.7 이상) 그에 따라서 이웃을 정하는 방식. KNN보다 정확도는 높지만, Coverage가 낮아진다(추천할 수 있는 사용자의 %가 줄어든다) → Thresholding의 경우 해당 조건을 만족하는 이웃이 존재하지 않을 수 있으므로, 주로.. 2021. 10. 11.
협업필터링 기본 📚 Collaborative Filtering 개념 ✅ 기본 개념 협업필터링(CF)는 가장 보편적으로 많이 알려지고 사용되는 추천 알고리즘이다. 기본적인 협업 필터링은 사용자 A에게 추천을 할 때, A와 유사한 취향을 가진 이웃들을 찾고 이 사람들이 좋아하는 상품이나 서비스를 추천하는 방식으로 진행된다. • 기본 가정 - 사용자로부터 아이템에 대한 명시적/묵시적 평가를 데이터로 구할 수 있다 - 사용자들의 평가 데이터에서 취향이 비슷한 사람을 찾아낼 수 있고, 취향이 비슷한 사람들은 선호 패턴이 비슷하다 • 추천이 적합한 도메인과 그렇지 않은 도메인이 존재한다. 추천이 잘 맞는 도메인은 사람들의 취향이 일관되게 나타나는 도메인이다. 예를 들어, 영화의 경우 한 사람의 취향이 일관되게 유지되는 경우가 많다.. 2021. 10. 11.
unicodeescape 에러 해결 import pandas as pd df = pd.read_csv(r'C:\user\desktop\data.csv') 이 방식으로 데이터를 주로 불러 왔었는데(폴더 경로 수정이 번거로워서), IDE에서 로딩하고 실행하는 데에는 문제가 없지만 디버깅을 할 때 위와 같은 유니코드 에러 메세지가 발생했다. import pandas as pd df = pd.read_csv('C:/user/desktop/data.csv') 구글링 해보니, \ 문자가 유니코드로 인식되는 문제라고 한다. 따라서 \ 대신 / 를 사용하거나 \\를 사용하면 정상적으로 로딩 및 디버깅이 가능하다. 2021. 10. 11.
Markov Chain Monte Carlo 개념 ◈ 개념 • 마코프 체인 : 과거 상태(S1, S2, .... S(t-1) ) 과 현재 상태( St ) 가 주어졌을 때, 미래 상태( S(t+1) ) 은, 과거 상태와 독립적으로 현재 상태에 의해서만 결정되는 "마코프 특성" 을 지닌 확률 과정을 의미함 • 몬테 카를로 시뮬레이션 : 랜덤 추출로 함수의 값을 확률적으로 계산하는 알고리즘. 계산하려는 값이 복잡한 경우에 근사값을 예상할 수 있음 •MCMC 는 확률 변수의 사전분포에서 사후분포로 넘어가는 과정을 마코프 체인으로 계산하고, 사후 분포를 계산할 때 몬테카를로 시뮬레이션으로 계산함. 그리고 이 사후분포로 추론을 하는것을 Bayesian Inference라고 부름 • 사전 분포에서 새로운 데이터가 추가되면, 이를 통해서 사후 분포를 만들고 추가된 데.. 2021. 10. 10.
[계량경제] Motivating User-Generated Content with performance Feedback : Evidence from Randomized Field Experiments ◈ 논문 정보 Huang, Ni, et al. "Motivating user-generated content with performance feedback: Evidence from randomized field experiments." Management Science 65.1 (2019): 327-345. ◈ 요약 UGC(User Generated Content)는 구매촉진, 투자 의사결정 도움, 오락 요소 제공 등 여러 방면에서 활발하게 사용되고 있다. 최근에는 UGC에 대한 수요보다 공급이 부족한 문제(under provisioning problem)도 발생하고 있다. 이 연구에서는 UGC의 특성을 고려하여 다음과 같이 Research Question을 설정하였다. ㆍResearch Questio.. 2021. 10. 10.