본문 바로가기

전체 글184

TF-IDF (Term Frequency - Inverse Document Frequency) 📚 TF-IDF 란 TF-IDF는 단어의 빈도와 역 문서 빈도를 사용하여 단어들마다 중요한 정도에 따라서 가중치를 부여하는 방법이다. 모든 문서에서 등장하는 단어는 중요도가 낮으며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다. TF-IDF 생성을 위해서는 문서를 사용된 단어의 벡터로 나타내야 한다. 즉, 각 문서들을 하나의 문자열로 나타내야 한다. 위의 세 가지 문서의 경우 apple/banana/carrot/eggplant/mango/orange로 구성된 벡터로 나타낼 수 있다. 각 문서마다 벡터의 차원은 동일하다. 이 때 벡터의 원소들로 단순 corpus의 빈도를 사용할 수도 있고, TF-IDF 를 사용할 수도 있다. ✅ Term Frequency : 단순 빈도 각 문서에서 나타난 전체 단어.. 2022. 5. 15.
[팀 프로젝트] London Airbnb 데이터 분석 및 가격 예측모델 제안 📚 분석 개요 • 진행기간 : 2021.04.01 ~ 2022.06.15 • 참여 팀원 : 장영진, 김기현(IS전공), 김선규(회계 전공) • 사용 데이터 : London Airbnb Data • 사용 언어 : R • 분석 목적 : 런던 에어비엔비 데이터를 다각적으로 분석하고 특성을 파악한다. 그리고 분석한 내용을 바탕으로 각 숙소에 대한 적절한 가격을 제안하는 모델을 구축한다. 📌 목차 1. Introduction 1.1 에어비앤비 소개 1.2 핵심 전략 1.3 분석 목적 2. 데이터 출처 2.1 Inside Airbnb 2.2 London Data Store 3. 데이터 전처리 3.1 Inside Airbnb 데이터 전처리 3.2 London Data Store 데이터 전처리 3.3 최종 변수 정리 .. 2022. 5. 12.
모바일 페이먼트와 블록체인 - Ant Financial & Ripple 사례 연세대학교 경영학과 일반대학원 2021년 2학기 IT전략세미나 자료 모바일 페이먼트와 블록체인 : Ripple & Ant financial 사례 2022. 5. 6.
[NFT 프로젝트] StepN (스테픈) 1개월 후기 📚STEPN 후기 2022년 3월 초에 스테픈을 접하고 신발 사서 뛰기 시작한 지 1달 가량이 지났다. 개인적으로 P2E 프로젝트에 대해서 부정적인 인식이 강했는데, 스테픈은 여러 부분에서 흥미롭기도 했고 꽤 괜찮은 프로젝트라고 느껴져서 바로 신발을 구매하고 참여했다. Move to Earn(M2E)이라는 방식이 참신하기도 했고, 애초에 러닝을 꾸준히 하던 편이라서 굳이 마다할 이유가 없었다. 라이트 유저 입장에서의 1달 동안의 후기와 개인적인 소감에 대해서 간략하게 정리했다. ✅ 진행 과정 처음에는 common jogger를 1개만 구매해서 하루에 10분씩 뛰었다. 초보자에게 NFT 신발 1개를 구매하는 결정도 쉽지 않았지만 눈 딱 감고 샀다. 내 메인 조거(좌측)는 180만원짜리이지만 스탯이 뛰어나지.. 2022. 5. 1.
[머신러닝] 데이터 불균형, Oversampling 방법 📚 Imbalanced Dataset ✔ 데이터 불균형 : 이진 분류 문제에서 특정 클래스의 관측치가 상대적으로 더 많은 경우. 이러한 경우에는 majority에 대해서는 예측을 잘 진행할 수 있으나, minority class에 대해서는 예측 성능이 떨어진다. ✔ 예시 : fraud detection, 질병 예측, 신용불량자 예측, 기기 고장 예측, spam detection → 이러한 task는 minority class를 정확하게 예측하는 것이 더 중요하다. 하지만 대부분의 데이터에는 majority class의 샘플이 훨씬 많다. 📌사용하는 평가 지표 데이터 불균형이 심할 경우에 평가 지표로 accuracy를 사용하는 것은 바람직하지 않다. 전체 데이터에서 majority class가 90%인 경.. 2022. 4. 18.
[머신러닝] 하이퍼 파라미터 튜닝, Cross validation 📚 Hyperparameter란 일반적으로 모델에서 학습을 통해서 값이 결정되는 값을 파라미터라고 한다. 이 중에서 사용자가 값을 결정할 수 있는 파라미터를 하이퍼 파라미터라고 부른다. 하이퍼파라미터는 여러 가지 값을 대입해 보면서 최적의 값을 선택해야 한다. 이렇게 파라미터 값을 변경하면서 최적 값을 찾는 과정을 "모델 튜닝" 이라고 부른다. 📌주의점! 하이퍼 파라미터 튜닝 시, test set을 사용해서는 안된다. Test set은 모델의 최종 성능 평가를 위해서 사용되므로 모델의 학습 과정에서는 절대 사용되어서는 안된다. 따라서 validation set을 추가하여 사용해야 한다. 📚 K-fold crossvalidation Cross validation은 모델 과적합을 감소시키고 모형의 일반화 가.. 2022. 4. 18.