전체 글184 데이터분석 팁 정리 📚 데이터 분석 Tip • 데이터 사이언스를 공부하면 할수록 분석가의 노하우도 상당히 중요하다는 것을 느끼고 있다. 적절한 노하우가 있다면 분석의 효과와 효율을 높일 수 있기 때문에 그동안 스스로 수업, 프로젝트, 공모전, 세미나 등을 통해서 얻은 노하우와, 교수님, 현직자, 전문가 분들께 얻은 지식 정리하고자 한다. ✅ 이상치 처리 기준 • 이상치 처리 과정에서 Q3 + 1.5*IQR 기준이 빈번하게 사용된다. 근데 이 기준도 절대적인 것이 아니기 때문에 유연하게 사용해야 한다. 아래 출처에서 왜 1.5를 기준으로 쓰는지에 대한 설명 제공 https://towardsdatascience.com/why-1-5-in-iqr-method-of-outlier-detection-5d07fdc82097 • Z-s.. 2022. 2. 28. [추천시스템] 양방향 인재매칭을 위한 BERT 기반의 전이학습 모델 📚 논문 정보 오소진, 장문경, & 송희석. (2021). 양방향 인재매칭을 위한 BERT 기반의 전이학습 모델. Journal of Information Technology Applications & Management, 28(4), 33-43. 📚 요약 본 연구에서는 국내 헤드헌처 업체의 구직자 프로필, 채용 공고, 지원 이력에 대한 데이터를 사용했다. 또한 해당 데이터에는 지원자의 지원여부를 나타내는 binary 데이터와, 긍정사례 17,995건 / 부정사례 42,367건으로 나뉘어져 있다. 이 변수를 기준으로 해당 구직자가 채용 공고에 적합한 지 여부를 학습했다. 이 연구에서 제안한 BERT 기반 모델의 프레임워크는 위와 같다. • 구직자의 프로필과 채용공고를 BERT 모델에 입력하기 위해서 데이.. 2022. 2. 25. [독서] 빅데이터 커리어 가이드북 📚 책 정보 조성준, 김현용, 박서영, 안용대, 임성연 저 | 길벗 | 2021년 11월 12일 ✅ 데이터 엔지니어 ✔ 학계에서 발표된 최신 논문의 모델의 학습 시간이 10분이라 하더라도, 실제 현업에서 이를 사용하기 위해서는 앞뒤로 전처리를 포함해서 30분이 걸리는 등 차이가 많이 발생한다. 대부분의 논문은 동일한 데이터와 성능 지표를 기준으로 성능을 높이기 때문에, 다른 데이터를 사용할 때의 성능 저하 문제는 크게 고려되지 않는다. 하지만 실무에서는 데이터가 자주 바뀌기 때문에 이를 고려해야한다. 즉 성능 평가 외에 서비스 개발에 대한 부분이 현업에서는 많이 고려되어야 한다. ✅ 데이터 사이언티스트 ✔ 네이버와 같은 큰 기업들은 대부분의 분석에 필요한 데이터를 다 가지고 있으므로 별도로 수집할 필요가.. 2022. 2. 25. [파이토치 스터디] 준지도 학습 (Semi-Supervised Learning) 📚 준지도 학습 (Semi-supervised learning) 정답 라벨이 있는 데이터와 없는 데이터를 함께 사용해서 모델을 학습시키는 방법이다. 더 많은 데이터를 확보해서 성능을 향상할 수 있다는 장점이 있다. 📚 의사 라벨링 (Pseudo labeling) 사전 학습 모델로 라벨링이 되지 않은 데이터를 예측하고, 그 예측값을 기준으로 라벨링을 해서 기존의 학습 데이터와 함께 사용하는 방식. 단, 예측으로 생성한 라벨 값을 학습에 사용하기 때문에 데이터가 정확하지 않을 수 있다. 의사 라벨링 방식은 크게 두 가지가 있다. 의사 라벨링을 이용하기 전 데이터를 준비하는 과정은 다음과 같이 동일하다. 📘공통 전처리 과정 📌라이브러리 불러오기 import torch import torchvision impo.. 2022. 2. 24. [파이토치 스터디] 전이학습, 모델 프리징 📚전이 학습 (Transfer Learning) ✅ 전이학습 이란? 기존의 모델을 불러와서 풀고자 하는 새로운 문제에 적용하는 방식을 의미한다. 파이토치에서는 torchvision.models as models를 이용해서 ImageNet 대회에서 사용된 사전학습 모델을 쉽게 사용할 수 있다. 📌라이브러리 및 데이터 불러오기 import torch import torchvision import torchvision.transforms as transforms from torch.utils.data import DataLoader import torch.nn as nn import torch.optim as optim #GPU 사용여부 확인 device = torch.device("cuda:0" if tor.. 2022. 2. 23. [파이토치 스터디] 클래스 불균형 다루기 (가중 무작위 샘플링, 가중 손실 함수) 📚 가중 무작위 샘플링 (Weighted Random Sampling) 일반적으로 분류 문제에서 클래스가 불균형할 경우 과적합을 야기할 가능성이 높다. 딥러닝 모델 학습시에는 전체 데이터가 불균형 하더라도, 미니 배치를 뽑을 때 각 클래스를 균형 있게 뽑아서 학습시킬 수 있다. 이 방식을 가중 무작위 샘플링(weighted random sampling) 이라고 한다. 📌 가중치 함수 설정 : torchvision.datasets.ImageFolder 사용 def make_weights(labels, nclasses): labels = np.array(labels) # where, unique 함수를 사용하기 위해 numpy로 변환한다. weight_list = [] # 가중치를 저장하는 배열을 생성한다... 2022. 2. 23. 이전 1 ··· 13 14 15 16 17 18 19 ··· 31 다음