전체 글184 데이터 사이언스 현직자 인터뷰 정리 ✅ 요구 역량 변화 • 테크니컬한 기술셋은 많이 사용해봐야 느는걸 실무진들도 알고 있고, 신입들의 스킬이 많이 상향평준화된 상태 • 대부분 개발 환경을 클라우드로 구성하기 때문에 서버 구축하는 등 인프라 구축이 용이해져서 규모가 작은 회사도 환경이 좋아지고 있다. • 과거에는 채용 시 통계적인 지식에 대해서 얼마나 잘 알고있는지를 물어봤다면, 몇년 전에는 그 통계 지식을 실제 문제상황에 적용해본 경험이 있는지를 물어봤었고 현재는 문제 상황에 적용해서 결과를 내고 액션까지 시도해봤는가를 중점적으로 본다. • 그렇기에 분석가 혼자서 다할순 없고 같이 협업하는 사람이 PO다 그러면 프로덕트 개선이 되는거고 디자이너도 붙었다 그러면 UX까지 가는 것이죠 ✅데이터 분석가에게 현실적으로 필요한 역량 1. 문제를 해.. 2021. 12. 31. 협업필터링 - 사용자의 평가 경향 고려 ◈ 참고자료 출처 • "Python을 이용한 개인화 추천시스템", 임일, 청람 ◈ 개념 ✅ 사용자의 평가 경향 고려 : Bias-From-Mean Average • 일반적으로 사용자마다 평점을 부여하는 기준이 다르기 때문에, 해당 평점이 가지는 의미도 다르게 된다. 같은 평점 3점을 부여했더라도 평균이 2점인 사용자와 평균이 4점인 사용자의 의미가 다르다. 즉, 평점을 계산할 때 해당 사용자의 평가 경향을 고려할 필요가 있다. • 이러한 단점을 보완하기 위해서 원래 평점에서 해당 사용자의 평균 평점을 빼서, 다른 유저와의 유사도로 가중평균해서 예상 평점 계산한다. 평가 경향 반영한 평균 계산 식 → 의미 : 해당 아이템의 평점이 해당 유저의 평균에서 얼마나 떨어져 있는지를 계산하는 식임 # moviele.. 2021. 12. 27. [데이터분석 사례] 카지노 도박과 데이터 분석 ◈ 카지노 룰렛과 데이터 분석 과제 때문에 구글링을 하다가 데이터 활용과 관련된 흥미로운 사례를 발견했다. 왜 이런 게시글은 항상 마법처럼 시험기간에 눈에 띄는지... 가디언지에 2004년에 실린 이 기사에 따르면, 영국 리츠 호텔의 카지노에서 3인조 사기 도박단이 룰렛에서 엄청난 금액을 획득했다. 그들은 카지노 방문 첫 날에 £100,000를 벌었고, 그 다음날 방문해서 £1.2m을 벌었는데, 당시 28억원에 해당하는 금액이었다. 카지노에서 많은 금액을 배팅하면 벌 수 있는 금액이지만, 일반적으로 카지노에서는 많은 금액을 지급할 경우 CCTV를 확인한다. 녹화된 영상을 확인한 결과 수상한 점이 발견되었고, 이들은 곧바로 경찰에 체포되었다. 테이블 게임의 한 종류인 룰렛은 간단하고 직관적인 방식으로 진행.. 2021. 12. 22. [머신러닝] 클러스터링(Clustering) ◈ 개념 ✔ 목표 : 동질적인 데이터를 하나의 그룹으로 묶는 것. 대표적인 비지도 학습 방식. • exploratory method로 데이터의 그룹에 대한 사전 지식이 필요 없으며, 주로 다른 데이터마이닝 기법 적용 전에 사용되는 경우가 많다. • 지도학습 기법에서도 해석가능성이 중요하지만, 클러스터링은 특히 해석 가능성이 중요하다. 아무리 깔끔하게 클러스터링 시각화가 가능하더라도, 해석이 모호하면 무용지물. ✅ Distance 계산 ✔ Euclidean Distance : • 변수가 4개 이상으로 많아지면 시각적으로 클러스터 확인이 어렵기 때문에, 유클리드 거리를 자주 사용함 • 각 변수의 scale의 영향을 받기 때문에, 정규화를 필수적으로 해야함. • 그 외 distance measure ✔ Cat.. 2021. 12. 1. Association Rules - 장바구니 분석 ◈ 개념 및 용어 정리 • Market basket analysis (Agrawal et al., 1993) 논문에서 처음 제시됨. • 비지도 학습의 일종으로, 고객들이 특정 품목을 구매할 때 어떤 다른 항목들을 같이 구매(co-occurence)하는지 분석하기 위해서 사용 •affinity analysis 또는 market basket analysis 라고도 불리며, cross-selling 목적으로 사용됨 •Apriori algorithm이 주로 사용되고, 계산량을 줄이기 위해서 support 개념을 이용해서 자주 등장하는 itemset 을 선정함 • 해당 규칙의 성과를 평가하기 위해서 confidence 와 lift 사용 ✔ 예시 : 고객들의 faceplate 구매 내역 ✔ 예시 : 특정 유저가 읽.. 2021. 11. 24. Python - 리스트, 딕셔너리, 세트 파이썬의 기본적인 함수와 문법들을 정리하였습니다. 가장 기본적인 내용인데, 보통 판다스랑 넘파이로 데이터프레임만 다루다 보니 헷갈리는 경우들이 생겨서 더이상의 구글링을 막기 위해서 정리합니다. ✅ 리스트 관련 • 예시 리스트 ✔ append() : 값을 개별 요소로 추가 ✔ extend() : 값을 하나의 요소로 추가 ✔ remove() : 값 제거 ✔ index() : 인덱스 확인 ✔ inser() : 값 추가 ✔ 두 번 인덱싱 list1 = ['math','english'] list1[0] list1[0][1] 문자열로 구성된 리스트는 두 번 인덱싱이 가능하다. list1[0][1]은 첫 번째 요소인 math 의 1번 인덱스에 해당하는 a를 반환한다. list1 = [[0,1],[2,3]] list1.. 2021. 11. 20. 이전 1 ··· 21 22 23 24 25 26 27 ··· 31 다음