본문 바로가기

전체 글184

Web 3.0 📚 Web 3.0 ✅ 웹 3.0의 정의 • 웹 1.0 : 인터넷 초기에 기술을 이용해서 정적으로 구현되는 컨텐츠를 봄. 대부분의 컨텐츠가 텍스트와 이미지였고, 이용자는 수동적으로 받아들이는 역할 • 웹 2.0 : 유저들이 직접 콘텐츠 생산에 참여함. SNS, 블로그 등 활성화 웹 2.0에서는 구글,네이버,인스타,트위터 등 각 플랫폼에서의 계정이 필요하지만, 웹3.0에서는 메타마스크와 같은 암호화폐 지갑 하나로 모든 탈중앙화 플랫폼에서 활동이 가능하다. 📌웹 3.0 탈중앙화된 블록체인 위에서 공개된 프로토콜(규칙)과 토큰경제로 구동되는 가치 연결플랫폼. 참여자들이 함께 소유하는 탈중앙화 웹 생태계라고 볼 수 있다. • 데이터를 분산시켜서 해킹으로부터 자유로움 • 데이터 소유권을 플랫폼이 아닌 개인에게 부여.. 2022. 3. 29.
확률 기본 개념 📚 Probability(확률) ✅ 확률 관련 기본 용어 정리 🏷️ 집합 여러 개의 원소로 구성된 그룹이고, 중복되는 원소를 가질 수 없다. 🏷️ 시행 (Experiment, trial) 동일한 조건에서 반복 수행이 가능하고, 결과를 사전에 알 수 없는 행동. 집합으로 표현된다. 🏷️ 표본공간 (Sample space) 어떤 시행에서 발생 가능한 모든 결과의 집합. 표본공간의 각 원소를 sample point라고 한다. ex) 주사위를 한 번 던지는 시행의 표본 공간 = {1,2,3,4,5,6} 동전을 한 번 던지는 시행의 표본 공간 = {앞, 뒤} 두 개의 동전을 동시에 던지는 시행의 표본 공간 = { (H,H), (H, T), (T, H), (T, T) } 🏷️ 사건(Event) 시행의 결과로 나타날.. 2022. 3. 28.
[머신러닝] 군집화(Clustering) 📚 군집화 각 문서에 대한 label 정보가 필요 없는 대표적인 unsupervised learning 방식이 군집화이다. 데이터포인트간의 유사도를 기반으로 유사한 데이터포인트끼리 묶어서 그룹을 생성한다. 군집화는 각 데이터 샘플(=관측치=row)의 정보를 하나의 종 벡터로 간주하고 계산한다. 이 과정에서 사용되는 변수(=벡터)는 내가 수행하고자 하는 task에 적합한 것이어야 한다. 여기서는 K-means, 계층적 군집화, DBSCAN 에 대해서 정리한다. 📚 K-Means 가장 대표적인 알고리즘으로, 유클리디안 거리(Euclidean distance)를 사용해서 벡터(데이터 포인트)간의 거리를 계산하고 그룹화한다. ✅ 계산 방식 k-means 알고리즘은 군집의 수 k를 분석자가 설정해야 한다. k=3.. 2022. 3. 28.
[머신러닝] Predicting Service Industry Performance Using Decision Tree Analysis 📚 논문 정보 Yeo, B., & Grant, D. (2018). Predicting service industry performance using decision tree analysis. International Journal of Information Management, 38(1), 288-300. 📚 요약 이 연구는 ICT가 서비스 산업에 미치는 영향을 분석하였다. ICT와 performance에 대한 주제로 많은 연구가 이루어졌지만 일관된 결론을 도출하지 못했다. ICT의 도입은 여러 긍정적인 측면도 있지만 잘못 사용할 경우 오히려 부정적인 영향을 초래할 수도 있다. ICT와 관련된 여러 요소 중에서 Financial context는 비즈니스 성과와 경제 성장에 큰 영향을 미치는 중요한 요소로.. 2022. 3. 24.
[머신러닝] From Intuition to Intelligence: a Text Mining-Based Approach for movies’ green-lighting process 📚 논문 정보 Kim, J., Lee, Y., & Song, I. (2021). From intuition to intelligence: a text mining–based approach for movies' green-lighting process. Internet Research. 📚 요약 • 본 연구에서는 본격적인 영화 제작 여부를 결정하는 green lighting 단계에서 영화의 흥행 여부를 예측하는 머신러닝 모델을 제시하였다. 이 연구의 기본 아이디어는 영화 스크립트의 텍스트를 이용해서 영화 흥행과 관련된 유용한 정보들을 추출할 수 있다는 것이다. 이를 위해서 영화 스크립트 데이터에서 LDA를 실시해서 잠재 요소들을 추출하였다. 토픽의 개수는 elbow method를 이용하여 9개로 선정하였.. 2022. 3. 24.
[머신러닝] 데이터 전처리 📚 Feature Scaling 모델 학습 과정에서는 각 변수들에 대한 전처리가 필수적으로 요구된다(사실상 분석 프로세스의 대부분을 차지한다). 대표적인 전처리 과정 중 하나다 피쳐 스케일링이다. 학습에 사용되는 독립변수들이 여러개일 때, 이 변수들의 스케일이 다르다면 과적합이나 과소적합이 발생할 수 있다. 즉, 단위가 큰 독립변수는 분산이 크기 때문에 종속변수에 대한 설명력이 커지는 상황이 발생할 수 있다. ex) 독립변수 : 경력(year), 몸무게(kg) 종속변수 : 연봉 위와 같은 예시 변수의 경우에 실제 연봉에 미치는 영향은 '경력' 변수가 크지만, '몸무게' 변수의 스케일 자체가 크기 때문에 모델에서 설명력이 크게 나타날 수 있다. 이는 새로운 데이터에 대한 예측력을 저하시킨다. 대표적인 스케.. 2022. 3. 21.