본문 바로가기

전체 글184

특이값 분해 (Singular Value Decomposition) 📚 특이값 분해 (Singular Value Decomposition) ✅ 기본 개념 위의 고유분해를 사용하면 하나의 행렬을 서로 다른 3개의 행렬로 분해할 수 있다. 이 때 분해하는 행렬은 정사각 행렬이어야 한다. 한편, 분해 대상 행렬이 정사각 행렬이 아니라 직사각 행렬일 경우에는 위와 같이 SVD를 사용할 수 있다. 각 기호에 대한 설명은 아래와 같다. X : 정사각행렬이 아닌 m x n 형태의 행렬 U : XXT 행렬의 고유벡터를 열로 갖는 행렬 V : XTX 행렬의 고유벡터를 열로 갖는 행렬 D : 대각원소가 XTX 또는 XXT의 eigen values(λi)에 루트를 씌운 값(√λi )인 대각 행렬. 이 값을 X에 대한 singular value라고 한다. 📌예시 X 가 3x2 형태의 행렬일 .. 2022. 6. 17.
Two empirical studies on Restaurant Fake Reviews 📚 논문 정보 📚 요약 이 연구는 가짜 리뷰 탐지와 관련하여 크게 두 가지 분석을 진행하였다. 첫 번째 분석에서는 계량경제학적 기법을 통해서 가짜 리뷰와 관련 있는 변수를 파악하였다. 두 번째 분석에서는 머신 러닝을 이용한 가짜 리뷰 탐지 모델을 제안하였다. 이 연구에서는 Yelp의 뉴욕지역 상위 100개 레스토랑의 리뷰 데이터를 사용하였다. 첫번째 분석에서는 계량경제적 분석을 통해서 가짜 리뷰에 영향을 미치는 요소를 파악하였다. 기존 연구에서는 주로 평점, 리뷰길이, 리뷰 경험, 리뷰어 평판 등의 변수를 사용했다. 이 연구에서는 리뷰 텍스트에서 나타나는 심리적인 단서와 언어적 단서를 보다 더 많이 활용하기 위해서 affective, cognitive, social, perceptual cue를 사용했다.. 2022. 6. 9.
[NFT 프로젝트] 스테픈(StepN) 3개월 후기 📚 스테픈 3개월 후기 22년 6월 1일 기준으로 StepN에 참여한 지 3달 정도가 지났다. 기본적인 내용과 1개월 후기는 이전 포스트에서 정리했었다. 한 달 사이에 스테픈에게 정말 드라마틱하게 많은 일이 생겼다. 대부분 부정적인 뉴스라서 이미 투자를 하신 분들은 스트레스가 상당했을 것 같다. 이전 포스트와 비교해서 생각이 바뀐 부분도 있고, 더 확신을 가지게 된 부분도 있어서 간단하게 정리해 보았다. 결론부터 말하자면 나는 3켤레로 멘징(원금회수)을 완료했고, 당분간은 계속 달리면서 향후 스테픈의 행보를 지켜보려고 한다. 혹시나 스테픈에 관심이 생겨서 시작을 고민하시는 분들은 미리 커뮤니티에 들어와서 정보를 충분히 파악해 보시기를 권장드린다. 근거 없이 스테픈이 망한다고 FUD를 날리거나, 무조건 스.. 2022. 6. 4.
온라인 해킹 불법 시장 분석 : 데이터 마이닝과 소셜 네트워크 분석 활용 📚 논문 정보 김민수, & 김희웅. (2020). 온라인 해킹 불법 시장 분석: 데이터 마이닝과 소셜 네트워크 분석 활용. 정보시스템연구, 29(2), 221-242. 📚 요약 이 연구는 온라인 해킹 불법 시장에서 발생하는 사이버 범죄를 대비하는 보안 방법을 제안한다. 기존 연구는 주로 사이버 범죄 피해 사례를 제시하고 경각심을 일깨우거나 현황을 살펴보는 연구가 대부분이었다. 이 연구에서는 온라인 불법 해킹 시장 중 market, cracking 시장에 대해서 정량적인 분석을 시도했다. Research question은 다음과 같다. 1) 어떤 유저가 가장 동기부여가 많이 되어있는 해커인가? 2) 해커들이 공격을 준비하고 있는 타겟은 어떤 기업 혹은 사이트인가? 3) 앞으로 집중적으로 보안 관리자를 세워.. 2022. 6. 2.
[머신러닝] 머신러닝 기반의 보상형 크라우드펀딩 성공 예측 모델링 📚 논문 정보 문동지, 윤상혁, 최수빈, & 김희웅. (2020). 머신러닝 기반의 보상형 크라우드펀딩 성공 예측 모델링. Korea Business Review, 24(3), 125-143. 📚 요약 크라우드 펀딩은 다수의 개인으로부터 자금을 모으는 행위를 의미한다. 국내 크라우드 펀딩은 실패 비율이 38%가량으로 상당히 높은 편이다. 따라서 펀딩 참여자 입장에서는 시간적 기회비용과 자금 조달 측면에서 성공 여부를 파악하는 것이 매우 중요하다. 현재 크라우드 펀딩과 관련된 연구 사례는 많지 않으며, 기존 연구도 주로 펀딩 종료 이후 데이터를 사용하거나 정확도가 낮다는 한계점이 있다. 따라서 이 연구에서는 머신러닝으로 펀딩 초기에 보상형 크라우드펀딩의 성공 예측을 진행한다. 사용 데이터는 와디즈에서 보상.. 2022. 6. 1.
차원축소 - PCA(Principal Component Analysis) 📚 PCA(주성분 분석) ✅ Principal Component 개념 • PCA는 Feature extraction 방법 중 하나이다. Principal component는 하나의 벡터인데, 이는 독립변수들이 가지고 있는 정보(분산으로 표현)를 설명하는 축을 의미한다. • 전체 PC의 수 = 전체 독립변수 수 • 각 PC가 설명하는 정도가 다 다르기 때문에, 분산을 설명하는 큰 PC를 새로운 feature로 선택해서 사용할 수 있다. → 원 데이터의 정보(분산)의 손실을 최소화하면서 피쳐의 수를 감소시킬 수 있다. 📌예시 1 예를 들어 위와 같이 총 피쳐가 5개이고 각 피쳐의 분산의 크기에 따라서 정렬하고, 설명력이 높인 상위 두개의 PC인 PC1, PC2를 선택했다고 하자. 이를 통해서 피쳐의 수를 5.. 2022. 5. 30.