본문 바로가기

머신러닝7

[머신러닝] 머신러닝 기반의 보상형 크라우드펀딩 성공 예측 모델링 📚 논문 정보 문동지, 윤상혁, 최수빈, & 김희웅. (2020). 머신러닝 기반의 보상형 크라우드펀딩 성공 예측 모델링. Korea Business Review, 24(3), 125-143. 📚 요약 크라우드 펀딩은 다수의 개인으로부터 자금을 모으는 행위를 의미한다. 국내 크라우드 펀딩은 실패 비율이 38%가량으로 상당히 높은 편이다. 따라서 펀딩 참여자 입장에서는 시간적 기회비용과 자금 조달 측면에서 성공 여부를 파악하는 것이 매우 중요하다. 현재 크라우드 펀딩과 관련된 연구 사례는 많지 않으며, 기존 연구도 주로 펀딩 종료 이후 데이터를 사용하거나 정확도가 낮다는 한계점이 있다. 따라서 이 연구에서는 머신러닝으로 펀딩 초기에 보상형 크라우드펀딩의 성공 예측을 진행한다. 사용 데이터는 와디즈에서 보상.. 2022. 6. 1.
[머신러닝] 지도학습 / 경사하강법 / 규제화 📚 머신러닝이란 머신러닝이란 머신(=컴퓨터)가 주어진 데이터에서 유용한 정보를 추출에서 문제를 해결하기 위해서 사용되는 것을 의미한다. 머신러닝을 위해서 알고리즘이 사용되는데, 알고리즘은 데이터를 학습하기 위한 "수학적인 모형"을 의미한다. 머신러닝 알고리즘은 아래와 같이 3가지로 분류된다. ① 지도학습 • 힌트와 정답 정보를 모두 가진 데이터를 학습해서 정답을 예측하는 학습 방식 ② 비지도학습 • 관측치들의 특성 정보를 담고 있는 학습 데이터를 사용해서, 관측치들의 특성 or 패턴을 파악하는 것 • 주로 exploratory analysis 목적으로 사용된다. ③ 강화학습 • 주어진 문제를 해결하기 위해서 일련의 action을 연속적으로 수행하고, 각 행동에 대한 보상과 페널티를 부여해서 원하는 결과를.. 2022. 3. 7.
제10회 DB 금융경제 공모전 - 입선 ◈ 공모전 개요 • 참여 기간 : 2019.12. ~ 2020. 2 • 팀 구성 : 2명 • 개요 : 첫 공모전에서 제대로 된 분석을 해보지도 못하고 실패하고 나서 절치부심해서 다시 준비한 공모전이다. DB 금융경제 공모전은 크게 두 가지 분야 중 하나를 선택해서 참여할 수 있다. (1) 은행/보험 분야, (2) 증권/자산/금융경제 분야로 나뉘는데, 나는 (2)를 선택했다. 비교적 머신러닝을 접목할 수 있는 흥미로운 주제가 많을 것 같았고 사용가능한 데이터도 더 많을 것이라고 생각했기 때문이다. 함께 참가한 친구는 김씨고 나는 장씨여서, 팀명 김앤장으로 곧바로 참가 신청서를 제출했다. ◈ 진행 과정 ✅ 주제 선정 및 데이터 수집 전체 공모전 진행 과정에서 주제 선정과 데이터 수집에 가장 많은 시간을 투자.. 2022. 1. 31.
[머신러닝] Fake News, Investor Attention, and Market Reaction ◈ 논문 정보 • Clarke, J., Chen, H., Du, D., & Hu, Y. J. (2020). Fake news, investor attention, and market reaction. Information Systems Research, 32(1), 35-52. ◈ 요약 이 연구에서는 가짜 뉴스가 증권 시장에 영향을 미치는지를 분석했다. 구체적으로, 가짜 뉴스가 투자자들에게 어떤 영향을 미치는지, commentor 가 가짜 뉴스를 분류할 수 있는지, 머신러닝 모델로 가짜 뉴스 분류가 가능한지, 시장 전체에 어떤 영향을 미치는지를 다방면으로 파악하였다. 연구 가설은 다음과 같다. H1. 가짜 뉴스는 진짜 뉴스보다 투자자들에게 더 많은 관심을 불러일으킬 것이다 H2. 가짜 뉴스는 언어학적인 .. 2021. 11. 4.
경영학에서 머신러닝이란 : 예측력 vs 설명력 ◈ 경영학-정보시스템 분야에서 데이터 사이언스 • IS 전공자이자, 데이터 분석가를 목표로 하는 입장에서, 요즘에는 가장 근본적인 질문에 대한 고민을 끊임없이 하고 있다. 데이터사이언스는 분야의 특성 상 여러 영역에 걸쳐있다보니, 사람마다 의견이 다른 경우도 많고 아직 합의된 의견이 도출되지 않은 부분도 있다. • 이는 데이터 사이언스 전문가가 되기위해서는 그만큼 다방면의 지식이 필요하고, 이 지식을 활용하는 과정에서도 많은 고민이 필요하다는 의미이다. 단순히 기계적인 분석으로는 뛰어난 데이터 분석가가 될 수 없다는 것을 절실하게 느끼고 있다. 학부 때만 해도 IDE에 결과만 잘 출력되면 '내가 데이터 분석을 잘 배워가고 있구나' 생각했었는데, 정말 우물안 개구리 그 자체였다... • 경영학의 Infor.. 2021. 10. 31.
[머신러닝] KNN 개념 정리 ◈ 개념 • 작동 방식이나 개념이 상대적으로 이해가 쉬워서, 가장 빈번하게 사용되는 알고리즘 중 하나이다. • Make no assumptions about data. 즉, data-driven 성격이며 model-driven이 아니다. • 거리를 계산하는 방식은 여러가지가 있지만, 주로 Euclidean / Manhattan / Chybyshev distance 를 사용한다. • 계산에 사용하는 predictor 변수의 스케일 차이가 많이 나면, 거리 계산이 올바로 되지 않을 수 있으므로 정규화(normalize)를 실시하는 것이 적절하다. • 아래 예제에서 Manhattan은 2+1=3, Chybyshev은 2로 계산된다. ◈ 장점 • 데이터셋이 크고, 각 클래스가 multiple combinatio.. 2021. 10. 6.