본문 바로가기

전체 글184

[Python] Matplotlib, Shap Plot 한글 깨짐 해결 📚 Matplotlib & Shap plot 한글 깨짐 문제 • python에서 시각화를 할 때 한글이 깨지는 경우가 종종 발생한다. 여러 가지 해결 방법이 있지만, 내 로컬 환경에서 가장 간단하게 문제를 해결할 수 있었던 방법은 matplotlib 폰트를 간단하게 지정하는 것. Shape summary plot을 그릴 때 발생하는 한글 깨짐도 동일하게 해결 가능하다. import matplotlib.pyplot as plt plt.rcParams['font.family'] = 'Malgun Gothic' 2022. 11. 5.
[Python] For Loop vs loc 실행시간 비교 📚 For loop 수행시간 비교 • dataframe의 특정 column에 대해서 여러 조건으로 값을 필터링하거나 수정하는 경우 → for loop를 사용하는 것 보다 loc 사용하는 것이 훨씬 효율적임 row가 5,000,000개인 데이터 프레임 df에 대해서, (year == 2021) & (month ==1) & (week == 53) 일 경우 week 값을 1로 수정하고 싶다면 1) for loop 사용 for i in range(0, len(df)): if (df['year'].iloc[i] == 2021) and (df['month'].iloc[i]==1) and (df['week'].iloc[i]==53): df['week'].iloc[i] = 1 2) loc 사용 df.loc[(df['y.. 2022. 10. 29.
[R] Plm vs lm 모델의 R square 값 차이 📚 Plm vs lm 함수의 결과 차이 R 에서 Two-way Fixed effect regression 분석을 하기 위해서는 plm()과 lm() + dummy variables 방식을 사용할 수 있는데, R-squared 값에서 차이가 나타난다. (coefficient, p-value는 동일) 특히 plm()을 사용할 때, adjusted R 값이 음수가 나와서 모델이 제대로 fit 되어있지 않은 문제가 종종 발생한다. lm() + 더미변수에서는 충분한 R^2 값이 나오지만, plm() 을 사용할 경우 그 값이 낮아지거나 음수가 되는 케이스들을 아래와 같이 찾을 수 있었다. https://stats.stackexchange.com/questions/496761/negative-adjusted-r-sq.. 2022. 10. 2.
[공모전] 상품 키워드 사전을 이용한 홈쇼핑 매출액 예측 및 최적 편성표 제안 📚 상품군별 키워드 사전 구축을 통한 홈쇼핑 매출액 예측 및 최적편성표 제안 📌 프로젝트 개요 분석 목적 홈쇼핑 기업의 방송별 매출액을 예측하고, 이를 바탕으로 최적 편성표를 제안 사용 데이터 홈쇼핑 기업 방송 편성표, 매출액 데이터 공모전명 2022 빅 콘테스트 데이터 분석 분야 챔피언리그 분석기간 2020.7 ~ 2020.10 역할 분석, 발표, 문헌조사 사용언어 Python 2020 빅 콘테스트 데이터 분석 분야에 참여하면서 준비한 내용을 정리한 포스트이다. 이 공모전은 예선 탈락했기 때문에 결과적으로는 실패한 공모전이지만, 과정에서는 배운 점이 많았다. 이번 공모전에서는 다른 전공을 가진 팀원들을 모집해서 분석을 진행했다. 통계,컴공,데이터사이언스 전공의 팀원들이 모델링 부분을 전담하고, 나와 다.. 2022. 9. 20.
도구변수(Instrumental Variable)와 2SLS 분석 📚 도구변수 개념 *Korea Summer Workshop on Causal Inference 2022의 부트캠프 내용과 기타 구글링 결과를 참고하여 작성하였습니다. ✅ 독립변수와 Error Term의 관계 (feat. selection bias) • 회귀분석의 기본 가정 : conditional independence → 통제변수가 있는 상황에서 독립변수(X)와 error term의 상관관계가 없어야 한다. (하지만 완벽하게 통제된 실험 연구가 아니라, 2차 데이터를 수집해서 분석하는 경우에는 이러한 조건을 충족시키기 어렵다) treatment group에서 treatment가 없었을 때를 의미하는 counteractual와 control group의 차이를 selection bias라고 한다. 관찰되.. 2022. 9. 17.
[공모전] 단계적 군집화를 이용한 온라인학습 플랫폼 이용자 이탈방지 전략 제안 📚 SOM-K 모델을 이용한 과목별 학습전략 제시 - 자기조절학습 변인을 중심으로 📌 프로젝트 개요 분석 목적 온라인학습 플랫폼 이용자의 서비스 이탈을 방지하고 연장을 유도하기 위한 학습 전략 제안 사용 데이터 초등학생 대상 온라인 교육 플랫폼 데이터 공모전명 한국지능정보시스템학회 제1회 인공지능 응용 경진대회 분석기간 2020.3 ~ 2020.06 역할 전문가 인터뷰, 분석, 발표 사용언어 Python, R ✅ 1. 연구배경 ✅ 2. 선행 연구 ✅ 3. 분석 프레임워크 ✅ 4. 실험결과 및 전략 제안 ✅ 5. 부록 📚 Reference [1] Han, J. Y., & Lee, S. H. (2019). 온라인 소프트웨어 교육에서 학습자의 자기조절학습 관련 특성에 기반한 온라인 학습 유형 분석: 계층적 군.. 2022. 8. 28.