본문 바로가기

데이터 분석42

[크롤링] 셀레니움 Chrome driver 버전 문제 해결 셀레니움을 사용 시 매번 Chrome 버전에 맞는 webdriver를 다운받아서 사용하는게 여간 번거로운 일이 아니었다. 그래서 그동안 webdriver_manager 를 이용해서 자동으로 맞는 버전을 탐색해서 설치하는 방식을 사용하였는데, 셀레니움 버전 4.11 이 업데이트되면서 그것조차 할 필요가 없어졌다! 셀레니움 v 4.11.2 부터는 명시적으로 크롬드라이버를 다운로드할 필요가 없으며, webdriver manager를 이용할 필요도 없다. 내 로컬 환경에 필요한 브라우저(크롬, 파이어폭스, 엣지) 등이 다운로드만 되어있으면 된다. https://stackoverflow.com/questions/76849633/selenium-4-11-2-with-chromedriver-and-chrome Sel.. 2023. 8. 20.
엑셀 Tip 정리 📚 엑셀 Tip 정리 순번 단축키설명 1F4이전 작업 반복 2F12다른이름으로 저장 3• Ctrl + 방향키 • Ctrl + Shift + 방향키 • 데이터가 입력되어 있는 끝 부분까지 이동 • 데이터가 입력되어 있는 끝 부분까지 선택 (단, 데이터가 연속된 경우에만 가능 4• CTRL + End / Home • Ctrl + Shift + End/Home • 데이터의 시작/끝으로 이동 • 데이터의 시작/끝 부분까지 선택 (데이터가 연속되지 않은 경우에도 사용 가능) → 원하는 열보다 더 많은 열이 선택되면, Shift + 방향키로 원하는 부분까지 선택 가능 Ctrl + PageUp / PageDown • 시트 앞 뒤로 이동 5• Shift + Space • Shift + Ctrl • 해당 행 전체 선택 .. 2023. 4. 16.
[Python] Matplotlib, Shap Plot 한글 깨짐 해결 📚 Matplotlib & Shap plot 한글 깨짐 문제 • python에서 시각화를 할 때 한글이 깨지는 경우가 종종 발생한다. 여러 가지 해결 방법이 있지만, 내 로컬 환경에서 가장 간단하게 문제를 해결할 수 있었던 방법은 matplotlib 폰트를 간단하게 지정하는 것. Shape summary plot을 그릴 때 발생하는 한글 깨짐도 동일하게 해결 가능하다. import matplotlib.pyplot as plt plt.rcParams['font.family'] = 'Malgun Gothic' 2022. 11. 5.
[Python] For Loop vs loc 실행시간 비교 📚 For loop 수행시간 비교 • dataframe의 특정 column에 대해서 여러 조건으로 값을 필터링하거나 수정하는 경우 → for loop를 사용하는 것 보다 loc 사용하는 것이 훨씬 효율적임 row가 5,000,000개인 데이터 프레임 df에 대해서, (year == 2021) & (month ==1) & (week == 53) 일 경우 week 값을 1로 수정하고 싶다면 1) for loop 사용 for i in range(0, len(df)): if (df['year'].iloc[i] == 2021) and (df['month'].iloc[i]==1) and (df['week'].iloc[i]==53): df['week'].iloc[i] = 1 2) loc 사용 df.loc[(df['y.. 2022. 10. 29.
[R] Plm vs lm 모델의 R square 값 차이 📚 Plm vs lm 함수의 결과 차이 R 에서 Two-way Fixed effect regression 분석을 하기 위해서는 plm()과 lm() + dummy variables 방식을 사용할 수 있는데, R-squared 값에서 차이가 나타난다. (coefficient, p-value는 동일) 특히 plm()을 사용할 때, adjusted R 값이 음수가 나와서 모델이 제대로 fit 되어있지 않은 문제가 종종 발생한다. lm() + 더미변수에서는 충분한 R^2 값이 나오지만, plm() 을 사용할 경우 그 값이 낮아지거나 음수가 되는 케이스들을 아래와 같이 찾을 수 있었다. https://stats.stackexchange.com/questions/496761/negative-adjusted-r-sq.. 2022. 10. 2.
도구변수(Instrumental Variable)와 2SLS 분석 📚 도구변수 개념 *Korea Summer Workshop on Causal Inference 2022의 부트캠프 내용과 기타 구글링 결과를 참고하여 작성하였습니다. ✅ 독립변수와 Error Term의 관계 (feat. selection bias) • 회귀분석의 기본 가정 : conditional independence → 통제변수가 있는 상황에서 독립변수(X)와 error term의 상관관계가 없어야 한다. (하지만 완벽하게 통제된 실험 연구가 아니라, 2차 데이터를 수집해서 분석하는 경우에는 이러한 조건을 충족시키기 어렵다) treatment group에서 treatment가 없었을 때를 의미하는 counteractual와 control group의 차이를 selection bias라고 한다. 관찰되.. 2022. 9. 17.