SMOTE1 [머신러닝] 데이터 불균형, Oversampling 방법 📚 Imbalanced Dataset ✔ 데이터 불균형 : 이진 분류 문제에서 특정 클래스의 관측치가 상대적으로 더 많은 경우. 이러한 경우에는 majority에 대해서는 예측을 잘 진행할 수 있으나, minority class에 대해서는 예측 성능이 떨어진다. ✔ 예시 : fraud detection, 질병 예측, 신용불량자 예측, 기기 고장 예측, spam detection → 이러한 task는 minority class를 정확하게 예측하는 것이 더 중요하다. 하지만 대부분의 데이터에는 majority class의 샘플이 훨씬 많다. 📌사용하는 평가 지표 데이터 불균형이 심할 경우에 평가 지표로 accuracy를 사용하는 것은 바람직하지 않다. 전체 데이터에서 majority class가 90%인 경.. 2022. 4. 18. 이전 1 다음