머신러닝, 딥러닝/머신러닝23 [머신러닝] 하이퍼 파라미터 튜닝, Cross validation 📚 Hyperparameter란 일반적으로 모델에서 학습을 통해서 값이 결정되는 값을 파라미터라고 한다. 이 중에서 사용자가 값을 결정할 수 있는 파라미터를 하이퍼 파라미터라고 부른다. 하이퍼파라미터는 여러 가지 값을 대입해 보면서 최적의 값을 선택해야 한다. 이렇게 파라미터 값을 변경하면서 최적 값을 찾는 과정을 "모델 튜닝" 이라고 부른다. 📌주의점! 하이퍼 파라미터 튜닝 시, test set을 사용해서는 안된다. Test set은 모델의 최종 성능 평가를 위해서 사용되므로 모델의 학습 과정에서는 절대 사용되어서는 안된다. 따라서 validation set을 추가하여 사용해야 한다. 📚 K-fold crossvalidation Cross validation은 모델 과적합을 감소시키고 모형의 일반화 가.. 2022. 4. 18. [머신러닝] Confusion Matrix, ROC Curve 📚 Confusion Matrix • 종속변수의 실제값과 예측값에 따른 관측치의 분포를 나타내는 매트릭스로 classification 문제의 주요 평가 지표로 사용된다. '잘못' 예측한 경우 'False'가 붙는다. 지표 이름 설명 식 Accuracy 전체에서 올바르게 예측한 관측치의 비중 Recall (재현율) Sensitivity (=recall for positive class) 실제 positive 관측치 중에서 positive로 예측한 비중 Specificity (=recall for negative class) 실제 negative 관측치 중에서 negative로 예측한 비중 Precision (정밀도) Precision for positive class positive로 예측한 관측치 중에서.. 2022. 4. 11. [머신러닝] Logistic Regression 📚 로지스틱 회귀 ✅ 기본 개념 종속변수의 클래스 수가 2개인 경우에는 Binomial Logistic Regression, 3개 이상인 경우에는 Multinomial Logistic Regression을 사용한다. Logistic regression은 y가 1일 확률 P(y=1|X)과 y가 0일 확률을 이용을 모형의 종속변수로 이용 📌크로스 엔트로피 로지스틱 회귀는 위의 교차 엔트로피를 최소화하는 파라미터(b1, b2, ....)를 찾는 방향으로 학습한다. 📌학습 시 참고 로지스틱 회귀에서도 규제를 추가할 수 있다. C값은 1/람다이므로 값이 작아질수록 규제 패널티 텀이 크다는 것을 의미한다. C=1에 비해서 C=0.1인 경우에 모델 학습 후 계수를 출력해보면, 계수가 0인 변수들이 증가한다. ✅ 로지.. 2022. 4. 11. [머신러닝] 군집화(Clustering) 📚 군집화 각 문서에 대한 label 정보가 필요 없는 대표적인 unsupervised learning 방식이 군집화이다. 데이터포인트간의 유사도를 기반으로 유사한 데이터포인트끼리 묶어서 그룹을 생성한다. 군집화는 각 데이터 샘플(=관측치=row)의 정보를 하나의 종 벡터로 간주하고 계산한다. 이 과정에서 사용되는 변수(=벡터)는 내가 수행하고자 하는 task에 적합한 것이어야 한다. 여기서는 K-means, 계층적 군집화, DBSCAN 에 대해서 정리한다. 📚 K-Means 가장 대표적인 알고리즘으로, 유클리디안 거리(Euclidean distance)를 사용해서 벡터(데이터 포인트)간의 거리를 계산하고 그룹화한다. ✅ 계산 방식 k-means 알고리즘은 군집의 수 k를 분석자가 설정해야 한다. k=3.. 2022. 3. 28. [머신러닝] 데이터 전처리 📚 Feature Scaling 모델 학습 과정에서는 각 변수들에 대한 전처리가 필수적으로 요구된다(사실상 분석 프로세스의 대부분을 차지한다). 대표적인 전처리 과정 중 하나다 피쳐 스케일링이다. 학습에 사용되는 독립변수들이 여러개일 때, 이 변수들의 스케일이 다르다면 과적합이나 과소적합이 발생할 수 있다. 즉, 단위가 큰 독립변수는 분산이 크기 때문에 종속변수에 대한 설명력이 커지는 상황이 발생할 수 있다. ex) 독립변수 : 경력(year), 몸무게(kg) 종속변수 : 연봉 위와 같은 예시 변수의 경우에 실제 연봉에 미치는 영향은 '경력' 변수가 크지만, '몸무게' 변수의 스케일 자체가 크기 때문에 모델에서 설명력이 크게 나타날 수 있다. 이는 새로운 데이터에 대한 예측력을 저하시킨다. 대표적인 스케.. 2022. 3. 21. [머신러닝] 선형회귀 (Linear Regression) 📚선형 회귀 선형 회귀는 파라미터가 선형 값인 모델이다. 독립변수가 n차 이더라도 파라미터가 1차이면 선형 함수이다. 따라서 위 두 개의 식 모두 선형 회귀이다. 계수에 루트나 n차 분수가 들어가도 선형 회귀이다. 하지만 파라미터가 n차로 올라가면 비선형 모델이 된다. 위의 식은 모델에 대해서 샘플이 10개일 때, MSE 비용함수를 식으로 나타낸 것이다. 식을 정리해보면 비용함수는 최종적으로 파라미터(b0, b1)에 대한 함수임을 알 수 있다. 이 비용함수를 최소화하는 방법에는 앞선 포스트에서 작성한 것처럼 (1) Normal Equation (2) 경사하강법 두 가지가 있다. ✅ 정규방정식(Normal Equation) vs 행렬로 풀기 선형회귀 모델의 최적 파라미터 값을 구할 때 정규방정식을 사용하는.. 2022. 3. 14. 이전 1 2 3 4 다음