본문 바로가기
머신러닝, 딥러닝/머신러닝

[머신러닝] Logistic Regression

by 장찐 2022. 4. 11.

📚 로지스틱 회귀 

✅ 기본 개념 

 

 종속변수의 클래스 수가 2개인 경우에는 Binomial Logistic Regression, 3개 이상인 경우에는 Multinomial Logistic Regression을 사용한다. 

 

Logistic regression은 y가 1일 확률 P(y=1|X)과 y가 0일 확률을 이용을 모형의 종속변수로 이용

 

📌크로스 엔트로피 

로지스틱 회귀는 위의 교차 엔트로피를 최소화하는 파라미터(b1, b2, ....)를 찾는 방향으로 학습한다. 

 

 

📌학습 시 참고 

로지스틱 회귀에서도 규제를 추가할 수 있다. C값은 1/람다이므로 값이 작아질수록 규제 패널티 텀이 크다는 것을 의미한다. C=1에 비해서 C=0.1인 경우에 모델 학습 후 계수를 출력해보면, 계수가 0인 변수들이 증가한다. 

 

 

✅ 로지스틱 회귀 결과의 해석 

 선형 회귀에서 파라미터는 각 변수의 계수이며 기울기를 의미한다. 하지만 로지스틱 회귀는 비선형 모델이기 때문에 파라미터가 기울기의 의미를 갖지 않는다. 

 그럼에도 파라미터가(b0, b1, b2,,,,) 양수이면 종속변수와 positive한 관계, 음수이면 negative한 관계라는 것을 알 수 있다는 것은 동일하다. 단, 이것이 종속변수에 선형 영향을 미치는 것이 아니라, positive하면 종속변수가 1일 확률이 증가하는 것으로 해석해야 한다. 

 독립변수가 4개가 있고 로지스틱 회귀 모델의 학습 결과에 대한 계수가 위와 같이 나타났을 때 선형회귀와 유사하게 해석이 가능하다. 1,2번 변수는 종속변수=1일 확률과 negative한 관계이다. 3,4번 변수는 종속변수=1일 확률과 positive한 관계이다. 또한 절대값을 비교했을 때 3번 변수가 종속변수에 가장 큰 영향을 미친다는 것을 알 수 있다. 

 

 

실제 종속변수가 취하는 값은 0 또는 1 이지만, 로지스틱 모형의 종속변수는 y=1 일 확률 즉, P(y=1|X) 이라는 의미를 가지고 있다. 일반적으로 P(y=1) > 0.5 인 경우에 y=1로 예측한다. 

 


📚  Reference

 

 

댓글