본문 바로가기

머신러닝, 딥러닝/머신러닝23

[머신러닝] 지도학습 / 경사하강법 / 규제화 📚 머신러닝이란 머신러닝이란 머신(=컴퓨터)가 주어진 데이터에서 유용한 정보를 추출에서 문제를 해결하기 위해서 사용되는 것을 의미한다. 머신러닝을 위해서 알고리즘이 사용되는데, 알고리즘은 데이터를 학습하기 위한 "수학적인 모형"을 의미한다. 머신러닝 알고리즘은 아래와 같이 3가지로 분류된다. ① 지도학습 • 힌트와 정답 정보를 모두 가진 데이터를 학습해서 정답을 예측하는 학습 방식 ② 비지도학습 • 관측치들의 특성 정보를 담고 있는 학습 데이터를 사용해서, 관측치들의 특성 or 패턴을 파악하는 것 • 주로 exploratory analysis 목적으로 사용된다. ③ 강화학습 • 주어진 문제를 해결하기 위해서 일련의 action을 연속적으로 수행하고, 각 행동에 대한 보상과 페널티를 부여해서 원하는 결과를.. 2022. 3. 7.
[머신러닝] 클러스터링(Clustering) ◈ 개념 ✔ 목표 : 동질적인 데이터를 하나의 그룹으로 묶는 것. 대표적인 비지도 학습 방식. • exploratory method로 데이터의 그룹에 대한 사전 지식이 필요 없으며, 주로 다른 데이터마이닝 기법 적용 전에 사용되는 경우가 많다. • 지도학습 기법에서도 해석가능성이 중요하지만, 클러스터링은 특히 해석 가능성이 중요하다. 아무리 깔끔하게 클러스터링 시각화가 가능하더라도, 해석이 모호하면 무용지물. ✅ Distance 계산 ✔ Euclidean Distance : • 변수가 4개 이상으로 많아지면 시각적으로 클러스터 확인이 어렵기 때문에, 유클리드 거리를 자주 사용함 • 각 변수의 scale의 영향을 받기 때문에, 정규화를 필수적으로 해야함. • 그 외 distance measure ✔ Cat.. 2021. 12. 1.
[머신러닝] Decision Tree ◈ Decision Tree 개념 가장 기본적이면서 직관적인 알고리즘이지만, 최근 머신러닝 문제에 자주 사용되는 여러 부스팅 계열 알고리즘의 기본이 된다. • Recursive Partitioning : 트리에서 branch를 최대한 많이 만들어서 maximum homogeneity를 달성한다. 즉 데이터의 상태가 최대한 pure 한 상태가 되도록 가지를 생성함 (이진 분류인 경우 한쪽 클래스로만 분류되도록) Pruning Tree : branch가 너무 많을 경우 과적합이 발생할 수 있으므로, pruning을 실시한다. • Riding mower 사례에서, 좌측처럼 2개의 변수로 분류를 실시할 때, 우측처럼 데이터를 최대한 pure한 상태(이질성이 적은 상태)로 분류하는게 최선의 트리이다. ✅ Impu.. 2021. 10. 13.
[머신러닝] Naive Bayes 개념 정리 📚 나이브 베이즈 개념 • 예측에 사용하는 특성과 결과 값 사이의 dependency relationship을 사용한다. Bayes theorem에 따라서 확률적인 계산을 수행하므로, 엄격하게 말해서 model-based 알고리즘과는 차이가 있다. • 조건부 확률을 기반으로, 분류할 데이터가 주어졌을 때 다른 유사한 데이터 레코드들이 어떤 class로 분류되는지를 계산하는 것이 핵심 아이디어. ✅ Bayes' Theorem · A : 알고자 하는 class(종속변수) / B : 주어진 predictor(독립변수) · 나이브 베이즈의 핵심, Bayes' Theorem을 이용하여 P(A|B)를 계산하기 위해서 P(B|A)를 사용한다. · 위와 같이 예측하고자 하는 레코드와 same predictor valu.. 2021. 10. 8.
[머신러닝] KNN 개념 정리 ◈ 개념 • 작동 방식이나 개념이 상대적으로 이해가 쉬워서, 가장 빈번하게 사용되는 알고리즘 중 하나이다. • Make no assumptions about data. 즉, data-driven 성격이며 model-driven이 아니다. • 거리를 계산하는 방식은 여러가지가 있지만, 주로 Euclidean / Manhattan / Chybyshev distance 를 사용한다. • 계산에 사용하는 predictor 변수의 스케일 차이가 많이 나면, 거리 계산이 올바로 되지 않을 수 있으므로 정규화(normalize)를 실시하는 것이 적절하다. • 아래 예제에서 Manhattan은 2+1=3, Chybyshev은 2로 계산된다. ◈ 장점 • 데이터셋이 크고, 각 클래스가 multiple combinatio.. 2021. 10. 6.