본문 바로가기

머신러닝, 딥러닝50

CNN(합성곱 신경망) 기본 📚 CNN 기본 개념 ✅ 이미지 처리에 일반 신경망 적용 시 문제점 ① 공간 정보의 손실 FNN(Feed Forward Neural Network)에서는 원래 input 데이터를 reshape 해서 일차원으로 변경한 후에 입력한다. 하지만, 원본 데이터를 row 단위로 자르고 변환하는 과정에서 이웃 픽셀의 정보(spatial information)를 제대로 사용하지 못하기 때문에 정보 손실이 발생한다. ② 파라미터의 수 증가 예를 들어, 1000 x 1000 크기의 컬러 이미지의 input 노드의 수는 1000 x 1000 x 3 = 3,000,000개이다. 첫 번째 은닉층에 은닉 노드가 100개라고 하면, 입력 층과 첫 번째 은닉층의 가중치 파라미터는 3백만x100=3억개가 된다. 3억 개의 파라미터를.. 2022. 1. 13.
딥러닝 기본 개념 - 신경망 구조, 활성화 함수, Optimizer 📚 신경망 기본 구조 및 용어 설명 ✅ 입력층, 은닉층, 출력층 설명 ① 입력층(Input Layer) - feature에 대한 정보(독립변수)를 입력받고 다음 층으로 전달한다. - 입력층 노드의 수 = 독립변수의 수 ② 은닉층(Hidden Layer) - 종속변수를 예측하는데 중요한 특성이나 패턴을 추출한다. - 입력 받은 데이터를 활성화 함수(activation function)를 거쳐서 변환해서 전달함 - 은닉층 노드의 수 = 사용자가 설정 ③ 출력층(Output Layer) - 종속변수의 예측치를 출력한다. 회귀의 경우 종속변수의 값을 그대로 출력하고 분류는 각 종속변수 클래스의 확률을 출력함 회귀문제 : 출력 노드의 수 = 1 분류문제 : 출력 노드의 수 = 종속변수의 클래스 수 • 입력층과 출.. 2022. 1. 11.
딥러닝 기본 개념 - 비용함수, 경사하강법, 규제 ◈ 딥러닝 기본 개념 설명 - 비용함수/경사하강법/규제 ✅ 비용함수(Cost Function), 손실함수(Loss Function) • 비용함수 : 학습데이터에 존재하는 전체의 에러 정도를 의미함. 즉 모델이 설명하지 못하는 정도를 나타냄 따라서, 파라미터의 최적 값은 비용함수의 값을 minimize 하는 값이라고 볼 수 있다. 대표적인 비용함수에는 MAE, MSE, RMSE가 있다. ✔ Normal Equation(정규방정식) : 비용함수가 아래로 볼록한2차 방정식 형태(convex form)인 경우, 미분해서 기울기가 0인 지점을 계산하면 비용함수를 최소화하는 지점을 찾을 수 있다. 하지만 이러한 형태로 비용함수가 나타나는 경우는 드물다. 실제 딥러닝의 비용함수는 우측과 같은 형태로 복잡하게 나타난다.. 2022. 1. 10.
[머신러닝] 클러스터링(Clustering) ◈ 개념 ✔ 목표 : 동질적인 데이터를 하나의 그룹으로 묶는 것. 대표적인 비지도 학습 방식. • exploratory method로 데이터의 그룹에 대한 사전 지식이 필요 없으며, 주로 다른 데이터마이닝 기법 적용 전에 사용되는 경우가 많다. • 지도학습 기법에서도 해석가능성이 중요하지만, 클러스터링은 특히 해석 가능성이 중요하다. 아무리 깔끔하게 클러스터링 시각화가 가능하더라도, 해석이 모호하면 무용지물. ✅ Distance 계산 ✔ Euclidean Distance : • 변수가 4개 이상으로 많아지면 시각적으로 클러스터 확인이 어렵기 때문에, 유클리드 거리를 자주 사용함 • 각 변수의 scale의 영향을 받기 때문에, 정규화를 필수적으로 해야함. • 그 외 distance measure ✔ Cat.. 2021. 12. 1.
딥러닝 기본 용어 정리 📚 Mini batch, Epoch, Iteration ✅ 미니 배치 (Mini Batch) • 신경망 학습 시 전체 데이터를 이용해서 경사하강을 진행하면 계산량이 많기 때문에 시간이 오래 걸린다. 또한 메모리 문제로 연산 자체가 불가능한 경우도 있다. • 전체 데이터를 작은 단위로 나눠서 학습하는 단위를 미니 배치라고 한다. 전체 데이터를 여러 개의 그룹으로 나누었을 때, 한 그룹에 있는 데이터의 수 • 미니배치 학습을 진행하게 되면, 각 미니 배치에 대해서 비용을 계산하고 경사하강을 수행한다. 즉, 미니 배치는 가중치와 오차를 한 번 업데이트 하는 데에 사용한 데이터의 수이다. 그리고 모든 미니배치에 대해서 이 과정을 1회 수행하면 1 epoch라고 부른다. • 미니배치의 크기를 batch size라.. 2021. 10. 25.
[머신러닝] Decision Tree ◈ Decision Tree 개념 가장 기본적이면서 직관적인 알고리즘이지만, 최근 머신러닝 문제에 자주 사용되는 여러 부스팅 계열 알고리즘의 기본이 된다. • Recursive Partitioning : 트리에서 branch를 최대한 많이 만들어서 maximum homogeneity를 달성한다. 즉 데이터의 상태가 최대한 pure 한 상태가 되도록 가지를 생성함 (이진 분류인 경우 한쪽 클래스로만 분류되도록) Pruning Tree : branch가 너무 많을 경우 과적합이 발생할 수 있으므로, pruning을 실시한다. • Riding mower 사례에서, 좌측처럼 2개의 변수로 분류를 실시할 때, 우측처럼 데이터를 최대한 pure한 상태(이질성이 적은 상태)로 분류하는게 최선의 트리이다. ✅ Impu.. 2021. 10. 13.