본문 바로가기
반응형

딥러닝 기초8

Advanced Architectures of CNN 이 글은 https://www.youtube.com/watch?v=8mI9zRdx2Es&list=PLSAJwo7mw8jn8iaXwT4MqLbZnS-LJwnBd&index=22 기반으로 작성하였다. CNN 정리는 2021.08.15 - [딥러닝 기초] - Basic of Convolution Neural Network Basic of Convolution Neural Network 본 글은 https://www.youtube.com/watch?v=PIft4URoQcw&list=PLSAJwo7mw8jn8iaXwT4MqLbZnS-LJwnBd&index=19 이 동영상을 바탕으로 작성되었습니다. ## Problems of MLP MLP는 파라미터가 너무 많다는 것이다. 왜냐.. bigdata-analyst.ti.. 2021. 8. 21.
Basic of Convolution Neural Network 본 글은 https://www.youtube.com/watch?v=PIft4URoQcw&list=PLSAJwo7mw8jn8iaXwT4MqLbZnS-LJwnBd&index=19 이 동영상을 바탕으로 작성되었습니다. ## Problems of MLP MLP는 파라미터가 너무 많다는 것이다. 왜냐하면 모든 뉴런이 완전 연결 형태로 되어있기 때문이다. 따라서 모든 노드와 연결되어있기 때문에 깊이가 깊어질수록 파라미터의 개수가 늘어나고 overfitting 가능성이 늘어나고 훈련시간이 너무 늘어난다. ## MLP/ Fully Connected MLP는 3차원의 이미지를 1차원으로 변환하여 계산한다. 따라서 그 값을 weight 값과 행렬곱을 하고 클래스를 예측하는 것이다. ## Convolution Layer C.. 2021. 8. 15.
Advanced Optimizer than SGD 본 글은 https://www.youtube.com/watch?v=a5R4gL1ObP8&list=PLSAJwo7mw8jn8iaXwT4MqLbZnS-LJwnBd&index=16 위 동영상을 바탕으로 하였습니다. ## Batch Stochastic Gradient Descent Gradient Descent 를 식으로 쓰면 다음과 같다, $$ \theta = \theta - \eta\triangledown J(\theta) $$ 여기서 \( \theta \)는 모델에 설정된 파라미터를 말하고 \( \eta \)는 learning rate, \( J(\theta) \) 는 loss function을 의미한다. 이는 파라미터 \( \theta \) 에서 loss 에 있는 파라미터 \( \theta \) 에 대한.. 2021. 8. 14.
Overfitting, Regularization 이 글은 https://www.youtube.com/watch?v=_sz3KTyB9Lk&list=PLSAJwo7mw8jn8iaXwT4MqLbZnS-LJwnBd&index=12 이 강의를 바탕으로 작성되었다. ## Overfitting Problem 예측 모델에서 model capacity(파라미터 수)가 늘어날 수록 더 복잡한 데이터들을 예측할 수 있다. 그러면 항상 파라미터 수를 많이 늘려서 복잡한 데이터들을 예측하면 되지 않을까? 라는 생각을 할 수 있다. 그러나 이렇게 파라미터 수를 많이 늘리게 되면 한가지 문제점이 생기는데 바로 Overfitting 이다. Overfitting이란 훈련이 너무 train set에 맞춰져서 test set으로 테스트했을 때 성능이 떨어지는 현상이 발생하는 것이다. .. 2021. 8. 1.
코드에서 파라미터 최적화 본 글은 https://www.youtube.com/watch?v=ssf49Ppvh8c&list=PLSAJwo7mw8jn8iaXwT4MqLbZnS-LJwnBd&index=10 이 강의를 기반으로 작성되었습니다. ## 왜 코드에서 하이퍼 파라미터를 변수화 시키는게 중요한가? 하이퍼파라미터를 변수로 설정하지 않고 일반 숫자로 하드코딩 식으로 한다면 많은 실수들이 나올 수 있다. 예를 들어, weight initalization을 random하게 하는데 모르고 seed 값을 고정안했다고 가정하자. 그리고 모델의 하이퍼파라미터를 변경하면서 최적의 하이퍼 파라미터를 찾는다고 가정하자. 만약 이 상황에서 하이퍼파라미터를 변수가 아닌 숫자로 설정하였다면 깜빡하고 하이퍼파라미터를 변경하지 않고 실험을 진행할 수 있다... 2021. 7. 28.
MultiLayer Perceptron 이 글은 https://www.youtube.com/watch?v=oOQCrm4Vemo&list=PLSAJwo7mw8jn8iaXwT4MqLbZnS-LJwnBd&index=7&t=652s 영상을 기반으로 작성하였습니다. ## Solving XOR problem with MLP 위 그림에서 MLP의 input layer는 input 값이 들어가게 된다. 그리고 hidden layer에서 하나의 동그라미는 hidden unit이라고 한다. 그리고 MLP에서 화살표의 의미는 가중치를 곱해주는 것이다. 또한 가중치를 곱한 후에 activation function을 통과한다. ## XOR x1 x2 y 0 0 0 0 1 1 1 0 1 1 1 0 이러한 XOR 문제를 해결하기 위해 다음과 같이 MLP를 구성한다. 위.. 2021. 7. 26.
반응형