반응형 AdaGrad1 Advanced Optimizer than SGD 본 글은 https://www.youtube.com/watch?v=a5R4gL1ObP8&list=PLSAJwo7mw8jn8iaXwT4MqLbZnS-LJwnBd&index=16 위 동영상을 바탕으로 하였습니다. ## Batch Stochastic Gradient Descent Gradient Descent 를 식으로 쓰면 다음과 같다, $$ \theta = \theta - \eta\triangledown J(\theta) $$ 여기서 \( \theta \)는 모델에 설정된 파라미터를 말하고 \( \eta \)는 learning rate, \( J(\theta) \) 는 loss function을 의미한다. 이는 파라미터 \( \theta \) 에서 loss 에 있는 파라미터 \( \theta \) 에 대한.. 2021. 8. 14. 이전 1 다음 반응형