반응형 optimizer1 Advanced Optimizer than SGD 본 글은 https://www.youtube.com/watch?v=a5R4gL1ObP8&list=PLSAJwo7mw8jn8iaXwT4MqLbZnS-LJwnBd&index=16 위 동영상을 바탕으로 하였습니다. ## Batch Stochastic Gradient Descent Gradient Descent 를 식으로 쓰면 다음과 같다, θ=θ−η▽J(θ) 여기서 θ는 모델에 설정된 파라미터를 말하고 η는 learning rate, J(θ) 는 loss function을 의미한다. 이는 파라미터 θ 에서 loss 에 있는 파라미터 θ 에 대한.. 2021. 8. 14. 이전 1 다음 반응형