본문 바로가기

수학(Mathematics)/미적분학(Calculus)10

[Continuous Optimization] 모멘텀 경사하강법 (Gradient Descent with Momentum) Gradinet Descent with Momentum Gradient Descent with Momentum은 추세/관성 (Momentum)을 GD에 반영하는 것이다. Memory를 기반으로 Gradient를 갱신한다. 다음과 같이 일반적인 Gradient Descent 수식을 보면 g(wt)를 t가 늘어날 때마다 매번 새로 설정해야하는 것을 볼 수 있다. Gradient Descent with Momentum은 매 Iteration에서 정보를 기록하고, 다음 step의 gradient를 설정할 때 이전의 상황을 반영함으로써 Local minimum에 빠지는 것을 많이 완화해준다. 수식은 다음과 같다. 이 수식으로 볼 수 있듯, s(t)를 만들 때 s(t-1)을 반영하며, w(t+1)을 다룰 때 t에 .. 2023. 6. 6.
[Continuous Optimization] 경사하강법의 수렴과 스텝 사이즈 (Convergence & Step-Size of GD Method) 1. 경사하강법의 수렴 Convergence of GD Method Gradient Descent의 수렴은 다음과 같이 판단한다. 수렴의 판단 기준은 각자가 골라서 설정한다. 여기서 Convergence란 정확히 0이 되는 것이 아니라, 위 수식에서 나타난 것처럼 아주 작은 특정 값(입실론)을 직접 설정하고, 이보다 작으면 Stop하는 것을 말한다. 2. Convergence Theorem 지금부터 다룰 내용은, "과연 Gradient Descent를 이상적인(local minimum이 곧 global minimum인) convex function에서 무한번 반복하면 정말로 0에 수렴할까? GD를 무한번 반복하면 정말 optimal solution이 나오나?"에 대한 증명이다. 증명에 대한 자세한 이해는.. 2023. 6. 6.
[Continuous Optimization] 경사하강법 최적화 (Optimizing Using Gradient Descent) 이번 챕터에서는 아래와 같이 실수 값을 가지는 Objective funtion의 minimum 값을 찾는 optimization 문제를 다룬다. 우리는 주로 error을 objective funtion f(x)로 가정하고, f(x)를 최소화 하는 x값을 찾는다. 1. 경사하강법 최적화 Optimizing Using Gradient Descent 이때 f(x)의 차원은 아래와 같고, 미분 가능(differentiable)하며, 수리적으로 최적해를 바로 찾을 수 없는 함수(unable to analytically find a solution in closed form)이라고 하자. 불연속이거나 미분이 불가능한 f(x)는 gradient가 발생하지 않기 때문이다. 사실 나중에 differentiable하지 않.. 2023. 6. 6.
[Continuous Optimization] Continuous Optimization이란 무엇인가? 머신러닝 모델을 학습시키는 과정은 주로 "좋은" Parameter의 집합을 찾는 과정이라고 할 수 있다. 이때 "좋은"의 기준은 Objective function(목적함수)나 확률적 모델에 따라 결정된다. Objective function이 주어졌을 때, 가장 좋은 값을 찾는 것이 Optimization Algorithm이 하는 일이다. 1. 대략적인 최적화 과정 소개 Overview of the optimization process 대략적인 Optimization 과정에 대해 소개한다. 목적함수는 parameter을 이용해 직접 설정한다. 다음의 목적함수 fw(x)는 parameter = ( w1, w2, w3 )로 이루어져 있다. 내가 가진 데이터를 가장 잘 나타내는 함수/Polynomial을 찾기 .. 2023. 6. 6.
[벡터 미적분학] 고계도함수와 헤시안 행렬 (Higher-Order Derivative & Hessian matrix) 지금까지는 gradient를 다룰 때 first-order derivative만 다루었다. 이번 챕터에서는 higher-order derivative에 대해 알아본다. 1. Hessian Hessian은 모든 2차 편도함수의 모음이다. f(x,y)를 두 번 연속적으로 미분 가능할 경우 다음과 같고, 이 때 Hessian matrix는 다음과 같이 표현할 수 있다. (Symmetric 하다.) 이 Hessian matrix를 m x n 차원으로 확장하면 다음과 같다. Remark) f의 vector field가 다음과 같다면, Hessian은 m x n x n 의 tensor 형태이다. 2. Newton method in optimization 근사하는 추정함수를 다음과 같이 Taylor expansion.. 2023. 6. 5.