지금까지는 gradient를 다룰 때 first-order derivative만 다루었다.
이번 챕터에서는 higher-order derivative에 대해 알아본다.
1. Hessian
Hessian은 모든 2차 편도함수의 모음이다.
f(x,y)를 두 번 연속적으로 미분 가능할 경우 다음과 같고,
이 때 Hessian matrix는 다음과 같이 표현할 수 있다. (Symmetric 하다.)
이 Hessian matrix를 m x n 차원으로 확장하면 다음과 같다.
Remark) f의 vector field가 다음과 같다면, Hessian은 m x n x n 의 tensor 형태이다.
2. Newton method in optimization
근사하는 추정함수를 다음과 같이 Taylor expansion을 이용해 만들 수 있다.
이때, 위 Taylor expansion에서 몇차식까지 사용하느냐에 따라 명칭이 달라진다.
- Gradient descent 경사하강법: 위 식에서 gradient를 포함한 1차식을 이용해 근사하는 방법
- Newton method 뉴턴 방법: 위 식에서 Hessian을 포함한 2차식까지 이용해 근사하는 방법
Newton method는 계산 과정이 너무 복잡하므로 우리는 보통 Gradient descent를 사용한다.