1. Gradient of a Least-Squares Loss(최소제곱손실) in a Linear model 구하기
Example) 주어진 Linear model은 다음과 같다.
이때, 각 변수들은 다음을 만족하고,
function은 각각 다음과 같다.
L은 Least-square loss function(최소제곱손실함수)이며, 다음을 만족한다.
우리는 손실을 가장 줄이는 Loss function을 찾는 것이 목적이고, 이에 대한 표기는 다음과 같다.
1st) 먼저 gradient의 차원을 정의한다.
따라서, Loss function의 gradient는 1xD 차원이다.
2nd) 이제 Loss function의 partial derivative를 구한다. 이때 chain rule을 적용한다.
이므로, chain rule에 의해 다음이 구해진다.
3rd) 미분의 개념을 이용하면, 구한 partial derivative(편도함수)가 0이 되는 지점이 손실을 최소화하는 지점이라고 생각할 수 있다.
2. Least-Squares과 projection의 관계
우리는 이 Loss function을 최소화하는 지점(θ)을 찾기 위해 L(θ)의 partial derivative를 구하여, 0이 되는 지점을 찾았다.
이를 식으로 전개하여 관찰하면 다음과 같다.
위에서 언급한 주어진 Linear model을 적용하면 다음과 같은 ŷ 값이 도출된다.
이때, 구한 ŷ의 형태가 익숙하다. 이는 orthogonal projection(직교사영) 공식과 동일한 것을 알 수 있다.
다음은 참고를 위한 orthogonal projection 공식이다.
따라서, 결국 Loss function의 gradient를 이용해 Least-squares loss를 찾는("y와 ŷ 사이의 Least-square(최소제곱)을 찾는) 이 일련의 과정은: "orthogonal projection"과 동일하다는 것을 알 수 있다.
정리하면, 1의 그림 A에서 나아가,
다음과 같이 orthogonal projection으로의 확장이 가능하다는 것을 알 수 있다.