전체 글54 [논문 정리] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Abstract Transformer 구조가 NLP에서 사실상 표준이 된 반면, Computer Vision(이후 CV) 분야에서는 제한적이었다. CV에서 Attention은 CNN과 결합되거나, CNN의 특정 요소를 대체하는 용도로만 사용되었다. 발표팀은 Attention의 CNN에 대한 이러한 의존이 필수적이지 않다는 것과, image를 patch로 잘라 Sequence 형태로 사용하여 transformer에 직접적으로 사용함으로써 Classification 작업을 잘 수행할 수 있음을 보였다. 거대한 데이터셋으로 pre-train하고, 중간-작은 사이즈의 데이터셋에 대해 transfer 하는 방식으로 기존의 CNN기반 SOTA를 능.. 2023. 9. 1. [논문정리] Convolution Neural Network (CNN) 개념 정리 CNN은 input layer, convolutional layer, pooling layer, fully connected layer, output layer로 이루어져 있습니다. 이미지는 높이, 너비, 채널의 값을 갖는 3차원 데이터로, 흑백의 채널은 1, 컬러 이미지의 채널은 RGB 값에 의해 3을 가집니다. Convolutional layer에서는 필터로 이미지의 모든 영역을 stride만큼 진행하여 순회하면서 특성을 추출합니다. Input 이미지와 필터를 포개 놓고 대응되는 숫자끼리 곱한 후 더하여 feature map을 만듭니다. Pooling Layer에서는 앞서 만든 feature map의 차원을 낮추어 연산량을 감소시키고 특성 벡터를 추출하는 역할을 합니다. Average Pooling은.. 2023. 9. 1. [Continuous Optimization] 모멘텀 경사하강법 (Gradient Descent with Momentum) Gradinet Descent with Momentum Gradient Descent with Momentum은 추세/관성 (Momentum)을 GD에 반영하는 것이다. Memory를 기반으로 Gradient를 갱신한다. 다음과 같이 일반적인 Gradient Descent 수식을 보면 g(wt)를 t가 늘어날 때마다 매번 새로 설정해야하는 것을 볼 수 있다. Gradient Descent with Momentum은 매 Iteration에서 정보를 기록하고, 다음 step의 gradient를 설정할 때 이전의 상황을 반영함으로써 Local minimum에 빠지는 것을 많이 완화해준다. 수식은 다음과 같다. 이 수식으로 볼 수 있듯, s(t)를 만들 때 s(t-1)을 반영하며, w(t+1)을 다룰 때 t에 .. 2023. 6. 6. [Continuous Optimization] 경사하강법의 수렴과 스텝 사이즈 (Convergence & Step-Size of GD Method) 1. 경사하강법의 수렴 Convergence of GD Method Gradient Descent의 수렴은 다음과 같이 판단한다. 수렴의 판단 기준은 각자가 골라서 설정한다. 여기서 Convergence란 정확히 0이 되는 것이 아니라, 위 수식에서 나타난 것처럼 아주 작은 특정 값(입실론)을 직접 설정하고, 이보다 작으면 Stop하는 것을 말한다. 2. Convergence Theorem 지금부터 다룰 내용은, "과연 Gradient Descent를 이상적인(local minimum이 곧 global minimum인) convex function에서 무한번 반복하면 정말로 0에 수렴할까? GD를 무한번 반복하면 정말 optimal solution이 나오나?"에 대한 증명이다. 증명에 대한 자세한 이해는.. 2023. 6. 6. [Continuous Optimization] 경사하강법 최적화 (Optimizing Using Gradient Descent) 이번 챕터에서는 아래와 같이 실수 값을 가지는 Objective funtion의 minimum 값을 찾는 optimization 문제를 다룬다. 우리는 주로 error을 objective funtion f(x)로 가정하고, f(x)를 최소화 하는 x값을 찾는다. 1. 경사하강법 최적화 Optimizing Using Gradient Descent 이때 f(x)의 차원은 아래와 같고, 미분 가능(differentiable)하며, 수리적으로 최적해를 바로 찾을 수 없는 함수(unable to analytically find a solution in closed form)이라고 하자. 불연속이거나 미분이 불가능한 f(x)는 gradient가 발생하지 않기 때문이다. 사실 나중에 differentiable하지 않.. 2023. 6. 6. 이전 1 ··· 4 5 6 7 8 9 10 11 다음