본문 바로가기

spatial reduction attention1

[논문 정리] Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction w *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Introduction FPN이라고 부르는 Feature Pyramid Network 등 이전의 많은 논문에서 이 Pyramid 구조에 대해서 다뤘는데요. 이 Pyramid 구조는 여기 그림에서 보이는 것처럼 서로 다른 해상도의 feature map을 쌓아 올린 형태를 말합니다. 이 다양한 scale의 feature map을 모두 이용하여 segmentation을 수행합니다. Receptive field는 기존 이미지에서 한 픽셀이 담당하는 범위를 말하는데요. 이렇게 pyramid 구조를 가지면, 깊이가 더 깊어질수록, feature map에서 한 픽셀이 담당하는 범위가 늘어나게 됩니다. 즉, 깊이가 깊어질수록 receptive fiel.. 2023. 9. 1.

이전 1 다음

티스토리툴바