swin transformer1 [논문 정리] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Introduction Swin transfomer은 텍스트와는 다른 이미지만의 특성을 고려했습니다. 이 이미지의 특성으로는, “해상도”와 “물체의 크기”가 존재합니다. 그래서 제안하는 방법은 이런 Local Window를 모델에 적용하는 것입니다. 빨간 테두리를 Window, 회색 박스 하나를 패치라고 합니다. 기존 Vision Transformer의 Window는 고정적이기 때문에 세밀한 segmentation을 하기 어려웠던 반면, Swin Transformer는 우선 제일 아래의 layer에서 나눠진 각 Window에 대해 각각 self-attention을 적용하고, 그 다음 layer에서는 window를 한 단계 병합해서 각각 .. 2023. 9. 1. 이전 1 다음