DeiT1 [논문 정리] DeiT: Training data-efficient image transformers & distillation through attention *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Introduction 이전 Vision Transformer 논문 정리 게시글에서, ViT가 ImageNet 정도의 사이즈에서는 이전 SOTA인 Convolutional layer 기반 모델인 ResNet보다 낮은 성능을 보이는 한계를 보였다고 말씀드렸습니다. (링크 참조) https://stevenkim1217.tistory.com/entry/%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-AN-IMAGE-IS-WORTH-16X16-WORDSTRANSFORMERS-FOR-IMAGE-RECOGNITION-AT-SCALE [논문 정리] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR.. 2023. 9. 1. 이전 1 다음