본문 바로가기

AI 논문 리뷰(AI Paper Review)16

[논문정리] DenseNet 개념 정리 *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. DenseNet은 ResNet의 Architecture에서 발전했습니다. ResNet 문서는 이전 게시물을 참조하세요. https://stevenkim1217.tistory.com/entry/ResNet-%EA%B0%9C%EB%85%90-%EC%A0%95%EB%A6%AC ResNet 개념 정리 *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Residual Learning ResNet의 핵심인 Residual Learning입니다. 기존 방식은 input으로 x를 받아서 두개의 weight layer을 거치고, 학습을 통해 stevenkim1217.tistory.com 기존의 그냥 선형적인 ResNet의 구조에서는 L.. 2023. 9. 1.
[논문정리] ResNet 개념 정리 *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Residual Learning ResNet의 핵심인 Residual Learning입니다. 기존 방식은 input으로 x를 받아서 두개의 weight layer을 거치고, 학습을 통해 최적의 출력 H(x)를 구하는 것이 목표입니다. 근데 이제 단순히 H(x)를 출력하는 기존의 방식에서, 출력인 H(x)와 입력인 x의 차이를 학습시키는 것을 목표하는 방식으로 목적을 바꾼 것이 Residual Learning입니다. Residual Function인 F(x) = H(x) - x를 최소화시켜야 하고 이것은 즉, 출력과 입력의 차를 줄인다는 의미가 됩니다. 여기서 x의 값은 도중에 바꾸지 못하는 입력 값이므로 F(x)가 0이 되는 것이 최적의.. 2023. 9. 1.
[논문 정리] DeiT: Training data-efficient image transformers & distillation through attention *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Introduction 이전 Vision Transformer 논문 정리 게시글에서, ViT가 ImageNet 정도의 사이즈에서는 이전 SOTA인 Convolutional layer 기반 모델인 ResNet보다 낮은 성능을 보이는 한계를 보였다고 말씀드렸습니다. (링크 참조) https://stevenkim1217.tistory.com/entry/%EB%85%BC%EB%AC%B8-%EB%A6%AC%EB%B7%B0-AN-IMAGE-IS-WORTH-16X16-WORDSTRANSFORMERS-FOR-IMAGE-RECOGNITION-AT-SCALE [논문 정리] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR.. 2023. 9. 1.
[논문 정리] Swin Transformer: Hierarchical Vision Transformer using Shifted Windows *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Introduction Swin transfomer은 텍스트와는 다른 이미지만의 특성을 고려했습니다. 이 이미지의 특성으로는, “해상도”와 “물체의 크기”가 존재합니다. 그래서 제안하는 방법은 이런 Local Window를 모델에 적용하는 것입니다. 빨간 테두리를 Window, 회색 박스 하나를 패치라고 합니다. 기존 Vision Transformer의 Window는 고정적이기 때문에 세밀한 segmentation을 하기 어려웠던 반면, Swin Transformer는 우선 제일 아래의 layer에서 나눠진 각 Window에 대해 각각 self-attention을 적용하고, 그 다음 layer에서는 window를 한 단계 병합해서 각각 .. 2023. 9. 1.
[논문 정리] AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE *본 내용은 논문의 상세한 분석이 아닌, 간단한 복기용 정리입니다. Abstract Transformer 구조가 NLP에서 사실상 표준이 된 반면, Computer Vision(이후 CV) 분야에서는 제한적이었다. CV에서 Attention은 CNN과 결합되거나, CNN의 특정 요소를 대체하는 용도로만 사용되었다. 발표팀은 Attention의 CNN에 대한 이러한 의존이 필수적이지 않다는 것과, image를 patch로 잘라 Sequence 형태로 사용하여 transformer에 직접적으로 사용함으로써 Classification 작업을 잘 수행할 수 있음을 보였다. 거대한 데이터셋으로 pre-train하고, 중간-작은 사이즈의 데이터셋에 대해 transfer 하는 방식으로 기존의 CNN기반 SOTA를 능.. 2023. 9. 1.