vision transformer

1091 papers

Explore in graph

Also known as

VITE VIT CLIP-VIT VT

Co-occurring keywords

image classification (1943) semantic segmentation (3179) model compression (3283) self-supervised learning (3751) attention mechanism (3975) convolutional neural network (4216) object detection (2759) transfer learning (5442) representation learning (6174) knowledge distillation (3680)

Papers

SWAT: Spatial Structure Within and Among Tokens IJCAI 2023

CiT-Net: Convolutional Neural Networks Hand in Hand with Vision Transformers for Medical Image Segmentation IJCAI 2023

Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully Exploiting Self-Attention IJCAI 2023

SLViT: Scale-Wise Language-Guided Vision Transformer for Referring Image Segmentation IJCAI 2023

ViT-P3DE∗: Vision Transformer Based Multi-Camera Instance Association with Pseudo 3D Position Embeddings IJCAI 2023

Data Level Lottery Ticket Hypothesis for Vision Transformers IJCAI 2023

Depth-Relative Self Attention for Monocular Depth Estimation IJCAI 2023

Appearance Prompt Vision Transformer for Connectome Reconstruction IJCAI 2023

A Dynamic Dual-Processing Object Detection Framework Inspired by the Brain's Recognition Mechanism ICCV 2023

Bidirectional Alignment for Domain Adaptive Detection with Transformers ICCV 2023

Gramian Attention Heads are Strong yet Efficient Vision Learners ICCV 2023

Reconstructing Interacting Hands with Interaction Prior from Monocular Images ICCV 2023

What Can Simple Arithmetic Operations Do for Temporal Modeling? ICCV 2023

Vision Grid Transformer for Document Layout Analysis ICCV 2023

Energy-based Self-Training and Normalization for Unsupervised Domain Adaptation ICCV 2023

HM-ViT: Hetero-Modal Vehicle-to-Vehicle Cooperative Perception with Vision Transformer ICCV 2023

Generating Instance-level Prompts for Rehearsal-free Continual Learning ICCV 2023

GasMono: Geometry-Aided Self-Supervised Monocular Depth Estimation for Indoor Scenes ICCV 2023

ShiftNAS: Improving One-shot NAS via Probability Shift ICCV 2023

Spatio-temporal Prompting Network for Robust Video Feature Extraction ICCV 2023

A Simple Vision Transformer for Weakly Semi-supervised 3D Object Detection ICCV 2023

FDViT: Improve the Hierarchical Architecture of Vision Transformer ICCV 2023

Rethinking Vision Transformers for MobileNet Size and Speed ICCV 2023

OPERA: Omni-Supervised Representation Learning with Hierarchical Supervisions ICCV 2023

Fully Attentional Networks with Self-emerging Token Labeling ICCV 2023