vision transformer

1091 papers

Explore in graph

Also known as

VITE VIT CLIP-VIT VT

Co-occurring keywords

image classification (1943) semantic segmentation (3179) model compression (3283) self-supervised learning (3751) attention mechanism (3975) convolutional neural network (4216) object detection (2759) transfer learning (5442) representation learning (6174) knowledge distillation (3680)

Papers

DropMAE: Masked Autoencoders With Spatial-Attention Dropout for Tracking Tasks CVPR 2023

Bridging Search Region Interaction With Template for RGB-T Tracking CVPR 2023

RIFormer: Keep Your Vision Backbone Effective but Removing Token Mixer CVPR 2023

Recurrent Vision Transformers for Object Detection With Event Cameras CVPR 2023

Revealing the Dark Secrets of Masked Image Modeling CVPR 2023

StyleAdv: Meta Style Adversarial Training for Cross-Domain Few-Shot Learning CVPR 2023

Where are we in the search for an Artificial Visual Cortex for Embodied Intelligence? NIPS 2023

Revisiting Adversarial Training for ImageNet: Architectures, Training and Generalization across Threat Models NIPS 2023

Time Series as Images: Vision Transformer for Irregularly Sampled Time Series NIPS 2023

Kronecker-Factored Approximate Curvature for Modern Neural Network Architectures NIPS 2023

TVT: Transferable Vision Transformer for Unsupervised Domain Adaptation WACV 2023

Latent-OFER: Detect, Mask, and Reconstruct with Latent Vectors for Occluded Facial Expression Recognition ICCV 2023

Universal Domain Adaptation via Compressive Attention Matching ICCV 2023

Scale-MAE: A Scale-Aware Masked Autoencoder for Multiscale Geospatial Representation Learning ICCV 2023

Efficient Video Action Detection with Token Dropout and Context Refinement ICCV 2023

TripLe: Revisiting Pretrained Model Reuse and Progressive Learning for Efficient Vision Transformer Scaling and Searching ICCV 2023

Contrastive Feature Masking Open-Vocabulary Vision Transformer ICCV 2023

Fcaformer: Forward Cross Attention in Hybrid Vision Transformer ICCV 2023

$E(2)$-Equivariant Vision Transformer UAI 2023

Prune Spatio-temporal Tokens by Semantic-aware Temporal Accumulation ICCV 2023

AdaMV-MoE: Adaptive Multi-Task Vision Mixture-of-Experts ICCV 2023

Full Contextual Attention for Multi-Resolution Transformers in Semantic Segmentation WACV 2023

Multi-scale Hierarchical Vision Transformer with Cascaded Attention Decoding for Medical Image Segmentation MIDL 2023

Hyperbolic Vision Transformers: Combining Improvements in Metric Learning CVPR 2022

Fine-Tuning Image Transformers Using Learnable Memory CVPR 2022