conftrace_

← Architectures

Deep Learning › Architectures ›

Transformers

9,294 papers

Papers per year

Papers

3D-LFM: Lifting Foundation Model CVPR 2024

You Only Need Less Attention at Each Stage in Vision Transformers CVPR 2024

Generalizable Novel-View Synthesis using a Stereo Camera CVPR 2024

MaskINT: Video Editing via Interpolative Non-autoregressive Masked Transformers CVPR 2024

OneFormer3D: One Transformer for Unified Point Cloud Segmentation CVPR 2024

AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning CVPR 2024

Making Vision Transformers Truly Shift-Equivariant CVPR 2024

SlowFormer: Adversarial Attack on Compute and Energy Consumption of Efficient Vision Transformers CVPR 2024

TULIP: Transformer for Upsampling of LiDAR Point Clouds CVPR 2024

MoST: Motion Style Transformer Between Diverse Action Contents CVPR 2024

Asymmetric Masked Distillation for Pre-Training Small Foundation Models CVPR 2024

MiKASA: Multi-Key-Anchor & Scene-Aware Transformer for 3D Visual Grounding CVPR 2024

MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training CVPR 2024

ContextSeg: Sketch Semantic Segmentation by Querying the Context with Attention CVPR 2024

Once for Both: Single Stage of Importance and Sparsity Search for Vision Transformer Compression CVPR 2024

MaGGIe: Masked Guided Gradual Human Instance Matting CVPR 2024

AV2AV: Direct Audio-Visual Speech to Audio-Visual Speech Translation with Unified Audio-Visual Speech Representation CVPR 2024

OmniMotionGPT: Animal Motion Generation with Limited Data CVPR 2024

SDSTrack: Self-Distillation Symmetric Adapter Learning for Multi-Modal Visual Object Tracking CVPR 2024

ALGM: Adaptive Local-then-Global Token Merging for Efficient Semantic Segmentation with Plain Vision Transformers CVPR 2024

Single-Model and Any-Modality for Video Object Tracking CVPR 2024

DanceCamera3D: 3D Camera Movement Synthesis with Music and Dance CVPR 2024

Don't Look into the Dark: Latent Codes for Pluralistic Image Inpainting CVPR 2024

Solving Masked Jigsaw Puzzles with Diffusion Vision Transformers CVPR 2024

Just Add ?! Pose Induced Video Transformers for Understanding Activities of Daily Living CVPR 2024