conftrace_

← Architectures

Deep Learning › Architectures ›

Transformers

9,294 papers

Papers per year

Papers

Flexible Biometrics Recognition: Bridging the Multimodality Gap through Attention Alignment and Prompt Tuning CVPR 2024

Exploring Region-Word Alignment in Built-in Detector for Open-Vocabulary Object Detection CVPR 2024

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods CVPR 2024

Towards Understanding and Improving Adversarial Robustness of Vision Transformers CVPR 2024

Uncertainty-aware Action Decoupling Transformer for Action Anticipation CVPR 2024

RoMa: Robust Dense Feature Matching CVPR 2024

Omni-SMoLA: Boosting Generalist Multimodal Models with Soft Mixture of Low-rank Experts CVPR 2024

Context-Guided Spatio-Temporal Video Grounding CVPR 2024

ReGenNet: Towards Human Action-Reaction Synthesis CVPR 2024

A Unified Framework for Microscopy Defocus Deblur with Multi-Pyramid Transformer and Contrastive Learning CVPR 2024

Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification CVPR 2024

Multi-Attribute Interactions Matter for 3D Visual Grounding CVPR 2024

Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense Interactions through Masked Modeling CVPR 2024

Learning Correlation Structures for Vision Transformers CVPR 2024

Open Vocabulary Semantic Scene Sketch Understanding CVPR 2024

LayoutFormer: Hierarchical Text Detection Towards Scene Text Understanding CVPR 2024

SIRA: Scalable Inter-frame Relation and Association for Radar Perception CVPR 2024

On Scaling Up a Multilingual Vision and Language Model CVPR 2024

Reconstructing Hands in 3D with Transformers CVPR 2024

Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction CVPR 2024

The Audio-Visual Conversational Graph: From an Egocentric-Exocentric Perspective CVPR 2024

Question Aware Vision Transformer for Multimodal Reasoning CVPR 2024

NViST: In the Wild New View Synthesis from a Single Image with Transformers CVPR 2024

UnionFormer: Unified-Learning Transformer with Multi-View Representation for Image Manipulation Detection and Localization CVPR 2024

RCBEVDet: Radar-camera Fusion in Bird's Eye View for 3D Object Detection CVPR 2024