conftrace_

← Architectures

Deep Learning › Architectures ›

Transformers

9,294 papers

Papers per year

Papers

LayerTracer: Cognitive-Aligned Layered SVG Synthesis via Diffusion Transformer ICCV 2025

Sparfels: Fast Reconstruction from Sparse Unposed Imagery ICCV 2025

UniDxMD: Towards Unified Representation for Cross-Modal Unsupervised Domain Adaptation in 3D Semantic Segmentation ICCV 2025

GFPack++: Attention-Driven Gradient Fields for Optimizing 2D Irregular Packing ICCV 2025

High-Resolution Spatiotemporal Modeling with Global-Local State Space Models for Video-Based Human Pose Estimation ICCV 2025

REPA-E: Unlocking VAE for End-to-End Tuning of Latent Diffusion Transformers ICCV 2025

SkySense V2: A Unified Foundation Model for Multi-modal Remote Sensing ICCV 2025

EgoAdapt: Adaptive Multisensory Distillation and Policy Learning for Efficient Egocentric Perception ICCV 2025

EVT: Efficient View Transformation for Multi-Modal 3D Object Detection ICCV 2025

DisenQ: Disentangling Q-Former for Activity-Biometrics ICCV 2025

Scaling Action Detection: AdaTAD++ with Transformer-Enhanced Temporal-Spatial Adaptation ICCV 2025

Fix-CLIP: Dual-Branch Hierarchical Contrastive Learning via Synthetic Captions for Better Understanding of Long Text ICCV 2025

A Unified Framework for Motion Reasoning and Generation in Human Interaction ICCV 2025

Stroke2Sketch: Harnessing Stroke Attributes for Training-Free Sketch Generation ICCV 2025

MeshMamba: State Space Models for Articulated 3D Mesh Generation and Reconstruction ICCV 2025

SparseVILA: Decoupling Visual Sparsity for Efficient VLM Inference ICCV 2025

Inter2Former: Dynamic Hybrid Attention for Efficient High-Precision Interactive Segmentation ICCV 2025

S2M2: Scalable Stereo Matching Model for Reliable Depth Estimation ICCV 2025

BASIC: Boosting Visual Alignment with Intrinsic Refined Embeddings in Multimodal Large Language Models ICCV 2025

Long-term Traffic Simulation with Interleaved Autoregressive Motion and Scenario Generation ICCV 2025

HyTIP: Hybrid Temporal Information Propagation for Masked Conditional Residual Video Coding ICCV 2025

ZipVL: Accelerating Vision-Language Models through Dynamic Token Sparsity ICCV 2025

Advancing Visual Large Language Model for Multi-granular Versatile Perception ICCV 2025

Proxy-Bridged Game Transformer for Interactive Extreme Motion Prediction ICCV 2025

TAR3D: Creating High-Quality 3D Assets via Next-Part Prediction ICCV 2025