conftrace_

Artificial Intelligence › Core AI ›

Multimodal Learning

13,057 papers

Papers per year

Papers

MANTA: Diffusion Mamba for Efficient and Effective Stochastic Long-Term Dense Action Anticipation CVPR 2025

The Devil is in Temporal Token: High Quality Video Reasoning Segmentation CVPR 2025

PerLA: Perceptive 3D Language Assistant CVPR 2025

Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation CVPR 2025

InteractAnything: Zero-shot Human Object Interaction Synthesis via LLM Feedback and Object Affordance Parsing CVPR 2025

SAIST: Segment Any Infrared Small Target Model Guided by Contrastive Language-Image Pretraining CVPR 2025

Seek Common Ground While Reserving Differences: Semi-Supervised Image-Text Sentiment Recognition CVPR 2025

CoLLM: A Large Language Model for Composed Image Retrieval CVPR 2025

EgoLM: Multi-Modal Language Model of Egocentric Motions CVPR 2025

Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation CVPR 2025

Preserve or Modify? Context-Aware Evaluation for Balancing Preservation and Modification in Text-Guided Image Editing CVPR 2025

MPDrive: Improving Spatial Understanding with Marker-Based Prompt Learning for Autonomous Driving CVPR 2025

Fine-Grained Image-Text Correspondence with Cost Aggregation for Open-Vocabulary Part Segmentation CVPR 2025

CMMLoc: Advancing Text-to-PointCloud Localization with Cauchy-Mixture-Model Based Framework CVPR 2025

RC-AutoCalib: An End-to-End Radar-Camera Automatic Calibration Network CVPR 2025

CLIP-driven Coarse-to-fine Semantic Guidance for Fine-grained Open-set Semi-supervised Learning CVPR 2025

MotionBench: Benchmarking and Improving Fine-grained Video Motion Understanding for Vision Language Models CVPR 2025

Benchmarking Large Vision-Language Models via Directed Scene Graph for Comprehensive Image Captioning CVPR 2025

FlashSloth : Lightning Multimodal Large Language Models via Embedded Visual Compression CVPR 2025

VideoScene: Distilling Video Diffusion Model to Generate 3D Scenes in One Step CVPR 2025

ReNeg: Learning Negative Embedding with Reward Guidance CVPR 2025

Distilled Prompt Learning for Incomplete Multimodal Survival Prediction CVPR 2025

Hyperbolic Safety-Aware Vision-Language Models CVPR 2025

Conical Visual Concentration for Efficient Large Vision-Language Models CVPR 2025

Period-LLM: Extending the Periodic Capability of Multimodal Large Language Model CVPR 2025