conftrace_

Artificial Intelligence › Core AI ›

Multimodal Learning

13,057 papers

Papers per year

Papers

Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding CVPR 2025

SVLTA: Benchmarking Vision-Language Temporal Alignment via Synthetic Video Situation CVPR 2025

DPSeg: Dual-Prompt Cost Volume Learning for Open-Vocabulary Semantic Segmentation CVPR 2025

Reason-before-Retrieve: One-Stage Reflective Chain-of-Thoughts for Training-Free Zero-Shot Composed Image Retrieval CVPR 2025

VISCO: Benchmarking Fine-Grained Critique and Correction Towards Self-Improvement in Visual Reasoning CVPR 2025

Enhanced OoD Detection through Cross-Modal Alignment of Multi-Modal Representations CVPR 2025

Mimir: Improving Video Diffusion Models for Precise Text Understanding CVPR 2025

RoboPEPP: Vision-Based Robot Pose and Joint Angle Estimation through Embedding Predictive Pre-Training CVPR 2025

Distraction is All You Need for Multimodal Large Language Model Jailbreaking CVPR 2025

Skip Tuning: Pre-trained Vision-Language Models are Effective and Efficient Adapters Themselves CVPR 2025

SAMWISE: Infusing Wisdom in SAM2 for Text-Driven Video Segmentation CVPR 2025

Omnia de EgoTempo: Benchmarking Temporal Understanding of Multi-Modal LLMs in Egocentric Videos CVPR 2025

Identity-Preserving Text-to-Video Generation by Frequency Decomposition CVPR 2025

SpiritSight Agent: Advanced GUI Agent with One Look CVPR 2025

MG-MotionLLM: A Unified Framework for Motion Comprehension and Generation across Multiple Granularities CVPR 2025

Retaining Knowledge and Enhancing Long-Text Representations in CLIP through Dual-Teacher Distillation CVPR 2025

Anchor-Aware Similarity Cohesion in Target Frames Enables Predicting Temporal Moment Boundaries in 2D CVPR 2025

StoryGPT-V: Large Language Models as Consistent Story Visualizers CVPR 2025

Code-as-Monitor: Constraint-aware Visual Programming for Reactive and Proactive Robotic Failure Detection CVPR 2025

Embracing Collaboration Over Competition: Condensing Multiple Prompts for Visual In-Context Learning CVPR 2025

Unity in Diversity: Video Editing via Gradient-Latent Purification CVPR 2025

VideoEspresso: A Large-Scale Chain-of-Thought Dataset for Fine-Grained Video Reasoning via Core Frame Selection CVPR 2025

INFP: Audio-Driven Interactive Head Generation in Dyadic Conversations CVPR 2025

DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation CVPR 2025

Bridge Frame and Event: Common Spatiotemporal Fusion for High-Dynamic Scene Optical Flow CVPR 2025