conftrace_

Artificial Intelligence › Core AI ›

Multimodal Learning

13,057 papers

Papers per year

Papers

EEE-Bench: A Comprehensive Multimodal Electrical And Electronics Engineering Benchmark CVPR 2025

ReCon: Enhancing True Correspondence Discrimination through Relation Consistency for Robust Noisy Correspondence Learning CVPR 2025

Open Ad-hoc Categorization with Contextualized Feature Learning CVPR 2025

ECBench: Can Multi-modal Foundation Models Understand the Egocentric World? A Holistic Embodied Cognition Benchmark CVPR 2025

Dynamic Updates for Language Adaptation in Visual-Language Tracking CVPR 2025

Is `Right' Right? Enhancing Object Orientation Understanding in Multimodal Large Language Models through Egocentric Instruction Tuning CVPR 2025

Do Visual Imaginations Improve Vision-and-Language Navigation Agents? CVPR 2025

SeriesBench: A Benchmark for Narrative-Driven Drama Series Understanding CVPR 2025

HotSpot: Signed Distance Function Optimization with an Asymptotically Sufficient Condition CVPR 2025

BACON: Improving Clarity of Image Captions via Bag-of-Concept Graphs CVPR 2025

Libra-Merging: Importance-redundancy and Pruning-merging Trade-off for Acceleration Plug-in in Large Vision-Language Model CVPR 2025

VideoAutoArena: An Automated Arena for Evaluating Large Multimodal Models in Video Analysis through User Simulation CVPR 2025

Thinking in Space: How Multimodal Large Language Models See, Remember, and Recall Spaces CVPR 2025

A Stitch in Time Saves Nine: Small VLM is a Precise Guidance for Accelerating Large VLMs CVPR 2025

Unveiling Visual Perception in Language Models: An Attention Head Analysis Approach CVPR 2025

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation CVPR 2025

Nullu: Mitigating Object Hallucinations in Large Vision-Language Models via HalluSpace Projection CVPR 2025

Audio-Visual Instance Segmentation CVPR 2025

AdaCM^2: On Understanding Extremely Long-Term Video with Adaptive Cross-Modality Memory Reduction CVPR 2025

Mitigating Object Hallucinations in Large Vision-Language Models with Assembly of Global and Local Attention CVPR 2025

Recognition-Synergistic Scene Text Editing CVPR 2025

Supervising Sound Localization by In-the-wild Egomotion CVPR 2025

Fuzzy Multimodal Learning for Trusted Cross-modal Retrieval CVPR 2025

Few-Shot Recognition via Stage-Wise Retrieval-Augmented Finetuning CVPR 2025

4Real-Video: Learning Generalizable Photo-Realistic 4D Video Diffusion CVPR 2025