conftrace_

Artificial Intelligence › Core AI ›

Multimodal Learning

13,057 papers

Papers per year

Papers

G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation CVPR 2025

Explaining Domain Shifts in Language: Concept Erasing for Interpretable Image Classification CVPR 2025

NeighborRetr: Balancing Hub Centrality in Cross-Modal Retrieval CVPR 2025

Beyond Sight: Towards Cognitive Alignment in LVLM via Enriched Visual Knowledge CVPR 2025

Global-Local Tree Search in VLMs for 3D Indoor Scene Generation CVPR 2025

Overcoming Shortcut Problem in VLM for Robust Out-of-Distribution Detection CVPR 2025

RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics CVPR 2025

A Simple yet Effective Layout Token in Large Language Models for Document Understanding CVPR 2025

Free Lunch Enhancements for Multi-modal Crowd Counting CVPR 2025

BIMBA: Selective-Scan Compression for Long-Range Video Question Answering CVPR 2025

JanusFlow: Harmonizing Autoregression and Rectified Flow for Unified Multimodal Understanding and Generation CVPR 2025

HEIE: MLLM-Based Hierarchical Explainable AIGC Image Implausibility Evaluator CVPR 2025

Task-aware Cross-modal Feature Refinement Transformer with Large Language Models for Visual Grounding CVPR 2025

StarVector: Generating Scalable Vector Graphics Code from Images and Text CVPR 2025

EgoTextVQA: Towards Egocentric Scene-Text Aware Video Question Answering CVPR 2025

From Words to Structured Visuals: A Benchmark and Framework for Text-to-Diagram Generation and Editing CVPR 2025

Beyond Single-Modal Boundary: Cross-Modal Anomaly Detection through Visual Prototype and Harmonization CVPR 2025

VDocRAG: Retrieval-Augmented Generation over Visually-Rich Documents CVPR 2025

Align-KD: Distilling Cross-Modal Alignment Knowledge for Mobile Vision-Language Large Model Enhancement CVPR 2025

Pose Priors from Language Models CVPR 2025

Video-MME: The First-Ever Comprehensive Evaluation Benchmark of Multi-modal LLMs in Video Analysis CVPR 2025

Perception Tokens Enhance Visual Reasoning in Multimodal Language Models CVPR 2025

LLaVA-ST: A Multimodal Large Language Model for Fine-Grained Spatial-Temporal Understanding CVPR 2025

Insight-V: Exploring Long-Chain Visual Reasoning with Multimodal Large Language Models CVPR 2025

Learning Audio-guided Video Representation with Gated Attention for Video-Text Retrieval CVPR 2025