conftrace_

multimodal learning

4645 papers

Explore in graph

Co-occurring keywords

large language model (13587) vision-language model (2348) visual question answering (1017) video understanding (1658) multi-modal learning (1278) contrastive learning (4032) representation learning (6206) transfer learning (5449) zero-shot learning (3650) vision language model (767)

Papers

MM-OR: A Large Multimodal Operating Room Dataset for Semantic Understanding of High-Intensity Surgical Environments CVPR 2025

ImpliHateVid: A Benchmark Dataset and Two-stage Contrastive Learning Framework for Implicit Hate Speech Detection in Videos ACL 2025

Soundwave: Less is More for Speech-Text Alignment in LLMs ACL 2025

Recurrence-Enhanced Vision-and-Language Transformers for Robust Multimodal Document Retrieval CVPR 2025

We-Math: Does Your Large Multimodal Model Achieve Human-like Mathematical Reasoning? ACL 2025

MultiModal Action Conditioned Video Simulation ICCV 2025

AdaptAgent: Adapting Multimodal Web Agents with Few-Shot Learning from Human Demonstrations ACL 2025

VisuoThink: Empowering LVLM Reasoning with Multimodal Tree Search ACL 2025

Caution for the Environment: Multimodal LLM Agents are Susceptible to Environmental Distractions ACL 2025

ATRI: Mitigating Multilingual Audio Text Retrieval Inconsistencies by Reducing Data Distribution Errors ACL 2025

Retrospective Learning from Interactions ACL 2025

WAFFLE: Fine-tuning Multi-Modal Model for Automated Front-End Development ACL 2025

OmniCharacter: Towards Immersive Role-Playing Agents with Seamless Speech-Language Personality Interaction ACL 2025

RADAR: Enhancing Radiology Report Generation with Supplementary Knowledge Injection ACL 2025

Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models ACL 2025

HELIOS: Harmonizing Early Fusion, Late Fusion, and LLM Reasoning for Multi-Granular Table-Text Retrieval ACL 2025

FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation ACL 2025

Towards Generating Controllable and Solvable Geometry Problem by Leveraging Symbolic Deduction Engine ACL 2025

Visual Cues Enhance Predictive Turn-Taking for Two-Party Human Interaction ACL 2025

Chain-Talker: Chain Understanding and Rendering for Empathetic Conversational Speech Synthesis ACL 2025

MathCoder-VL: Bridging Vision and Code for Enhanced Multimodal Mathematical Reasoning ACL 2025

CLaMP 3: Universal Music Information Retrieval Across Unaligned Modalities and Unseen Languages ACL 2025

Reasoning is All You Need for Video Generalization: A Counterfactual Benchmark with Sub-question Evaluation ACL 2025

CrisisTS: Coupling Social Media Textual Data and Meteorological Time Series for Urgency Classification ACL 2025

STiL: Semi-supervised Tabular-Image Learning for Comprehensive Task-Relevant Information Exploration in Multimodal Classification CVPR 2025