conftrace_

Artificial Intelligence › Core AI ›

Multimodal Learning

13,057 papers

Papers per year

Papers

Leveraging Taxonomy and LLMs for Improved Multimodal Hierarchical Classification COLING 2025

Representation Purification for End-to-End Speech Translation COLING 2025

Acquired TASTE: Multimodal Stance Detection with Textual and Structural Embeddings COLING 2025

On the Effects of Fine-tuning Language Models for Text-Based Reinforcement Learning COLING 2025

RRHF-V: Ranking Responses to Mitigate Hallucinations in Multimodal Large Language Models with Human Feedback COLING 2025

Fine-Grained Features-based Code Search for Precise Query-Code Matching COLING 2025

VideoQA-TA: Temporal-Aware Multi-Modal Video Question Answering COLING 2025

Evolver: Chain-of-Evolution Prompting to Boost Large Multimodal Models for Hateful Meme Detection COLING 2025

Piecing It All Together: Verifying Multi-Hop Multimodal Claims COLING 2025

Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations COLING 2025

Less is More: A Simple yet Effective Token Reduction Method for Efficient Multi-modal LLMs COLING 2025

ProsodyFlow: High-fidelity Text-to-Speech through Conditional Flow Matching and Prosody Modeling with Large Speech Language Models COLING 2025

SGMEA: Structure-Guided Multimodal Entity Alignment COLING 2025

Multilingual and Explainable Text Detoxification with Parallel Corpora COLING 2025

What Makes for Good Visual Instructions? Synthesizing Complex Visual Reasoning Instructions for Visual Instruction Tuning COLING 2025

TriFine: A Large-Scale Dataset of Vision-Audio-Subtitle for Tri-Modal Machine Translation and Benchmark with Fine-Grained Annotated Tags COLING 2025

CmEAA: Cross-modal Enhancement and Alignment Adapter for Radiology Report Generation COLING 2025

Semantic Reshuffling with LLM and Heterogeneous Graph Auto-Encoder for Enhanced Rumor Detection COLING 2025

Multi-Modal Entities Matter: Benchmarking Multi-Modal Entity Alignment COLING 2025

From Traits to Empathy: Personality-Aware Multimodal Empathetic Response Generation COLING 2025

Integrating Visual Modalities with Large Language Models for Mental Health Support COLING 2025

OVEL: Online Video Entity Linking COLING 2025

Towards Multilingual spoken Visual Question Answering system using Cross-Attention COLING 2025

Generation-Based and Emotion-Reflected Memory Update: Creating the KEEM Dataset for Better Long-Term Conversation COLING 2025

CACA: Context-Aware Cross-Attention Network for Extractive Aspect Sentiment Quad Prediction COLING 2025