conftrace_

Artificial Intelligence › Core AI ›

Multimodal Learning

13,057 papers

Papers per year

Papers

Multimodal Aspect-Based Sentiment Analysis under Conditional Relation COLING 2025

Ambiguity-aware Multi-level Incongruity Fusion Network for Multi-Modal Sarcasm Detection COLING 2025

XFormParser: A Simple and Effective Multimodal Multilingual Semi-structured Form Parser COLING 2025

Enhancing multi-modal Relation Extraction with Reinforcement Learning Guided Graph Diffusion Framework COLING 2025

Read Before Grounding: Scene Knowledge Visual Grounding via Multi-step Parsing COLING 2025

T-MES: Trait-Aware Mix-of-Experts Representation Learning for Multi-trait Essay Scoring COLING 2025

A Graph Interaction Framework on Relevance for Multimodal Named Entity Recognition with Multiple Images COLING 2025

A Compressive Memory-based Retrieval Approach for Event Argument Extraction COLING 2025

ITERATE: Image-Text Enhancement, Retrieval, and Alignment for Transmodal Evolution with LLMs COLING 2025

CAST: Cross-modal Alignment Similarity Test for Vision Language Models COLING 2025

Exploring Unified Training Framework for Multimodal User Profiling COLING 2025

Multi-View Incongruity Learning for Multimodal Sarcasm Detection COLING 2025

Bridging Modality Gap for Effective Multimodal Sentiment Analysis in Fashion-related Social Media COLING 2025

MLLM-I2W: Harnessing Multimodal Large Language Model for Zero-Shot Composed Image Retrieval COLING 2025

Does Vision Accelerate Hierarchical Generalization in Neural Language Learners? COLING 2025

DialogueMMT: Dialogue Scenes Understanding Enhanced Multi-modal Multi-task Tuning for Emotion Recognition in Conversations COLING 2025

Leveraging Language Models for Summarizing Mental State Examinations: A Comprehensive Evaluation and Dataset Release COLING 2025

CMMaTH: A Chinese Multi-modal Math Skill Evaluation Benchmark for Foundation Models COLING 2025

t-HNE: A Text-guided Hierarchical Noise Eliminator for Multimodal Sentiment Analysis COLING 2025

Scaffolding Coordinates to Promote Vision-Language Coordination in Large Multi-Modal Models COLING 2025

Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models COLING 2025

Improvement in Sign Language Translation Using Text CTC Alignment COLING 2025

AHVE-CNER: Aligned Hanzi Visual Encoding Enhance Chinese Named Entity Recognition with Multi-Information COLING 2025

You Only Query Twice: Multimodal Rumor Detection via Evidential Evaluation from Dual Perspectives COLING 2025

Context-Informed Machine Translation of Manga using Multimodal Large Language Models COLING 2025