Artificial Intelligence › Core AI ›

Multimodal Learning

13057 directly classified papers

Papers per year

Papers

Can MLLMs Find Their Way in a City? Exploring Emergent Navigation from Web-Scale Knowledge EACL 2026

Surprisal from Larger Transformer-based Language Models Predicts fMRI Data More Poorly EACL 2026

Exploring Cross-Lingual Voice Conversion Methods for Anonymizing Low-Resource Text-to-Speech EACL 2026

Language Family Matters: Evaluating SpeechLLMs Across Linguistic Boundaries EACL 2026

On the Additive Compositionality of Task Vectors in Vision–Language Models EACL 2026

FiMMIA: scaling semantic perturbation-based membership inference across modalities EACL 2026

A Browser-based Open Source Assistant for Multimodal Content Verification EACL 2026

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision–Language Models EACL 2026

Compact Multimodal Language Models as Robust OCR Alternatives for Noisy Textual Clinical Reports EACL 2026

A Compliance-Preserving Retrieval System for Aircraft MRO Task Search EACL 2026

OCR or Not? Rethinking Document Information Extraction in the MLLMs Era with Real-World Large-Scale Datasets EACL 2026

PROBES : Performance and Relevance Observation for BEtter Search EACL 2026

Aligning Paralinguistic Understanding and Generation in Speech LLMs via Multi-Task Reinforcement Learning EACL 2026

Encoding and Decoding Language in the Brain with Language Models EACL 2026

Multimodal Large Language Models for Human-AI Interaction: Foundations, Agents, and Inclusive Applications EACL 2026

SpatialMath: Spatial Comprehension-Infused Symbolic Reasoning for Mathematical Problem-Solving EACL 2026

MAPS: A Multilingual Benchmark for Agent Performance and Security EACL 2026

Bias in the Ear of the Listener: Assessing Sensitivity in Audio Language Models Across Linguistic, Demographic, and Positional Variations EACL 2026

SCAN: Semantic Document Layout Analysis for Textual and Visual Retrieval-Augmented Generation EACL 2026

The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning EACL 2026

Revealing the Truth with ConLLM for Detecting Multi-Modal Deepfakes EACL 2026

The Correlation Between Emotion in Text and Speech Segments is Limited: A Cross-Modal Study EACL 2026

Are Multimodal LLMs Movie Buffs? EACL 2026

Unlocking Large Audio-Language Models for Interactive Language Learning EACL 2026

TraveLLaMA: A Multimodal Travel Assistant with Large-Scale Dataset and Structured Reasoning AAAI 2026