Artificial Intelligence › Core AI ›

Multimodal Learning

13057 directly classified papers

Papers per year

Papers

Value-Aligned Prompt Moderation via Zero-Shot Agentic Rewriting for Safe Image Generation AAAI 2026

On the Feasibility of Using MultiModal LLMs to Execute AR Social Engineering Attacks AAAI 2026

TRACE: Textual Relevance Augmentation and Contextual Encoding for Multimodal Hate Detection AAAI 2026

CyPortQA: Benchmarking Multimodal Large Language Models for Cyclone Preparedness in Port Operation AAAI 2026

Navigation and Interaction for Blind Users via a Cognitive Architecture AAAI 2026

OIDA-QA: A Multimodal Benchmark for Analyzing the Opioid Industry Documents Archive AAAI 2026

Layout-Aware Document Parsing with Visual-Linguistic Fusion: The DATA-LUX with Academic Content Service Provider AAAI 2026

GAICo: A Deployed and Extensible Framework for Evaluating Diverse and Multimodal Generative AI Outputs AAAI 2026

Multimodal Tabular Data Learning AAAI 2026

AniTales: End-to-End Multimodal Story Generation Through Natural Language Prompting (Student Abstract) AAAI 2026

Can Large Language Models Grasp 3D Medical Anatomy Shapes? (Student Abstract) AAAI 2026

BRI-MH: Behavioral Risk Index for Mental Health — An Interpretable Multimodal LLM-Augmented Framework (Student Abstract) AAAI 2026

SmartEyes: Plug-and-Play Event Detection for Retail Loss Prevention AAAI 2026

Docora: A System for Interactive Knowledge Extraction and Visualization from Scientific PDFs AAAI 2026

SafeLens: Segment-Level Hate Speech Detection in Online Videos AAAI 2026

Magnol.AI Copilot: Multimodal LLMs for Conversational Insight Generation AAAI 2026

AURORA: Augmented Understanding via Structured Reasoning and Reinforcement Learning for Reference Audio-Visual Segmentation AAAI 2026

Where and What Matters: Sensitivity-Aware Task Vectors for Many-Shot Multimodal In-Context Learning AAAI 2026

Intention-Guided Cognitive Reasoning for Egocentric Long-Term Action Anticipation AAAI 2026

ESCA: An Emotional Support Conversation Agent for Enhancing Reasonable Strategy Planning and Effective Expression AAAI 2026

Grounding Actions in Camera Space: Observation-Centric Vision-Language-Action Policy AAAI 2026

Multi-agent In-context Coordination via Decentralized Memory Retrieval AAAI 2026

DenseBEV: Transforming BEV Grid Cells into 3D Objects WACV 2026

CLIP-IT: CLIP-based Pairing of Histology Images with Privileged Textual Information WACV 2026

Neural Graph Navigation for Intelligent Subgraph Matching AAAI 2026