Artificial Intelligence › Core AI ›

Multimodal Learning

13057 directly classified papers

Papers per year

Papers

TouchFormer: A Robust Transformer-based Framework for Multimodal Material Perception AAAI 2026

PLUM-Net: Prototype-Induced Label Structuring for Disentangled Multimodal Representation Network AAAI 2026

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model AAAI 2026

Encode Geometric Diagram as Geo-Graph in Geometry Problem Solving AAAI 2026

Enhancing Medical Large Vision-Language Models via Alignment Distillation AAAI 2026

PROMISE: Prompt-Attentive Hierarchical Contrastive Learning for Robust Cross-Modal Representation with Missing Modalities AAAI 2026

Sample-specific Modality Diagnosis and Cross-modal Enhancement for Incomplete Multimodal Representations AAAI 2026

MoETTA: Test-Time Adaptation Under Mixed Distribution Shifts with MoE-LayerNorm AAAI 2026

Hierarchical Structure-Property Alignment for Data-Efficient Molecular Generation and Editing AAAI 2026

Reconcile Gradient Modulation for Harmony Multimodal Learning AAAI 2026

Gotta Hear Them All: Towards Sound Source Aware Audio Generation AAAI 2026

Lost in Time? A Meta-Learning Framework for Time-Shift-Tolerant Physiological Signal Transformation AAAI 2026

Hyper-Opinion Vagueness Quantification for Robust Multimodal Learning AAAI 2026

Feature Attribution for Human Sensing with Radio Signals AAAI 2026

Multi-View Differential Mixing and Graph-Guided Structural Region Selection for Cross-Modal Alignment AAAI 2026

Bridging Modalities via Progressive Re-alignment for Multimodal Test-Time Adaptation AAAI 2026

Shedding the Facades, Connecting the Domains: Detecting Shifting Multimodal Hate Video with Test-Time Adaptation AAAI 2026

RMAdapter: Reconstruction-based Multi-Modal Adapter for Vision-Language Models AAAI 2026

Cross Modal Fine-grained Alignment via Granularity-aware and Region-uncertain Modeling AAAI 2026

Neighbor-aware Instance Refining with Noisy Labels for Cross-Modal Retrieval AAAI 2026

Branch, or Layer? Zeroth-Order Optimization for Continual Learning of Vision-Language Models AAAI 2026

Uncertainty-Guided View-Strength-Aware Feature Utilization for Multi-View Classification AAAI 2026

Cross-Space Synergy: A Unified Framework for Multimodal Emotion Recognition in Conversation AAAI 2026

Robust Semi-paired Multimodal Learning for Cross-modal Retrieval AAAI 2026

CogStream: Context-guided Streaming Video Question Answering AAAI 2026