Artificial Intelligence › Core AI ›

Multimodal Learning

13057 directly classified papers

Papers per year

Papers

FAMDR: Feature-Aligned Multimodal Denoising for Reliable Diagnostic Reconciliation in Medical Imaging AAAI 2026

Spatial-Spectral Homogeneous Attacks on Physical-World Large Vision-Language Models AAAI 2026

Accelerating Controllable Generation via Hybrid-grained Cache AAAI 2026

Taming the Phantom: Token-Asymmetric Filtering for Hallucination Mitigation in Large Vision-Language Models AAAI 2026

Image-Text Knowledge Modeling for Unsupervised Multi-Scenario Person Re-Identification AAAI 2026

Unified Mixture-of-Experts Framework for Joint Cardiac and Vascular Ultrasound Analysis and Report Generation AAAI 2026

Game Ground Bench: Probing the Limits of LVLMs in Complex Semantic Grounding Across Game Universes AAAI 2026

RL-U2Net: A Dual-Branch UNet with Reinforcement Learning-Assisted Multimodal Feature Fusion for Accurate 3D Whole-Heart Segmentation AAAI 2026

PromptMoE: Generalizable Zero-Shot Anomaly Detection via Visually-Guided Prompt Mixtures AAAI 2026

UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception AAAI 2026

Not All Tokens and Heads Are Equally Important: Dual-Level Attention Intervention for Hallucination Mitigation AAAI 2026

Noisy Correspondence Learning with Modality Gap Direction Correction AAAI 2026

Radar-APLANC: Unsupervised Radar-based Heartbeat Sensing via Augmented Pseudo-Label and Noise Contrast AAAI 2026

Learning Knowledge from Textual Descriptions for 3D Human Pose Estimation AAAI 2026

Not Just What’s There: Enabling CLIP to Comprehend Negated Visual Descriptions Without Fine-Tuning AAAI 2026

NeuSpring: Neural Spring Fields for Reconstruction and Simulation of Deformable Objects from Videos AAAI 2026

STMI: Segmentation-Guided Token Modulation with Cross-Modal Hypergraph Interaction for Multi-Modal Object Re-Identification AAAI 2026

RobusTor3D: Robust Multimodal 3D Object Detector for Autonomous Driving by Vision-Language Knowledge Blending AAAI 2026

Endowing Vision-Language Models with System 2 Thinking for Fine-grained Visual Recognition AAAI 2026

CMMCoT: Enhancing Complex Multi-Image Comprehension via Multi-Modal Chain-of-Thought and Memory Augmentation AAAI 2026

Frequency-Aware Vision-Language Multimodality Generalization Network for Remote Sensing Image Classification AAAI 2026

What You See Is What You Reach: Towards Spatial Navigation with High-Level Human Instructions AAAI 2026

Dual-Path Knowledge-Augmented Contrastive Alignment Network for Spatially Resolved Transcriptomics AAAI 2026

KineST: A Kinematics-guided Spatiotemporal State Space Model for Human Motion Tracking from Sparse Signals AAAI 2026

PEOCH: Online Cross-Modal Hashing with Semi-Supervised Streaming Data Driving Prototype Evolution AAAI 2026