Artificial Intelligence › Core AI ›

Multimodal Learning

13057 directly classified papers

Papers per year

Papers

Structures Meet Semantics: Multimodal Fusion via Graph Contrastive Learning AAAI 2026

Boomda: Balanced Multi-objective Optimization for Multimodal Domain Adaptation AAAI 2026

T3former: Temporal Graph Classification with Topological Machine Learning AAAI 2026

FeTS: A Feature-Aware Framework for Time Series Forecasting AAAI 2026

Modality-Balanced Collaborative Distillation for Multi-Modal Domain Generalization AAAI 2026

SMART: A Surrogate Model for Predicting Application Runtime in Dragonfly Systems AAAI 2026

Multimodal Mixture-of-Experts with Retrieval Augmentation for Protein Active Site Identification AAAI 2026

Federated CLIP for Resource-Efficient Heterogeneous Medical Image Classification AAAI 2026

MTP: Exploring Multimodal Urban Traffic Profiling with Modality Augmentation and Spectrum Fusion AAAI 2026

FAM: Fine-Grained Alignment Matters in Multimodal Embedding Learning with Large Vision-Language Models AAAI 2026

MULTIBENCH++: A Unified and Comprehensive Multimodal Fusion Benchmarking Across Specialized Domains AAAI 2026

Bridging the Modality Reliability Gap in Drug-Target Interaction Prediction via a Confidence-aware Multimodal Fusion Framework AAAI 2026

Yours or Mine? Overwriting Attacks Against Neural Audio Watermarking AAAI 2026

Leveraging Failed Samples: A Few-Shot and Training-Free Framework for Generalized Deepfake Detection AAAI 2026

Semantic-Augmented Image Clustering via Adaptive Multi-Modal Collaboration AAAI 2026

ITPP: Learning Disentangled Event Dynamics in Marked Temporal Point Processes AAAI 2026

Interest-driven Deep Multi-modal Clustering AAAI 2026

GUI-Eyes: Tool-Augmented Perception for Visual Grounding in GUI Agents AAAI 2026

ParaMETA: Towards Learning Disentangled Paralinguistic Speaking Styles Representations from Speech AAAI 2026

Trainable EEG Interpolation and Structure-Sharing Dual-Path Encoders for Brain-Assisted Target Speaker Extraction AAAI 2026

RPTS: Tree-Structured Reasoning Process Scoring for Faithful Multimodal Evaluation AAAI 2026

Enhancing Stability and Fidelity for Zero-Shot TTS with a Multi-Level Evaluator AAAI 2026

Activation Manipulation Attack: Penetrating and Harmful Jailbreak Attack Against Large Vision-Language Models AAAI 2026

SAVER: Mitigating Hallucinations in Large Vision-Language Models via Style-Aware Visual Early Revision AAAI 2026

GazeInterpreter: Parsing Eye Gaze to Generate Eye-Body-Coordinated Narrations AAAI 2026