← Learning Types

Deep Learning › Learning Types ›

Multi-Modal Learning

3194 directly classified papers

Papers per year

Papers

Visual Perturbation for Text-Based Person Search AAAI 2025

MTGA: Multi-View Temporal Granularity Aligned Aggregation for Event-Based Lip-Reading AAAI 2025

Hierarchical Cross-Modal Alignment for Open-Vocabulary 3D Object Detection AAAI 2025

ContextualStory: Consistent Visual Storytelling with Spatially-Enhanced and Storyline Context AAAI 2025

Position-Aware Guided Point Cloud Completion with CLIP Model AAAI 2025

Low-Light Image Enhancement via Generative Perceptual Priors AAAI 2025

Dense Audio-Visual Event Localization Under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration AAAI 2025

In-context Prompt-augmented Micro-video Popularity Prediction AAAI 2025

BeFA: A General Behavior-driven Feature Adapter for Multimedia Recommendation AAAI 2025

Beyond Graph Convolution: Multimodal Recommendation with Topology-aware MLPs AAAI 2025

STD-PLM: Understanding Both Spatial and Temporal Properties of Spatial-Temporal Data with PLM AAAI 2025

Event2Tracking: Reconstructing Multi-Agent Soccer Trajectories Using Long-Term Multimodal Context AAAI 2025

STAIR: Manipulating Collaborative and Multimodal Information for E-Commerce Recommendation AAAI 2025

MEATRD: Multimodal Anomalous Tissue Region Detection Enhanced with Spatial Transcriptomics AAAI 2025

Multi-fingered Hand Grasps with Visuo-Tactile Fusion via Multi-Agent Deep Reinforcement Learning AAAI 2025

Unsupervised Audio-Visual Segmentation with Modality Alignment AAAI 2025

SpotDiff: Spatial Gene Expression Imputation Diffusion with Single-Cell RNA Sequencing Data Integration AAAI 2025

Few-Shot Audio-Visual Class-Incremental Learning with Temporal Prompting and Regularization AAAI 2025

Multimodal Fusion Using Multi-View Domains for Data Heterogeneity in Federated Learning AAAI 2025

Asymmetric Reinforcing Against Multi-Modal Representation Bias AAAI 2025

Structure-Adaptive Multi-View Graph Clustering for Remote Sensing Data AAAI 2025

A Wander Through the Multimodal Landscape: Efficient Transfer Learning via Low-rank Sequence Multimodal Adapter AAAI 2025

MARS: Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis AAAI 2025

R-DTI: Drug Target Interaction Prediction Based on Second-Order Relevance Exploration AAAI 2025

Defeasible Visual Entailment: Benchmark, Evaluator, and Reward-Driven Optimization AAAI 2025