conftrace_

multimodal learning

4622 papers

Explore in graph

Co-occurring keywords

large language model (12755) vision-language model (2235) visual question answering (1000) video understanding (1647) multi-modal learning (1276) contrastive learning (3979) representation learning (6174) transfer learning (5442) zero-shot learning (3637) vision language model (752)

Papers

A Multimodal Framework for Aphasia Severity Classification in Russian EACL 2026

IdiomRanker-X at MWE-2026 AdMIRe 2: Multilingual Idiom-Image Alignment via Low-Rank Adaptation of Cross-Encoders EACL 2026

VisAffect at MWE-2026 AdMIRe 2: IMMCAN Idiom Multimodal Cross-Attention Network EACL 2026

Enhancing Multimodal Misinformation Detection by Replaying the Whole Story from Image Modality Perspective AAAI 2026

MUSE: Multimodal Uncertainty-Based Self-Driven Evolution for Robust Physiological-Signal–Based Driver Fatigue Detection AAAI 2026

PDE-Driven Spatiotemporal Generative Modeling for Multilead ECG Synthesis AAAI 2026

Stop Mixing Things Up! BISCUIT Teaches Vision-Language Models to Learn New Concepts from Images on the Spot AAAI 2026

Towards Unified Vision-Language Models with Incomplete Multi-Modal Inputs AAAI 2026

EVOKE: Efficient and High-Fidelity EEG-to-Video Reconstruction via Decoupling Implicit Neural Representation AAAI 2026

FANoise: Singular Value-Adaptive Noise Modulation for Robust Multimodal Representation Learning AAAI 2026

Points Meet Pixels: Bridging 2D Vision-Language Model and 3D Perception Gaps for Point Cloud Quality Assessment AAAI 2026

RL-U2Net: A Dual-Branch UNet with Reinforcement Learning-Assisted Multimodal Feature Fusion for Accurate 3D Whole-Heart Segmentation AAAI 2026

Learning Knowledge from Textual Descriptions for 3D Human Pose Estimation AAAI 2026

MCMoE: Completing Missing Modalities with Mixture of Experts for Incomplete Multimodal Action Quality Assessment AAAI 2026

RobusTor3D: Robust Multimodal 3D Object Detector for Autonomous Driving by Vision-Language Knowledge Blending AAAI 2026

ImageBindDC: Compressing Multi-modal Data with ImageBind-based Condensation AAAI 2026

TOP-RL: Task-Optimized Progressive Token Pruning with Reinforcement Learning for Vision Language Models AAAI 2026

Multi-Aspect Cross-modal Quantization for Generative Recommendation AAAI 2026

Sequence-Free for Compound Protein Interaction Prediction AAAI 2026

VLA-Adapter: An Effective Paradigm for Tiny-Scale Vision-Language-Action Model AAAI 2026

Collaborative Representation Learning for Alignment of Tactile, Language, and Vision Modalities AAAI 2026

Extracting Multimodal Learngene in CLIP: Unveiling the Multimodal Generalizable Knowledge AAAI 2026

When Top-ranked Recommendations Fail: Modeling Multi-Granular Negative Feedback for Explainable and Robust Video Recommendation AAAI 2026

Scaling-up Perceptual Video Quality Assessment AAAI 2026

S³-MSD: Large Vision-Language Model for Explainable and Generalizable Multi-modal Sarcasm Detection AAAI 2026