audio-visual learning

150 papers

Explore in graph

Also known as

AV AVL

Co-occurring keywords

multimodal learning (4622) self-supervised learning (3751) multi-modal learning (1276) contrastive learning (3979) video understanding (1647) cross-modal learning (521) representation learning (6174) sound source localization (47) multimodal fusion (294) action recognition (957)

Papers

LASER: Lip Landmark Assisted Speaker Detection for Robustness WACV 2026

MPJudge: Towards Perceptual Assessment of Music-Induced Paintings AAAI 2026

GateFusion: Hierarchical Gated Cross-Modal Fusion for Active Speaker Detection WACV 2026

Crab: A Unified Audio-Visual Scene Understanding Model with Explicit Cooperation CVPR 2025

Dense Audio-Visual Event Localization Under Cross-Modal Consistency and Multi-Temporal Granularity Collaboration AAAI 2025

TSAM: Temporal SAM Augmented with Multimodal Prompts for Referring Audio-Visual Segmentation CVPR 2025

Audio-visual Controlled Video Diffusion with Masked Selective State Spaces Modeling for Natural Talking Head Generation ICCV 2025

Revisiting Audio-Visual Segmentation with Vision-Centric Transformer CVPR 2025

CAV-MAE Sync: Improving Contrastive Audio-Visual Mask Autoencoders via Fine-Grained Alignment CVPR 2025

AURELIA: Test-time Reasoning Distillation in Audio-Visual LLMs ICCV 2025

Supervising Sound Localization by In-the-wild Egomotion CVPR 2025

JoVALE: Detecting Human Actions in Video Using Audiovisual and Language Contexts AAAI 2025

Intra-modal and Cross-modal Synchronization for Audio-visual Deepfake Detection and Temporal Localization ICCV 2025

Multi-modal Deepfake Detection via Multi-task Audio-Visual Prompt Learning AAAI 2025

MoEE: Mixture of Emotion Experts for Audio-Driven Portrait Animation CVPR 2025

Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning AAAI 2025

Language-Guided Audio-Visual Learning for Long-Term Sports Assessment CVPR 2025

Learning to Highlight Audio by Watching Movies CVPR 2025

Progressive Homeostatic and Plastic Prompt Tuning for Audio-Visual Multi-Task Incremental Learning ICCV 2025

Audio-centric Video Understanding Benchmark without Text Shortcut EMNLP 2025

Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D EMNLP 2025

p-AVAS: Can Physics-Integrated Audio-Visual Modeling Boost Neural Acoustic Synthesis? ICCV 2025

Few-Shot Audio-Visual Class-Incremental Learning with Temporal Prompting and Regularization AAAI 2025

VGGSounder: Audio-Visual Evaluations for Foundation Models ICCV 2025

SoundBrush: Sound as a Brush for Visual Scene Editing AAAI 2025