audio-visual learning

150 papers

Explore in graph

Also known as

AV AVL

Co-occurring keywords

multimodal learning (4622) self-supervised learning (3751) multi-modal learning (1276) contrastive learning (3979) video understanding (1647) cross-modal learning (521) representation learning (6174) sound source localization (47) multimodal fusion (294) action recognition (957)

Papers

Hyperbolic Audio-visual Zero-shot Learning ICCV 2023

Audio-Enhanced Text-to-Video Retrieval using Text-Conditioned Feature Alignment ICCV 2023

Class-Incremental Grouping Network for Continual Audio-Visual Learning ICCV 2023

LivelySpeaker: Towards Semantic-Aware Co-Speech Gesture Generation ICCV 2023

MixSpeech: Cross-Modality Self-Learning with Audio-Visual Stream Mixup for Visual Speech Translation and Recognition ICCV 2023

Sound Source Localization is All about Cross-Modal Alignment ICCV 2023

Audio-Visual Glance Network for Efficient Video Recognition ICCV 2023

Audio-Visual Contrastive Learning with Temporal Self-Supervision AAAI 2023

Audio-Visual Grouping Network for Sound Localization From Mixtures CVPR 2023

ImageBind: One Embedding Space To Bind Them All CVPR 2023

MAViL: Masked Audio-Video Learners NIPS 2023

Panoramic Video Salient Object Detection with Ambisonic Audio Guidance AAAI 2023

Towards Unified, Explainable, and Robust Multisensory Perception AAAI 2023

RealImpact: A Dataset of Impact Sound Fields for Real Objects CVPR 2023

Diff-Foley: Synchronized Video-to-Audio Synthesis with Latent Diffusion Models NIPS 2023

Unsupervised Audio-Visual Lecture Segmentation WACV 2023

Complementary Cues From Audio Help Combat Noise in Weakly-Supervised Object Detection WACV 2023

Audio-Visual Generalised Zero-Shot Learning With Cross-Modal Attention and Language CVPR 2022

Audio-Visual Scene Classification Based on Multi-modal Graph Fusion INTERSPEECH 2022

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning NIPS 2022

How to Listen? Rethinking Visual Sound Localization INTERSPEECH 2022

Few-Shot Audio-Visual Learning of Environment Acoustics NIPS 2022

SepFusion: Finding Optimal Fusion Structures for Visual Sound Separation AAAI 2022

Active Contrastive Set Mining for Robust Audio-Visual Instance Discrimination IJCAI 2022

Domain Generalization Through Audio-Visual Relative Norm Alignment in First Person Action Recognition WACV 2022