audio-visual learning

150 papers

Explore in graph

Also known as

AV AVL

Co-occurring keywords

multimodal learning (4622) self-supervised learning (3751) multi-modal learning (1276) contrastive learning (3979) video understanding (1647) cross-modal learning (521) representation learning (6174) sound source localization (47) multimodal fusion (294) action recognition (957)

Papers

Self-Supervised Object Detection From Audio-Visual Correspondence CVPR 2022

Towards Effective Multi-Modal Interchanges in Zero-Resource Sounding Object Localization NIPS 2022

Learning State-Aware Visual Representations from Audible Interactions NIPS 2022

Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual Imitation Learning RSS 2022

Mix and Localize: Localizing Sound Sources in Mixtures CVPR 2022

Audio-Adaptive Activity Recognition Across Video Domains CVPR 2022

Expressive Talking Head Generation With Granular Audio-Visual Control CVPR 2022

PoseKernelLifter: Metric Lifting of 3D Human Pose Using Sound CVPR 2022

Distinguishing Homophenes Using Multi-Head Visual-Audio Memory for Lip Reading AAAI 2022

Less Can Be More: Sound Source Localization With a Classification Model WACV 2022

Balanced Multimodal Learning via On-the-Fly Gradient Modulation CVPR 2022

TVLT: Textless Vision-Language Transformer NIPS 2022

Visually Guided Sound Source Separation and Localization Using Self-Supervised Motion Representations WACV 2022

Noise-Tolerant Self-Supervised Learning for Audio-Visual Voice Activity Detection INTERSPEECH 2021

Cyclic Co-Learning of Sounding Object Visual Grounding and Sound Separation CVPR 2021

LiRA: Learning Visual Speech Representations from Audio Through Self-Supervision INTERSPEECH 2021

Binaural Audio-Visual Localization AAAI 2021

Cascaded Multilingual Audio-Visual Learning from Videos INTERSPEECH 2021

Audio-Visual Recognition of Emotional Engagement of People with Dementia INTERSPEECH 2021

Visually Informed Binaural Audio Generation without Binaural Audios CVPR 2021

GLAVNet: Global-Local Audio-Visual Cues for Fine-Grained Material Recognition CVPR 2021

Audio-Visual Instance Discrimination with Cross-Modal Agreement CVPR 2021

Robust Audio-Visual Instance Discrimination CVPR 2021

There Is More Than Meets the Eye: Self-Supervised Multi-Object Detection and Tracking With Sound by Distilling Multimodal Knowledge CVPR 2021

Structure from Silence: Learning Scene Structure from Ambient Sound CORL 2021