conftrace_

multimodal learning

4645 papers

Explore in graph

Co-occurring keywords

large language model (13587) vision-language model (2348) visual question answering (1017) video understanding (1658) multi-modal learning (1278) contrastive learning (4032) representation learning (6206) transfer learning (5449) zero-shot learning (3650) vision language model (767)

Papers

Seeing With Sound: Long-range Acoustic Beamforming for Multimodal Scene Understanding CVPR 2023

OSAN: A One-Stage Alignment Network To Unify Multimodal Alignment and Unsupervised Domain Adaptation CVPR 2023

Learning Event Guided High Dynamic Range Video Reconstruction CVPR 2023

SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation CVPR 2023

Best of Both Worlds: Multimodal Contrastive Learning With Tabular and Imaging Data CVPR 2023

Doubly Right Object Recognition: A Why Prompt for Visual Rationales CVPR 2023

HypLiLoc: Towards Effective LiDAR Pose Regression With Hyperbolic Fusion CVPR 2023

Tell Me What Happened: Unifying Text-Guided Video Completion via Multimodal Masked Video Generation CVPR 2023

MAGVLT: Masked Generative Vision-and-Language Transformer CVPR 2023

Egocentric Audio-Visual Object Localization CVPR 2023

Egocentric Auditory Attention Localization in Conversations CVPR 2023

CLIPPO: Image-and-Language Understanding From Pixels Only CVPR 2023

Seeing What You Miss: Vision-Language Pre-Training With Semantic Completion Learning CVPR 2023

Multimodal Industrial Anomaly Detection via Hybrid Fusion CVPR 2023

VQACL: A Novel Visual Question Answering Continual Learning Setting CVPR 2023

All in One: Exploring Unified Video-Language Pre-Training CVPR 2023

LAVENDER: Unifying Video-Language Understanding As Masked Language Modeling CVPR 2023

Towards Fast Adaptation of Pretrained Contrastive Models for Multi-Channel Video-Language Retrieval CVPR 2023

CNVid-3.5M: Build, Filter, and Pre-Train the Large-Scale Public Chinese Video-Text Dataset CVPR 2023

How You Feelin'? Learning Emotions and Mental States in Movie Scenes CVPR 2023

Is BERT Blind? Exploring the Effect of Vision-and-Language Pretraining on Visual Language Understanding CVPR 2023

Language Adaptive Weight Generation for Multi-Task Visual Grounding CVPR 2023

REVEAL: Retrieval-Augmented Visual-Language Pre-Training With Multi-Source Multimodal Knowledge Memory CVPR 2023

Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline CVPR 2023

Language-Guided Music Recommendation for Video via Prompt Analogies CVPR 2023