conftrace_

multimodal learning

4645 papers

Explore in graph

Co-occurring keywords

large language model (13587) vision-language model (2348) visual question answering (1017) video understanding (1658) multi-modal learning (1278) contrastive learning (4032) representation learning (6206) transfer learning (5449) zero-shot learning (3650) vision language model (767)

Papers

Bridging Search Region Interaction With Template for RGB-T Tracking CVPR 2023

Make-a-Story: Visual Memory Conditioned Consistent Story Generation CVPR 2023

NUWA-LIP: Language-Guided Image Inpainting With Defect-Free VQGAN CVPR 2023

Multivariate, Multi-Frequency and Multimodal: Rethinking Graph Neural Networks for Emotion Recognition in Conversation CVPR 2023

Are Deep Neural Networks SMARTer Than Second Graders? CVPR 2023

ASPnet: Action Segmentation With Shared-Private Representation of Multiple Data Sources CVPR 2023

Non-Contrastive Learning Meets Language-Image Pre-Training CVPR 2023

PMR: Prototypical Modal Rebalance for Multimodal Learning CVPR 2023

Noisy Correspondence Learning With Meta Similarity Correction CVPR 2023

Enhanced Multimodal Representation Learning With Cross-Modal KD CVPR 2023

Learning Emotion Representations From Verbal and Nonverbal Communication CVPR 2023

From Images to Textual Prompts: Zero-Shot Visual Question Answering With Frozen Large Language Models CVPR 2023

Cross-Modal Implicit Relation Reasoning and Aligning for Text-to-Image Person Retrieval CVPR 2023

MAP: Multimodal Uncertainty-Aware Vision-Language Pre-Training Model CVPR 2023

CASP-Net: Rethinking Video Saliency Prediction From an Audio-Visual Consistency Perceptual Perspective CVPR 2023

Hierarchical Video-Moment Retrieval and Step-Captioning CVPR 2023

DIP: Dual Incongruity Perceiving Network for Sarcasm Detection CVPR 2023

Discovering the Real Association: Multimodal Causal Reasoning in Video Question Answering CVPR 2023

Connecting Vision and Language With Video Localized Narratives CVPR 2023

AVFace: Towards Detailed Audio-Visual 4D Face Reconstruction CVPR 2023

Disentangled Counterfactual Learning for Physical Audiovisual Commonsense Reasoning NIPS 2023

VPGTrans: Transfer Visual Prompt Generator across LLMs NIPS 2023

VisIT-Bench: A Dynamic Benchmark for Evaluating Instruction-Following Vision-and-Language Models NIPS 2023

Quantifying & Modeling Multimodal Interactions: An Information Decomposition Framework NIPS 2023

LOVM: Language-Only Vision Model Selection NIPS 2023