conftrace_

multimodal learning

4622 papers

Explore in graph

Also known as

VLM VLLM MM VLA MLLMS MLM MML MULLM LMM MLLM MMT

Co-occurring keywords

large language model (12755) vision-language model (2235) visual question answering (1000) video understanding (1647) multi-modal learning (1276) contrastive learning (3979) representation learning (6174) transfer learning (5442) zero-shot learning (3637) vision language model (752)

Papers

Dense-Localizing Audio-Visual Events in Untrimmed Videos: A Large-Scale Benchmark and Baseline CVPR 2023

Language-Guided Music Recommendation for Video via Prompt Analogies CVPR 2023

Clover: Towards a Unified Video-Language Alignment and Fusion Model CVPR 2023

Natural Language-Assisted Sign Language Recognition CVPR 2023

Unifying Vision, Text, and Layout for Universal Document Processing CVPR 2023

Watch or Listen: Robust Audio-Visual Speech Recognition With Visual Corruption Modeling and Reliability Scoring CVPR 2023

Novel-View Acoustic Synthesis CVPR 2023

Vid2Seq: Large-Scale Pretraining of a Visual Language Model for Dense Video Captioning CVPR 2023

FashionSAP: Symbols and Attributes Prompt for Fine-Grained Fashion Vision-Language Pre-Training CVPR 2023

PaLM-E: An Embodied Multimodal Language Model ICML 2023

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models ICML 2023

Sequential Multi-Dimensional Self-Supervised Learning for Clinical Time Series ICML 2023

Improving Medical Predictions by Irregular Multimodal Electronic Health Records Modeling ICML 2023

GPL at SemEval-2023 Task 1: WordNet and CLIP to Disambiguate Images SEMEVAL 2023

RCLN at SemEval-2023 Task 1: Leveraging Stable Diffusion and Image Captions for Visual WSD SEMEVAL 2023

ODA_SRIB at SemEval-2023 Task 9: A Multimodal Approach for Improved Intimacy Analysis SEMEVAL 2023

Multimodal Event Transformer for Image-guided Story Ending Generation EACL 2023

KGVL-BART: Knowledge Graph Augmented Visual Language BART for Radiology Report Generation EACL 2023

Retrieval-augmented Image Captioning EACL 2023

Fighting FIRe with FIRE: Assessing the Validity of Text-to-Video Retrieval Benchmarks EACL 2023

CK-Transformer: Commonsense Knowledge Enhanced Transformers for Referring Expression Comprehension EACL 2023

Knowledge Acquisition for Human-In-The-Loop Image Captioning AISTATS 2023

Cross-Modal Semantic Enhanced Interaction for Image-Sentence Retrieval WACV 2023

Audio-Visual Glance Network for Efficient Video Recognition ICCV 2023

Implicit Temporal Modeling with Learnable Alignment for Video Recognition ICCV 2023