multimodal learning

4622 papers

Explore in graph

Also known as

VLM VLLM MM VLA MLLMS MLM MML MULLM LMM MLLM MMT

Co-occurring keywords

large language model (12755) vision-language model (2235) visual question answering (1000) video understanding (1647) multi-modal learning (1276) contrastive learning (3979) representation learning (6174) transfer learning (5442) zero-shot learning (3637) vision language model (752)

Papers

UniTranSeR: A Unified Transformer Semantic Representation Framework for Multimodal Task-Oriented Dialog System ACL 2022

Lexi: Self-Supervised Learning of the UI Language EMNLP 2022

Detecting Euphemisms with Literal Descriptions and Visual Imagery EMNLP 2022

Sound2Synth: Interpreting Sound via FM Synthesizer Parameters Estimation IJCAI 2022

Advancing High-Resolution Video-Language Representation With Large-Scale Video Transcriptions CVPR 2022

Multimodal Token Fusion for Vision Transformers CVPR 2022

Text to Image Generation With Semantic-Spatial Aware GAN CVPR 2022

UTC: A Unified Transformer With Inter-Task Contrastive Learning for Visual Dialog CVPR 2022

Voxel-informed Language Grounding ACL 2022

Grounding Answers for Visual Questions Asked by Visually Impaired People CVPR 2022

Can Pretrained Language Models Generate Persuasive, Faithful, and Informative Ad Text for Product Descriptions? ACL 2022

Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models AAAI 2022

Visual Definition Modeling: Challenging Vision & Language Models to Define Words and Objects AAAI 2022

Tencent-MVSE: A Large-Scale Benchmark Dataset for Multi-Modal Video Similarity Evaluation CVPR 2022

DIFNet: Boosting Visual Information Flow for Image Captioning CVPR 2022

3DJCG: A Unified Framework for Joint Dense Captioning and Visual Grounding on 3D Point Clouds CVPR 2022

End-to-End Generative Pretraining for Multimodal Video Captioning CVPR 2022

ZeroCap: Zero-Shot Image-to-Text Generation for Visual-Semantic Arithmetic CVPR 2022

TRIPS: Efficient Vision-and-Language Pre-training with Text-Relevant Image Patch Selection EMNLP 2022

Open-Domain Sign Language Translation Learned from Online Video EMNLP 2022

LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation EMNLP 2022

Action-Aware Embedding Enhancement for Image-Text Retrieval AAAI 2022

Self-Supervised Audio-and-Text Pre-training with Extremely Low-Resource Parallel Data AAAI 2022

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding AAAI 2022

Knowledge-Enhanced Scene Graph Generation with Multimodal Relation Alignment (Student Abstract) AAAI 2022