Artificial Intelligence › Core AI ›

Multi-Modal Learning

1457 directly classified papers

Papers per year

Papers

One Model to Edit Them All: Free-Form Text-Driven Image Manipulation with Semantic Modulations NIPS 2022

Normalized Contrastive Learning for Text-Video Retrieval EMNLP 2022

When Can Transformers Ground and Compose: Insights from Compositional Generalization Benchmarks EMNLP 2022

Navigating Connected Memories with a Task-oriented Dialog System EMNLP 2022

LVP-M3: Language-aware Visual Prompt for Multilingual Multimodal Machine Translation EMNLP 2022

UniGeo: Unifying Geometry Logical Reasoning via Reformulating Mathematical Expression EMNLP 2022

Face-Sensitive Image-to-Emotional-Text Cross-modal Translation for Multimodal Aspect-based Sentiment Analysis EMNLP 2022

CPL: Counterfactual Prompt Learning for Vision and Language Models EMNLP 2022

MGDoc: Pre-training with Multi-granular Hierarchy for Document Image Understanding EMNLP 2022

Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement EMNLP 2022

T-Modules: Translation Modules for Zero-Shot Cross-Modal Machine Translation EMNLP 2022

Open-Domain Sign Language Translation Learned from Online Video EMNLP 2022

ULN: Towards Underspecified Vision-and-Language Navigation EMNLP 2022

Towards Unifying Reference Expression Generation and Comprehension EMNLP 2022

Learning Inter-Entity-Interaction for Few-Shot Knowledge Graph Completion EMNLP 2022

Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval EMNLP 2022

UniMSE: Towards Unified Multimodal Sentiment Analysis and Emotion Recognition EMNLP 2022

Rethinking Multi-Modal Alignment in Multi-Choice VideoQA from Feature and Sample Perspectives EMNLP 2022

ArtELingo: A Million Emotion Annotations of WikiArt with Emphasis on Diversity over Language and Culture EMNLP 2022

CISLR: Corpus for Indian Sign Language Recognition EMNLP 2022

Retrieval Augmented Visual Question Answering with Outside Knowledge EMNLP 2022

JDDC 2.1: A Multimodal Chinese Dialogue Dataset with Joint Tasks of Query Rewriting, Response Generation, Discourse Parsing, and Summarization EMNLP 2022

Multimodal Context Carryover EMNLP 2022

Utilizing Language-Image Pretraining for Efficient and Robust Bilingual Word Alignment EMNLP 2022

SMARTAVE: Structured Multimodal Transformer for Product Attribute Value Extraction EMNLP 2022