conftrace_

visual question answering

1000 papers

Explore in graph

Also known as

VQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA CVPR 2020

Unsupervised Keyword Extraction for Full-Sentence VQA EMNLP 2020

MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering EMNLP 2020

12-in-1: Multi-Task Vision and Language Representation Learning CVPR 2020

Learning to Contrast the Counterfactual Samples for Robust Visual Question Answering EMNLP 2020

They Are Not All Alike: Answering Different Spatial Questions Requires Different Grounding Strategies EMNLP 2020

CapWAP: Image Captioning with a Purpose EMNLP 2020

ISAAQ - Mastering Textbook Questions with Pre-trained Transformers and Bottom-Up and Top-Down Attention EMNLP 2020

Hypergraph Attention Networks for Multimodal Learning CVPR 2020

STL-CQA: Structure-based Transformers with Localization and Encoding for Chart Question Answering EMNLP 2020

VQA With No Questions-Answers Training CVPR 2020

SQuINTing at VQA Models: Introspecting VQA Models With Sub-Questions CVPR 2020

Revisiting Bilinear Pooling: A Coding Perspective AAAI 2020

Deep Generative Probabilistic Graph Neural Networks for Scene Graph Generation AAAI 2020

Towards Causal VQA: Revealing and Reducing Spurious Correlations by Invariant and Covariant Semantic Editing CVPR 2020

On the General Value of Evidence, and Bilingual Scene-Text Visual Question Answering CVPR 2020

X-LXMERT: Paint, Caption and Answer Questions with Multi-Modal Transformers EMNLP 2020

Leveraging Visual Question Answering to Improve Text-to-Image Synthesis COLING 2020

Multi-Question Learning for Visual Question Answering AAAI 2020

Federated Learning for Vision-and-Language Grounding Problems AAAI 2020

Reasoning Over History: Context Aware Visual Dialog EMNLP 2020

Visuo-Linguistic Question Answering (VLQA) Challenge EMNLP 2020

Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs EMNLP 2020

ConceptBert: Concept-Aware Representation for Visual Question Answering EMNLP 2020

Open-Ended Visual Question Answering by Multi-Modal Domain Adaptation EMNLP 2020