visual question answering

1000 papers

Explore in graph

Also known as

VQAI OK-VQA VQA VIDEOQA TEXTVQA IMAGEQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

Structured Co-reference Graph Attention for Video-grounded Dialogue AAAI 2021

Robust Visual Reasoning via Language Guided Neural Module Networks NIPS 2021

Linguistically Routing Capsule Network for Out-of-Distribution Visual Question Answering ICCV 2021

Weakly Supervised Relative Spatial Reasoning for Visual Question Answering ICCV 2021

X-Linear Attention Networks for Image Captioning CVPR 2020

Iterative Context-Aware Graph Inference for Visual Dialog CVPR 2020

Hierarchical Conditional Relation Networks for Video Question Answering CVPR 2020

Towards Knowledge-Augmented Visual Question Answering COLING 2020

Pragmatic Issue-Sensitive Image Captioning EMNLP 2020

Can Pre-training help VQA with Lexical Variations? EMNLP 2020

Modeling Intra and Inter-modality Incongruity for Multi-Modal Sarcasm Detection EMNLP 2020

Dialog without Dialog Data: Learning Visual Dialog Agents from VQA Data NIPS 2020

Unified Vision-Language Pre-Training for Image Captioning and VQA AAAI 2020

Overcoming Language Priors with Self-supervised Learning for Visual Question Answering IJCAI 2020

Dynamic Language Binding in Relational Visual Reasoning IJCAI 2020

In Defense of Grid Features for Visual Question Answering CVPR 2020

TA-Student VQA: Multi-Agents Training by Self-Questioning CVPR 2020

Assessing Image Quality Issues for Real-World Problems CVPR 2020

Aligned Dual Channel Graph Convolutional Network for Visual Question Answering ACL 2020

Multimodal Neural Graph Memory Networks for Visual Question Answering ACL 2020

Exploring Weaknesses of VQA Models through Attribution Driven Insights ACL 2020

Does my multimodal model learn cross-modal interactions? It’s harder to tell than you might think! EMNLP 2020

MUTANT: A Training Paradigm for Out-of-Distribution Generalization in Visual Question Answering EMNLP 2020

Neuro-Symbolic Visual Reasoning: Disentangling "Visual" from "Reasoning" ICML 2020

Multi-Modal Graph Neural Network for Joint Reasoning on Vision and Scene Text CVPR 2020