conftrace_

visual question answering

1000 papers

Explore in graph

Also known as

VQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

Vx2Text: End-to-End Learning of Video-Based Text Generation From Multimodal Inputs CVPR 2021

‘Just because you are right, doesn’t mean I am wrong’: Overcoming a bottleneck in development and evaluation of Open-Ended VQA tasks EACL 2021

Global Fusion Attention for Vision and Language Understanding (Student Abstract) AAAI 2021

Weakly-Supervised Visual-Retriever-Reader for Knowledge-based Question Answering EMNLP 2021

AdaVQA: Overcoming Language Priors with Adapted Margin Cosine Loss IJCAI 2021

VisualMRC: Machine Reading Comprehension on Document Images AAAI 2021

An Empirical Study on the Generalization Power of Neural Representations Learned via Visual Guessing Games EACL 2021

Perceptual Score: What Data Modalities Does Your Model Perceive? NIPS 2021

MQA: Answering the Question via Robotic Manipulation RSS 2021

Non-Autoregressive Coarse-to-Fine Video Captioning AAAI 2021

Supervising the Transfer of Reasoning Patterns in VQA NIPS 2021

Towards Visual Question Answering on Pathology Images ACL 2021

Attend What You Need: Motion-Appearance Synergistic Networks for Video Question Answering ACL 2021

Debiased Visual Question Answering from Feature and Sample Perspectives NIPS 2021

QACE: Asking Questions to Evaluate an Image Caption EMNLP 2021

How Modular should Neural Module Networks Be for Systematic Generalization? NIPS 2021

Check It Again:Progressive Visual Question Answering via Visual Entailment IJCNLP 2021

Towards Visual Question Answering on Pathology Images IJCNLP 2021

Are VQA Systems RAD? Measuring Robustness to Augmented Data with Focused Interventions IJCNLP 2021

Self Supervision for Attention Networks WACV 2021

DocVQA: A Dataset for VQA on Document Images WACV 2021

In Factuality: Efficient Integration of Relevant Facts for Visual Question Answering ACL 2021

MiniVQA - A resource to build your tailored VQA competition NAACL 2021

Cross-modal Memory Networks for Radiology Report Generation ACL 2021

COVR: A Test-Bed for Visually Grounded Compositional Generalization with Real Images EMNLP 2021