conftrace_

visual question answering

1000 papers

Explore in graph

Also known as

VQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

Counterfactual Vision and Language Learning CVPR 2020

On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law NIPS 2020

Fantastic Answers and Where to Find Them: Immersive Question-Directed Visual Attention CVPR 2020

Normalized and Geometry-Aware Self-Attention Network for Image Captioning CVPR 2020

Modality Shifting Attention Network for Multi-Modal Video Question Answering CVPR 2020

Why Does a Visual Question Have Different Answers? ICCV 2019

Multi-Modality Latent Interaction Network for Visual Question Answering ICCV 2019

Relation-Aware Graph Attention Network for Visual Question Answering ICCV 2019

Answer Them All! Toward Universal Visual Question Answering Models CVPR 2019

Explicit Bias Discovery in Visual Question Answering Models CVPR 2019

Recursive Visual Attention in Visual Dialog CVPR 2019

MUREL: Multimodal Relational Reasoning for Visual Question Answering CVPR 2019

VrR-VG: Refocusing Visually-Relevant Relationships ICCV 2019

TAB-VCR: Tags and Attributes based VCR Baselines NIPS 2019

Aligning Visual Regions and Textual Concepts for Semantic-Grounded Image Representations NIPS 2019

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks NIPS 2019

Structured Two-Stream Attention Network for Video Question Answering AAAI 2019

TallyQA: Answering Complex Counting Questions AAAI 2019

KVQA: Knowledge-Aware Visual Question Answering AAAI 2019

Free VQA Models from Knowledge Inertia by Pairwise Inconformity Learning AAAI 2019

Dynamic Capsule Attention for Visual Question Answering AAAI 2019

BLOCK: Bilinear Superdiagonal Fusion for Visual Question Answering and Visual Relationship Detection AAAI 2019

Beyond RNNs: Positional Self-Attention with Co-Attention for Video Question Answering AAAI 2019

The Meaning of “Most” for Visual Question Answering Models ACL 2019

Faithful Multimodal Explanation for Visual Question Answering ACL 2019