conftrace_

visual question answering

1000 papers

Explore in graph

Also known as

VQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

Delving Deeper into Cross-lingual Visual Question Answering EACL 2023

CLIPPO: Image-and-Language Understanding From Pixels Only CVPR 2023

SPRING: Situated Conversation Agent Pretrained with Multimodal Questions from Incremental Layout Graph AAAI 2023

Answer Mining from a Pool of Images: Towards Retrieval-Based Visual Question Answering IJCAI 2023

VQA Therapy: Exploring Answer Differences by Visually Grounding Answers ICCV 2023

MM-Reasoner: A Multi-Modal Knowledge-Aware Framework for Knowledge-Based Visual Question Answering EMNLP 2023

From Images to Textual Prompts: Zero-Shot Visual Question Answering With Frozen Large Language Models CVPR 2023

3D Concept Learning and Reasoning From Multi-View Images CVPR 2023

Super-CLEVR: A Virtual Benchmark To Diagnose Domain Robustness in Visual Reasoning CVPR 2023

Q: How To Specialize Large Vision-Language Models to Data-Scarce VQA Tasks? A: Self-Train on Unlabeled Images! CVPR 2023

ChartQA: A Benchmark for Question Answering about Charts with Visual and Logical Reasoning ACL 2022

Attention-Aligned Transformer for Image Captioning AAAI 2022

Knowledge-Enhanced Scene Graph Generation with Multimodal Relation Alignment (Student Abstract) AAAI 2022

Bridging the Gap between Recognition-level Pre-training and Commonsensical Vision-language Tasks ACL 2022

MuMuQA: Multimedia Multi-Hop News Question Answering via Cross-Media Knowledge Extraction and Grounding AAAI 2022

Hypergraph Transformer: Weakly-Supervised Multi-hop Reasoning for Knowledge-based Visual Question Answering ACL 2022

Poirot at SemEval-2022 Task 5: Leveraging Graph Network for Misogynistic Meme Detection NAACL 2022

Multi-Modal Sarcasm Detection via Cross-Modal Graph Convolutional Network ACL 2022

Flexible Visual Grounding ACL 2022

Enabling Multimodal Generation on CLIP via Vision-Language Knowledge Distillation ACL 2022

xGQA: Cross-Lingual Visual Question Answering ACL 2022

An Empirical Study of GPT-3 for Few-Shot Knowledge-Based VQA AAAI 2022

Neuro-Symbolic Visual Dialog COLING 2022

Understanding Attention for Vision-and-Language Tasks COLING 2022

Efficient Counterfactual Debiasing for Visual Question Answering WACV 2022