conftrace_

visual question answering

1000 papers

Explore in graph

Also known as

VQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

VQA-GNN: Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering ICCV 2023

TIFA: Accurate and Interpretable Text-to-Image Faithfulness Evaluation with Question Answering ICCV 2023

PreSTU: Pre-Training for Scene-Text Understanding ICCV 2023

Logical Implications for Visual Question Answering Consistency CVPR 2023

DocEdit: Language-Guided Document Editing AAAI 2023

HaVQA: A Dataset for Visual Question Answering and Multimodal Research in Hausa Language ACL 2023

Sentence Attention Blocks for Answer Grounding ICCV 2023

Variational Causal Inference Network for Explanatory Visual Question Answering ICCV 2023

Compressing and Debiasing Vision-Language Pre-Trained Models for Visual Question Answering EMNLP 2023

What’s “up” with vision-language models? Investigating their struggle with spatial reasoning EMNLP 2023

Causal Reasoning through Two Cognition Layers for Improving Generalization in Visual Question Answering EMNLP 2023

A Simple Baseline for Knowledge-Based Visual Question Answering EMNLP 2023

Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions? EMNLP 2023

Toward Multi-Granularity Decision-Making: Explicit Visual Reasoning with Hierarchical Knowledge ICCV 2023

A Multi-dimensional study on Bias in Vision-Language models ACL 2023

Text-Guided Object Detector for Multi-Modal Video Question Answering WACV 2023

VisText: A Benchmark for Semantically Rich Chart Captioning ACL 2023

AVIS: Autonomous Visual Information Seeking with Large Language Model Agent NIPS 2023

Emergent Communication in Interactive Sketch Question Answering NIPS 2023

GenEval: An object-focused framework for evaluating text-to-image alignment NIPS 2023

Unified Language Representation for Question Answering over Text, Tables, and Images ACL 2023

Reassessing Evaluation Practices in Visual Question Answering: A Case Study on Out-of-Distribution Generalization EACL 2023

AoM: Detecting Aspect-oriented Information for Multimodal Aspect-Based Sentiment Analysis ACL 2023

Improving the Cross-Lingual Generalisation in Visual Question Answering AAAI 2023

An Empirical Study on the Language Modal in Visual Question Answering IJCAI 2023