visual question answering

1000 papers

Explore in graph

Also known as

VQAI OK-VQA VQA VIDEOQA TEXTVQA IMAGEQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

FaceBench: A Multi-View Multi-Level Facial Attribute VQA Dataset for Benchmarking Face Perception MLLMs CVPR 2025

Automated Generation of Challenging Multiple-Choice Questions for Vision Language Model Evaluation CVPR 2025

SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment CVPR 2025

EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models CVPR 2025

GroundingFace: Fine-grained Face Understanding via Pixel Grounding Multimodal Large Language Model CVPR 2025

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts CVPR 2025

MAGIC-VQA: Multimodal And Grounded Inference with Commonsense Knowledge for Visual Question Answering ACL 2025

OmniCount: Multi-label Object Counting with Semantic-Geometric Priors AAAI 2025

Separation of Powers: On Segregating Knowledge from Observation in LLM-enabled Knowledge-based Visual Question Answering CVPR 2025

AdaDARE-gamma: Balancing Stability and Plasticity in Multi-modal LLMs through Efficient Adaptation CVPR 2025

Seeing More with Less: Human-like Representations in Vision Models CVPR 2025

ViUniT: Visual Unit Tests for More Robust Visual Programming CVPR 2025

A Video-grounded Dialogue Dataset and Metric for Event-driven Activities AAAI 2025

World to Code: Multi-modal Data Generation via Self-Instructed Compositional Captioning and Filtering EMNLP 2024

Does Object Grounding Really Reduce Hallucination of Large Vision-Language Models? EMNLP 2024

TopViewRS: Vision-Language Models as Top-View Spatial Reasoners EMNLP 2024

Diversify, Rationalize, and Combine: Ensembling Multiple QA Strategies for Zero-shot Knowledge-based VQA EMNLP 2024

VRSBench: A Versatile Vision-Language Benchmark Dataset for Remote Sensing Image Understanding NIPS 2024

Multi-Level Information Retrieval Augmented Generation for Knowledge-based Visual Question Answering EMNLP 2024

CommVQA: Situating Visual Question Answering in Communicative Contexts EMNLP 2024

POP-VQA - Privacy Preserving, On-Device, Personalized Visual Question Answering WACV 2024

Attribute Diversity Determines the Systematicity Gap in VQA EMNLP 2024

Overview of the MEDIQA-M3G 2024 Shared Task on Multilingual Multimodal Medical Answer Generation NAACL 2024

Gemini Goes to Med School: Exploring the Capabilities of Multimodal Large Language Models on Medical Challenge Problems & Hallucinations NAACL 2024

An Empirical Analysis on Spatial Reasoning Capabilities of Large Multimodal Models EMNLP 2024