visual question answering

1000 papers

Explore in graph

Also known as

VQAI OK-VQA VQA VIDEOQA TEXTVQA IMAGEQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

Debating for Better Reasoning in Vision-Language Models EMNLP 2025

Exploring Response Uncertainty in MLLMs: An Empirical Evaluation under Misleading Scenarios EMNLP 2025

MMXU: A Multi-Modal and Multi-X-ray Understanding Dataset for Disease Progression ACL 2025

Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference EMNLP 2025

IntelliCockpitBench: A Comprehensive Benchmark to Evaluate VLMs for Intelligent Cockpit ACL 2025

Marten: Visual Question Answering with Mask Generation for Multi-modal Document Understanding CVPR 2025

SpaRE: Enhancing Spatial Reasoning in Vision-Language Models with Synthetic Data ACL 2025

Value-Spectrum: Quantifying Preferences of Vision-Language Models via Value Decomposition in Social Media Contexts ACL 2025

Analyzing the Sensitivity of Vision Language Models in Visual Question Answering ACL 2025

Unveiling Uncertainty: A Deep Dive into Calibration and Performance of Multimodal Large Language Models COLING 2025

Discrete Subgraph Sampling for Interpretable Graph based Visual Question Answering COLING 2025

SpatialLLM: A Compound 3D-Informed Design towards Spatially-Intelligent Large Multimodal Models CVPR 2025

ActiView: Evaluating Active Perception Ability for Multimodal Large Language Models ACL 2025

The Confidence Paradox: Can LLM Know When It’s Wrong? IJCNLP 2025

Seeing Culture: A Benchmark for Visual Reasoning and Grounding EMNLP 2025

End-to-End Multi-Modal Diffusion Mamba ICCV 2025

Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D EMNLP 2025

WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation EMNLP 2025

TVQACML: Benchmarking Text-Centric Visual Question Answering in Multilingual Chinese Minority Languages EMNLP 2025

GEMeX: A Large-Scale, Groundable, and Explainable Medical VQA Benchmark for Chest X-ray Diagnosis ICCV 2025

A Simple Data Augmentation Strategy for Text-in-Image Scientific VQA EMNLP 2025

Dual Diffusion for Unified Image Generation and Understanding CVPR 2025

PhD: A ChatGPT-Prompted Visual Hallucination Evaluation Dataset CVPR 2025

GLEN: Generalized Focal Loss Ensemble of Low-Rank Networks for Calibrated Visual Question Answering AAAI 2025

InstructOCR: Instruction Boosting Scene Text Spotting AAAI 2025