visual question answering

1000 papers

Explore in graph

Also known as

VQAI OK-VQA VQA VIDEOQA TEXTVQA IMAGEQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

OmniAlign-V: Towards Enhanced Alignment of MLLMs with Human Preference ACL 2025

Grounding Multilingual Multimodal LLMs With Cultural Knowledge EMNLP 2025

TabComp: A Dataset for Visual Table Reading Comprehension NAACL 2025

WebMMU: A Benchmark for Multimodal Multilingual Website Understanding and Code Generation EMNLP 2025

From Easy to Hard: The MIR Benchmark for Progressive Interleaved Multi-Image Reasoning ICCV 2025

Contra4: Evaluating Contrastive Cross-Modal Reasoning in Audio, Video, Image, and 3D EMNLP 2025

ProtoVQA: An Adaptable Prototypical Framework for Explainable Fine-Grained Visual Question Answering EMNLP 2025

SilVar: Speech-Driven Multimodal Model for Reasoning Visual Question Answering and Object Localization EMNLP 2025

Detecting Knowledge Boundary of Vision Large Language Models by Sampling-Based Inference EMNLP 2025

Is Cognition Consistent with Perception? Assessing and Mitigating Multimodal Knowledge Conflicts in Document Understanding EMNLP 2025

Performance Gap in Entity Knowledge Extraction Across Modalities in Vision Language Models ACL 2025

ComicScene154: A Scene Dataset for Comic Analysis EMNLP 2025

Seeing Far and Clearly: Mitigating Hallucinations in MLLMs with Attention Causal Decoding CVPR 2025

Can Multimodal LLMs See Materials Clearly? A Multimodal Benchmark on Materials Characterization EMNLP 2025

See the World, Discover Knowledge: A Chinese Factuality Evaluation for Large Vision Language Models ACL 2025

Benchmarking and Mitigating MCQA Selection Bias of Large Vision-Language Models EMNLP 2025

Everything is a Video: Unifying Modalities through Next-Frame Prediction ICCV 2025

Reasoning-Enhanced Domain-Adaptive Pretraining of Multimodal Large Language Models for Short Video Content Governance EMNLP 2025

MV-MATH: Evaluating Multimodal Math Reasoning in Multi-Visual Contexts CVPR 2025

GroundingFace: Fine-grained Face Understanding via Pixel Grounding Multimodal Large Language Model CVPR 2025

EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models CVPR 2025

FlagEvalMM: A Flexible Framework for Comprehensive Multimodal Model Evaluation ACL 2025

Charting the Future: Using Chart Question-Answering for Scalable Evaluation of LLM-Driven Data Visualizations COLING 2025

ViUniT: Visual Unit Tests for More Robust Visual Programming CVPR 2025

MTabVQA: Evaluating Multi-Tabular Reasoning of Language Models in Visual Space EMNLP 2025