visual question answering

1000 papers

Explore in graph

Also known as

VQAI OK-VQA VQA VIDEOQA TEXTVQA IMAGEQA

Co-occurring keywords

multimodal learning (4622) vision-language model (2235) image captioning (728) vision language model (752) multi-modal learning (1276) multimodal large language model (865) large language model (12755) visual reasoning (479) attention mechanism (3975) benchmark evaluation (1539)

Papers

Wings: Learning Multimodal LLMs without Text-only Forgetting NIPS 2024

“Image, Tell me your story!” Predicting the original meta-context of visual misinformation EMNLP 2024

Visual CoT: Advancing Multi-Modal Language Models with a Comprehensive Dataset and Benchmark for Chain-of-Thought Reasoning NIPS 2024

Detecting and Preventing Hallucinations in Large Vision Language Models AAAI 2024

Can I Trust Your Answer? Visually Grounded Video Question Answering CVPR 2024

CLOVA: A Closed-LOop Visual Assistant with Tool Usage and Update CVPR 2024

OmniMedVQA: A New Large-Scale Comprehensive Evaluation Benchmark for Medical LVLM CVPR 2024

What If the TV Was Off? Examining Counterfactual Reasoning Abilities of Multi-modal Language Models CVPR 2024

LIVE: Learnable In-Context Vector for Visual Question Answering NIPS 2024

Efficient Large Multi-modal Models via Visual Context Compression NIPS 2024

Benchmarking Vision Language Models for Cultural Understanding EMNLP 2024

Negative Object Presence Evaluation (NOPE) to Measure Object Hallucination in Vision-Language Models ACL 2024

GRAM: Global Reasoning for Multi-Page VQA CVPR 2024

VTQA: Visual Text Question Answering via Entity Alignment and Cross-Media Reasoning CVPR 2024

Causal-CoG: A Causal-Effect Look at Context Generation for Boosting Multi-modal Language Models CVPR 2024

CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark NIPS 2024

On Scaling Up a Multilingual Vision and Language Model CVPR 2024

CoG-DQA: Chain-of-Guiding Learning with Large Language Models for Diagram Question Answering CVPR 2024

CogAgent: A Visual Language Model for GUI Agents CVPR 2024

Monkey: Image Resolution and Text Label Are Important Things for Large Multi-modal Models CVPR 2024

Uni-Med: A Unified Medical Generalist Foundation Model For Multi-Task Learning Via Connector-MoE NIPS 2024

Soft Knowledge Prompt: Help External Knowledge Become a Better Teacher to Instruct LLM in Knowledge-based VQA ACL 2024

Vision-Language Models for Robot Success Detection AAAI 2024

TV-TREES: Multimodal Entailment Trees for Neuro-Symbolic Video Reasoning EMNLP 2024

LLaVA-Med: Training a Large Language-and-Vision Assistant for Biomedicine in One Day NIPS 2023