image captioning

728 papers

Explore in graph

Also known as

IDC PIC IAC IC

Co-occurring keywords

multimodal learning (4622) visual question answering (1000) vision-language model (2235) text generation (2903) attention mechanism (3975) visual grounding (505) zero-shot learning (3637) multi-modal learning (1276) vision language model (752) natural language generation (782)

Papers

SingaKids: A Multilingual Multimodal Dialogic Tutor for Language Learning ACL 2025

Caption Generation in Cultural Heritage: Crowdsourced Data and Tuning Multimodal Large Language Models NAACL 2025

HalLoc: Token-level Localization of Hallucinations for Vision Language Models CVPR 2025

Defining and Quantifying Visual Hallucinations in Vision-Language Models NAACL 2025

CompCap: Improving Multimodal Large Language Models with Composite Captions ICCV 2025

VAQUUM: Are Vague Quantifiers Grounded in Visual Data? ACL 2025

SGDiff: Scene Graph Guided Diffusion Model for Image Collaborative SegCaptioning AAAI 2025

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models CVPR 2025

MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects CVPR 2025

Describe Anything: Detailed Localized Image and Video Captioning ICCV 2025

What Makes for Good Image Captions? EMNLP 2025

Engage for All: Making Ordinary Image Descriptions Appealing Again! ICCV 2025

G-VEval: A Versatile Metric for Evaluating Image and Video Captions Using GPT-4o AAAI 2025

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning AAAI 2025

Semantic and Expressive Variations in Image Captions Across Languages CVPR 2025

Findings of WAT2025 English-to-Indic Multimodal Translation Task IJCNLP 2025

DynRefer: Delving into Region-level Multimodal Tasks via Dynamic Resolution CVPR 2025

EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations ACL 2025

LLMDet: Learning Strong Open-Vocabulary Object Detectors under the Supervision of Large Language Models CVPR 2025

JNLP at SemEval-2025 Task 1: Multimodal Idiomaticity Representation with Large Language Models ACL 2025

Argus: Benchmarking and Enhancing Vision-Language Models for 3D Radiology Report Generation ACL 2025

Variance-Based Membership Inference Attacks Against Large-Scale Image Captioning Models CVPR 2025

Cross-modal Clustering-based Retrieval for Scalable and Robust Image Captioning ACL 2025

Multi-modal and Multi-scale Spatial Environment Understanding for Immersive Visual Text-to-Speech AAAI 2025

Aerial Mirage: Unmasking Hallucinations in Large Vision Language Models WACV 2025