image captioning

728 papers

Explore in graph

Also known as

IDC PIC IAC IC

Co-occurring keywords

multimodal learning (4622) visual question answering (1000) vision-language model (2235) text generation (2903) attention mechanism (3975) visual grounding (505) zero-shot learning (3637) multi-modal learning (1276) vision language model (752) natural language generation (782)

Papers

A Diagnostic Framework for Auditing Reference-Free Vision-Language Metrics IJCNLP 2025

Bridging Semantic and Modality Gaps in Zero-Shot Captioning via Retrieval from Synthetic Data EMNLP 2025

Enhancing Large Language Models for Scientific Multimodal Summarization with Multimodal Output COLING 2025

Image Captioning Evaluation in the Age of Multimodal LLMs: Challenges and Future Perspectives IJCAI 2025

MANTA: A Large-Scale Multi-View and Visual-Text Anomaly Detection Dataset for Tiny Objects CVPR 2025

VELA: An LLM-Hybrid-as-a-Judge Approach for Evaluating Long Image Captions EMNLP 2025

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models CVPR 2025

SingaKids: A Multilingual Multimodal Dialogic Tutor for Language Learning ACL 2025

Evaluation of Multilingual Image Captioning: How far can we get with CLIP models? NAACL 2025

MICE: Mixture of Image Captioning Experts Augmented e-Commerce Product Attribute Value Extraction ACL 2025

Express What You See: Can Multimodal LLMs Decode Visual Ciphers with Intuitive Semiosis Comprehension? ACL 2025

RONA: Pragmatically Diverse Image Captioning with Coherence Relations NAACL 2025

Caption Generation in Cultural Heritage: Crowdsourced Data and Tuning Multimodal Large Language Models NAACL 2025

Defining and Quantifying Visual Hallucinations in Vision-Language Models NAACL 2025

VAQUUM: Are Vague Quantifiers Grounded in Visual Data? ACL 2025

End-to-End Multi-Modal Diffusion Mamba ICCV 2025

Zero-Shot Image Captioning with Multi-type Entity Representations AAAI 2025

Engage for All: Making Ordinary Image Descriptions Appealing Again! ICCV 2025

ViPCap: Retrieval Text-Based Visual Prompts for Lightweight Image Captioning AAAI 2025

Enhancing Large Vision-Language Models with Ultra-Detailed Image Caption Generation EMNLP 2025

EXPERT: An Explainable Image Captioning Evaluation Metric with Structured Explanations ACL 2025

Benchmarking Multimodal Models for Ukrainian Language Understanding Across Academic and Cultural Domains ACL 2025

Cross-modal Clustering-based Retrieval for Scalable and Robust Image Captioning ACL 2025

Scalable Vision-Language Understanding and Generation AAAI 2025

LOTUS: A Leaderboard for Detailed Image Captioning from Quality to Societal Bias and User Preferences ACL 2025