Computer Vision › Generation ›

Image Captioning

781 directly classified papers

Papers per year

Papers

Guiding Visual Question Generation NAACL 2022

Improving Personalized Explanation Generation through Visualization ACL 2022

Scene-Text Aware Image and Text Retrieval with Dual-Encoder ACL 2022

Machine-in-the-Loop Rewriting for Creative Image Captioning NAACL 2022

UNISON: Unpaired Cross-Lingual Image Captioning AAAI 2022

Fine-Grained Semantically Aligned Vision-Language Pre-Training NIPS 2022

Retrieve, Caption, Generate: Visual Grounding for Enhancing Commonsense in Text Generation Models AAAI 2022

Cross-TOP: Zero-Shot Cross-Schema Task-Oriented Parsing NAACL 2022

Visual Recipe Flow: A Dataset for Learning Visual State Changes of Objects with Recipe Flows COLING 2022

Grounding Answers for Visual Questions Asked by Visually Impaired People CVPR 2022

DeeCap: Dynamic Early Exiting for Efficient Image Captioning CVPR 2022

DU-VLG: Unifying Vision-and-Language Generation via Dual Sequence-to-Sequence Pre-training ACL 2022

DeltaNet: Conditional Medical Report Generation for COVID-19 Diagnosis COLING 2022

Combine to Describe: Evaluating Compositional Generalization in Image Captioning ACL 2022

Show, Deconfound and Tell: Image Captioning With Causal Inference CVPR 2022

Hierarchical Modular Network for Video Captioning CVPR 2022

NOC-REK: Novel Object Captioning With Retrieved Vocabulary From External Knowledge CVPR 2022

Building Joint Relationship Attention Network for Image-Text Generation COLING 2022

Co-Segmentation Aided Two-Stream Architecture for Video Captioning WACV 2022

Let There Be a Clock on the Beach: Reducing Object Hallucination in Image Captioning WACV 2022

L-Verse: Bidirectional Generation Between Image and Text CVPR 2022

Denoising Large-Scale Image Captioning from Alt-text Data Using Content Selection Models COLING 2022

JPG - Jointly Learn to Align: Automated Disease Prediction and Radiology Report Generation COLING 2022

Cross-modal Contrastive Attention Model for Medical Report Generation COLING 2022

MAGIC: Multimodal relAtional Graph adversarIal inferenCe for Diverse and Unpaired Text-Based Image Captioning AAAI 2022