Computer Vision › Generation ›

Image Captioning

781 directly classified papers

Papers per year

Papers

Structural and Functional Decomposition for Personality Image Captioning in a Communication Game EMNLP 2020

Summarizing Chinese Medical Answer with Graph Convolution Networks and Question-focused Dual Attention EMNLP 2020

Diverse and Relevant Visual Storytelling with Scene Graph Embeddings EMNLP 2020

Refer, Reuse, Reduce: Generating Subsequent References in Visual and Conversational Contexts EMNLP 2020

Recurrent Relational Memory Network for Unsupervised Image Captioning IJCAI 2020

Object Relational Graph With Teacher-Recommended Learning for Video Captioning CVPR 2020

A hierarchical approach to vision-based language generation: from simple sentences to complex natural language COLING 2020

Multimodal Sentence Summarization via Multimodal Selective Encoding COLING 2020

Show, Edit and Tell: A Framework for Editing Image Captions CVPR 2020

In Defense of Grid Features for Visual Question Answering CVPR 2020

Meshed-Memory Transformer for Image Captioning CVPR 2020

X-Linear Attention Networks for Image Captioning CVPR 2020

12-in-1: Multi-Task Vision and Language Representation Learning CVPR 2020

Iterative Answer Prediction With Pointer-Augmented Multimodal Transformers for TextVQA CVPR 2020

Spatio-Temporal Graph for Video Captioning With Knowledge Distillation CVPR 2020

Say As You Wish: Fine-Grained Control of Image Caption Generation With Abstract Scene Graphs CVPR 2020

Google Landmarks Dataset v2 - A Large-Scale Benchmark for Instance-Level Recognition and Retrieval CVPR 2020

Counterfactual Vision and Language Learning CVPR 2020

Show, Recall, and Tell: Image Captioning with Recall Mechanism AAAI 2020

Generating Radiology Reports via Memory-driven Transformer EMNLP 2020

Human Consensus-Oriented Image Captioning IJCAI 2020

Context-Aware Group Captioning via Self-Attention and Contrastive Features CVPR 2020

Unified Vision-Language Pre-Training for Image Captioning and VQA AAAI 2020

Diverse Image Captioning with Context-Object Split Latent Spaces NIPS 2020

Normalized and Geometry-Aware Self-Attention Network for Image Captioning CVPR 2020