video captioning

206 papers

Explore in graph

Also known as

MCN

Co-occurring keywords

video understanding (1647) multimodal learning (4622) image captioning (728) recurrent neural network (1790) video description (25) action recognition (957) attention mechanism (3975) natural language generation (782) vision-language model (2235) contrastive learning (3979)

Papers

The Devil is in the Distributions: Explicit Modeling of Scene Content is Key in Zero-Shot Video Captioning EACL 2026

OwlCap: Harmonizing Motion-Detail for Video Captioning via HMD-270K and Caption Set Equivalence Reward AAAI 2026

Mitigating Object and Action Hallucinations in Multimodal LLMs via Self-Augmented Contrastive Alignment WACV 2026

Temporal Object Captioning for Street Scene Videos from LiDAR Tracks WACV 2026

Caption Anything in Video: Fine-grained Object-centric Captioning via Spatiotemporal Multimodal Prompting AAAI 2026

Beyond the Highlights: Video Retrieval with Salient and Surrounding Contexts WACV 2026

ARGUS: Hallucination and Omission Evaluation in Video-LLMs ICCV 2025

Player-Centric Multimodal Prompt Generation for Large Language Model Based Identity-Aware Basketball Video Captioning ICCV 2025

Describe Anything: Detailed Localized Image and Video Captioning ICCV 2025

Narrating the Video: Boosting Text-Video Retrieval via Comprehensive Utilization of Frame-Level Captions CVPR 2025

Temporal Working Memory: Query-Guided Segment Refinement for Enhanced Multimodal Understanding NAACL 2025

MAMS: Model-Agnostic Module Selection Framework for Video Captioning AAAI 2025

Movie101v2: Improved Movie Narration Benchmark ACL 2025

Large-scale Pre-training for Grounded Video Caption Generation ICCV 2025

Chapter-Llama: Efficient Chaptering in Hour-Long Videos with LLMs CVPR 2025

DistinctAD: Distinctive Audio Description Generation in Contexts CVPR 2025

NarrAD: Automatic Generation of Audio Descriptions for Movies with Rich Narrative Context WACV 2025

Now You See Me: Context-Aware Automatic Audio Description WACV 2025

VC4VG: Optimizing Video Captions for Text-to-Video Generation EMNLP 2025

HierarQ: Task-Aware Hierarchical Q-Former for Enhanced Video Understanding CVPR 2025

Evaluating Multimodal Large Language Models on Video Captioning via Monte Carlo Tree Search ACL 2025

Long Video Diffusion Generation with Segmented Cross-Attention and Content-Rich Video Data Curation CVPR 2025

VidCapBench: A Comprehensive Benchmark of Video Captioning for Controllable Text-to-Video Generation ACL 2025

Pretrained Image-Text Models are Secretly Video Captioners NAACL 2025

Hierarchical Multi-Source Uncertainty Aggregation for Interactive Video Captioning AAAI 2025