Computer Vision › Processing ›

Video Understanding

1592 directly classified papers

Papers per year

Papers

How to Make a BLT Sandwich? Learning VQA Towards Understanding Web Instructional Videos WACV 2021

Progressively Guide to Attend: An Iterative Alignment Framework for Temporal Sentence Grounding EMNLP 2021

Joint Multimedia Event Extraction from Video and Article EMNLP 2021

Hierarchical Memory Matching Network for Video Object Segmentation ICCV 2021

Challenges in Designing Natural Language Interfaces for Complex Visual Models EACL 2021

MultiSports: A Multi-Person Video Dataset of Spatio-Temporally Localized Sports Actions ICCV 2021

STMTrack: Template-Free Visual Tracking With Space-Time Memory Networks CVPR 2021

Benchmarking Unsupervised Object Representations for Video Sequences JMLR 2021

Enriching Local and Global Contexts for Temporal Action Localization ICCV 2021

Associating Objects with Transformers for Video Object Segmentation NIPS 2021

Dense Interaction Learning for Video-Based Person Re-Identification ICCV 2021

CrossCLR: Cross-Modal Contrastive Learning for Multi-Modal Video Representations ICCV 2021

Self-Mutual Distillation Learning for Continuous Sign Language Recognition ICCV 2021

AdaMML: Adaptive Multi-Modal Learning for Efficient Video Recognition ICCV 2021

Separable Flow: Learning Motion Cost Volumes for Optical Flow Estimation ICCV 2021

Embedded Dense Camera Trajectories in Multi-Video Image Mosaics by Geodesic Interpolation-Based Reintegration WACV 2021

TEA: Temporal Excitation and Aggregation for Action Recognition CVPR 2020

Violin: A Large-Scale Dataset for Video-and-Language Inference CVPR 2020

Learning Individual Speaking Styles for Accurate Lip to Speech Synthesis CVPR 2020

Improving Action Segmentation via Graph-Based Temporal Reasoning CVPR 2020

Modality Shifting Attention Network for Multi-Modal Video Question Answering CVPR 2020

Where Does It Exist: Spatio-Temporal Video Grounding for Multi-Form Sentences CVPR 2020

Softmax Splatting for Video Frame Interpolation CVPR 2020

STAViS: Spatio-Temporal AudioVisual Saliency Network CVPR 2020

MotionRec: A Unified Deep Framework for Moving Object Recognition WACV 2020