Computer Vision › Processing ›

Video Understanding

1592 directly classified papers

Papers per year

Papers

Low-Latency Online Streaming VideoQA Using Audio-Visual Transformers INTERSPEECH 2022

A Deep Learning Approach for the Segmentation of Electroencephalography Data in Eye Tracking Applications ICML 2022

3MASSIV: Multilingual, Multimodal and Multi-Aspect Dataset of Social Media Short Videos CVPR 2022

Weakly Supervised Temporal Sentence Grounding With Gaussian-Based Contrastive Proposal Learning CVPR 2022

Maintaining Reasoning Consistency in Compositional Visual Question Answering CVPR 2022

MAD: A Scalable Dataset for Language Grounding in Videos From Movie Audio Descriptions CVPR 2022

Implicit Motion Handling for Video Camouflaged Object Detection CVPR 2022

Multi-Level Attentive Adversarial Learning With Temporal Dilation for Unsupervised Video Domain Adaptation WACV 2022

Multi-Motion and Appearance Self-Supervised Moving Object Detection WACV 2022

NUTA: Non-Uniform Temporal Aggregation for Action Recognition WACV 2022

Co-Segmentation Aided Two-Stream Architecture for Video Captioning WACV 2022

A Modular and Unified Framework for Detecting and Localizing Video Anomalies WACV 2022

Temporally Stable Video Segmentation Without Video Annotations WACV 2022

Multi-Stream Dynamic Video Summarization WACV 2022

Hierarchical Modeling for Task Recognition and Action Segmentation in Weakly-Labeled Instructional Videos WACV 2022

Learning Temporal Video Procedure Segmentation From an Automatically Collected Large Dataset WACV 2022

Colar: Effective and Efficient Online Action Detection by Consulting Exemplars CVPR 2022

Joint Video Summarization and Moment Localization by Cross-Task Sample Transfer CVPR 2022

Transformer-Based Video Front-Ends for Audio-Visual Speech Recognition for Single and Muti-Person Video INTERSPEECH 2022

Align and Prompt: Video-and-Language Pre-Training With Entity Prompts CVPR 2022

Motion-Adjustable Neural Implicit Video Representation CVPR 2022

Weakly Supervised Video Moment Localization with Contrastive Negative Sample Mining AAAI 2022

Modeling Motion With Multi-Modal Features for Text-Based Video Segmentation CVPR 2022

HeterMPC: A Heterogeneous Graph Neural Network for Response Generation in Multi-Party Conversations ACL 2022

Assist Non-native Viewers: Multimodal Cross-Lingual Summarization for How2 Videos EMNLP 2022