Computer Vision › Processing ›

Video Understanding

1592 directly classified papers

Papers per year

Papers

Omnimatte3D: Associating Objects and Their Effects in Unconstrained Monocular Video CVPR 2023

Visually Explaining 3D-CNN Predictions for Video Classification With an Adaptive Occlusion Sensitivity Analysis WACV 2023

Event-Specific Audio-Visual Fusion Layers: A Simple and New Perspective on Video Understanding WACV 2023

Video Summarization Leveraging Multimodal Information for Presentations INTERSPEECH 2023

A Simple and Efficient Pipeline To Build an End-to-End Spatial-Temporal Action Detector WACV 2023

Panoptic Video Scene Graph Generation CVPR 2023

Hierarchical Semantic Correspondence Networks for Video Paragraph Grounding CVPR 2023

Modular Memorability: Tiered Representations for Video Memorability Prediction CVPR 2023

Breaking the "Object" in Video Object Segmentation CVPR 2023

Context-PIPs: Persistent Independent Particles Demands Spatial Context Features NIPS 2023

ScanDMM: A Deep Markov Model of Scanpath Prediction for 360deg Images CVPR 2023

Relational Space-Time Query in Long-Form Videos CVPR 2023

Audio-Visual Deception Detection: DOLOS Dataset and Parameter-Efficient Crossmodal Learning ICCV 2023

Frame Interpolation for Dynamic Scenes With Implicit Flow Encoding WACV 2023

1000 FPS HDR Video With a Spike-RGB Hybrid Camera CVPR 2023

Joint Visual Grounding and Tracking With Natural Language Specification CVPR 2023

Exploring the Effect of Primitives for Compositional Generalization in Vision-and-Language CVPR 2023

GazeVQA: A Video Question Answering Dataset for Multiview Eye-Gaze Task-Oriented Collaborations EMNLP 2023

WINNER: Weakly-Supervised hIerarchical decompositioN and aligNment for Spatio-tEmporal Video gRounding CVPR 2023

An Empirical Study of End-to-End Video-Language Transformers With Masked Visual Modeling CVPR 2023

Towards Generalisable Video Moment Retrieval: Visual-Dynamic Injection to Image-Text Pre-Training CVPR 2023

Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping ICCV 2023

Improving Continuous Sign Language Recognition with Cross-Lingual Signs ICCV 2023

MASTAF: A Model-Agnostic Spatio-Temporal Attention Fusion Network for Few-Shot Video Classification WACV 2023

Core Challenges in Embodied Vision-Language Planning (Extended Abstract) IJCAI 2023