Computer Vision › Processing ›

Video Understanding

1592 directly classified papers

Papers per year

Papers

SKiT: a Fast Key Information Video Transformer for Online Surgical Phase Recognition ICCV 2023

Lip2Vec: Efficient and Robust Visual Speech Recognition via Latent-to-Latent Visual to Audio Representation Mapping ICCV 2023

Improving Continuous Sign Language Recognition with Cross-Lingual Signs ICCV 2023

Moment Detection in Long Tutorial Videos ICCV 2023

MeViS: A Large-scale Benchmark for Video Segmentation with Motion Expressions ICCV 2023

UniVTG: Towards Unified Video-Language Temporal Grounding ICCV 2023

Gloss-Free Sign Language Translation: Improving from Visual-Language Pretraining ICCV 2023

CAST: Cross-Attention in Space and Time for Video Action Recognition NIPS 2023

Taming Contrast Maximization for Learning Sequential, Low-latency, Event-based Optical Flow ICCV 2023

CIRI: Curricular Inactivation for Residue-aware One-shot Video Inpainting ICCV 2023

An Empirical Study of Frame Selection for Text-to-Video Retrieval EMNLP 2023

Style-transfer based Speech and Audio-visual Scene understanding for Robot Action Sequence Acquisition from Videos INTERSPEECH 2023

EfficientSCI: Densely Connected Network With Space-Time Factorization for Large-Scale Video Snapshot Compressive Imaging CVPR 2023

Masked Video Distillation: Rethinking Masked Feature Modeling for Self-Supervised Video Representation Learning CVPR 2023

HierVL: Learning Hierarchical Video-Language Embeddings CVPR 2023

DropMAE: Masked Autoencoders With Spatial-Attention Dropout for Tracking Tasks CVPR 2023

Real-Time Neural Light Field on Mobile Devices CVPR 2023

Spatio-Temporal Pixel-Level Contrastive Learning-Based Source-Free Domain Adaptation for Video Semantic Segmentation CVPR 2023

Unbiased Scene Graph Generation in Videos CVPR 2023

Source-Free Video Domain Adaptation With Spatial-Temporal-Historical Consistency Learning CVPR 2023

Egocentric Video Task Translation CVPR 2023

Learning Fine-Grained Features for Pixel-Wise Video Correspondences ICCV 2023

Bootstrapping Objectness From Videos by Relaxed Common Fate and Visual Grouping CVPR 2023

Generating Holistic 3D Human Motion From Speech CVPR 2023

Sound Localization from Motion: Jointly Learning Sound Direction and Camera Rotation ICCV 2023