conftrace_

Computer Vision › Processing ›

Video Understanding

2,296 papers

Papers per year

2

2

63

28

59

34

51

69

135

164

277

244

339

321

423

85

'15

'20

'25

Papers

A Visually-grounded First-person Dialogue Dataset with Verbal and Non-verbal Responses EMNLP 2020

Open-Ended Visual Question Answering by Multi-Modal Domain Adaptation EMNLP 2020

Natural Language Rationales with Full-Stack Visual Reasoning: From Pixels to Semantic Frames to Commonsense Graphs EMNLP 2020

Visuo-Linguistic Question Answering (VLQA) Challenge EMNLP 2020

MMFT-BERT: Multimodal Fusion Transformer with BERT Encodings for Visual Question Answering EMNLP 2020

A Benchmark for Structured Procedural Knowledge Extraction from Cooking Videos EMNLP 2020

MAST: Multimodal Abstractive Summarization with Trimodal Hierarchical Attention EMNLP 2020

Reasoning Over History: Context Aware Visual Dialog EMNLP 2020

Multi-Scale Spatial-Temporal Integration Convolutional Tube for Human Action Recognition IJCAI 2020

Co-Saliency Spatio-Temporal Interaction Network for Person Re-Identification in Videos IJCAI 2020

Dress like an Internet Celebrity: Fashion Retrieval in Videos IJCAI 2020

A Transformer-Based Audio Captioning Model with Keyword Estimation INTERSPEECH 2020

Caption Alignment for Low Resource Audio-Visual Data INTERSPEECH 2020

Vocoder-Based Speech Synthesis from Silent Videos INTERSPEECH 2020

Detecting the Starting Frame of Actions in Video WACV 2020

Actor Conditioned Attention Maps for Video Action Detection WACV 2020

Exploring 3 R's of Long-term Tracking: Redetection, Recovery and Reliability WACV 2020

Periphery-Fovea Multi-Resolution Driving Model Guided by Human Attention WACV 2020

EpO-Net: Exploiting Geometric Constraints on Dense Trajectories for Motion Saliency WACV 2020

Representing Objects in Video as Space-Time Volumes by Combining Top-Down and Bottom-Up Processes WACV 2020

Architecture Search of Dynamic Cells for Semantic Video Segmentation WACV 2020

RPM-Net: Robust Pixel-Level Matching Networks for Self-Supervised Video Object Segmentation WACV 2020

Looking Ahead: Anticipating Pedestrians Crossing with Future Frames Prediction WACV 2020

End-To-End Trainable Video Super-Resolution Based on a New Mechanism for Implicit Motion Estimation and Compensation WACV 2020

Deep Position-Aware Hashing for Semantic Continuous Image Retrieval WACV 2020