Computer Vision › Analysis ›

Scene Understanding

1887 directly classified papers

Papers per year

Papers

360+x: A Panoptic Multi-modal Scene Understanding Dataset CVPR 2024

Multi-View Dynamic Reflection Prior for Video Glass Surface Detection AAAI 2024

Semi-Supervised Scene Change Detection by Distillation From Feature-Metric Alignment WACV 2024

“Image, Tell me your story!” Predicting the original meta-context of visual misinformation EMNLP 2024

TSA2: Temporal Segment Adaptation and Aggregation for Video Harmonization WACV 2024

Plot Twist: Multimodal Models Don’t Comprehend Simple Chart Details EMNLP 2024

Semantic Complete Scene Forecasting from a 4D Dynamic Point Cloud Sequence AAAI 2024

Low-Complexity Acoustic Scene Classification Using Parallel Attention-Convolution Network INTERSPEECH 2024

NITEC: Versatile Hand-Annotated Eye Contact Dataset for Ego-Vision Interaction WACV 2024

Beyond the Label Itself: Latent Labels Enhance Semi-supervised Point Cloud Panoptic Segmentation AAAI 2024

Rank2Tell: A Multimodal Driving Dataset for Joint Importance Ranking and Reasoning WACV 2024

Panoptic Scene Graph Generation with Semantics-Prototype Learning AAAI 2024

Video Discourse Parsing and Its Application to Multimodal Summarization: A Dataset and Baseline Approaches EMNLP 2024

RobustCLEVR: A Benchmark and Framework for Evaluating Robustness in Object-Centric Learning WACV 2024

Can CLIP Help Sound Source Localization? WACV 2024

TD²-Net: Toward Denoising and Debiasing for Video Scene Graph Generation AAAI 2024

CPN: Complementary Proposal Network for Unconstrained Text Detection AAAI 2024

Self-Supervised Relation Alignment for Scene Graph Generation WACV 2024

FocusTune: Tuning Visual Localization Through Focus-Guided Sampling WACV 2024

CGAPoseNet+GCAN: A Geometric Clifford Algebra Network for Geometry-Aware Camera Pose Regression WACV 2024

Rotation-Constrained Cross-View Feature Fusion for Multi-View Appearance-Based Gaze Estimation WACV 2024

Can You Even Tell Left From Right? Presenting a New Challenge for VQA WACV 2024

Cross-Attention Between Satellite and Ground Views for Enhanced Fine-Grained Robot Geo-Localization WACV 2024

ArcGeo: Localizing Limited Field-of-View Images Using Cross-View Matching WACV 2024

Improving Vision-and-Language Reasoning via Spatial Relations Modeling WACV 2024