Computer Vision › Analysis ›

Scene Understanding

1887 directly classified papers

Papers per year

Papers

CAESAR: An Embodied Simulator for Generating Multimodal Referring Expression Datasets NIPS 2022

A Survey on Machine Learning Approaches for Modelling Intuitive Physics IJCAI 2022

QLEVR: A Diagnostic Dataset for Quantificational Language and Elementary Visual Reasoning NAACL 2022

SVTR: Scene Text Recognition with a Single Visual Model IJCAI 2022

Towards Better Semantic Understanding of Mobile Interfaces COLING 2022

CrossLocate: Cross-Modal Large-Scale Visual Geo-Localization in Natural Environments Using Rendered Modalities WACV 2022

HL-Net: Heterophily Learning Network for Scene Graph Generation CVPR 2022

ELSR: Efficient Line Segment Reconstruction With Planes and Points Guidance CVPR 2022

Find Someone Who: Visual Commonsense Understanding in Human-Centric Grounding EMNLP 2022

Text2Pos: Text-to-Point-Cloud Cross-Modal Localization CVPR 2022

Stability-Driven Contact Reconstruction From Monocular Color Images CVPR 2022

SGTR: End-to-End Scene Graph Generation With Transformer CVPR 2022

Efficient Large-Scale Localization by Global Instance Recognition CVPR 2022

Cerberus Transformer: Joint Semantic, Affordance and Attribute Parsing CVPR 2022

Weakly but Deeply Supervised Occlusion-Reasoned Parametric Road Layouts CVPR 2022

There’s a Time and Place for Reasoning Beyond the Image ACL 2022

SCONE: Surface Coverage Optimization in Unknown Environments by Volumetric Integration NIPS 2022

Flexible Visual Grounding ACL 2022

Vision Transformers provably learn spatial structure NIPS 2022

Bridging the Gap Between Learning in Discrete and Continuous Environments for Vision-and-Language Navigation CVPR 2022

Breaking Bad: A Dataset for Geometric Fracture and Reassembly NIPS 2022

Fine-Grained Predicates Learning for Scene Graph Generation CVPR 2022

Visual Commonsense in Pretrained Unimodal and Multimodal Models NAACL 2022

Amodal Panoptic Segmentation CVPR 2022

RelTransformer: A Transformer-Based Long-Tail Visual Relationship Recognition CVPR 2022