Yu-Xiong Wang

84 papers · 2015–2025 · 10 conferences · across top CS/AI conferences

Achievements

+17 more ↓

🏃 Academic Marathon (10) 🌍 Conference Polyglot (10) 🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🐝 Cross-Pollinator (9)

🗺️ Taxonomy Completionist (105) 🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer 🌟 Keyword Trendsetter Combo (3) 🏠 Conference Loyalist (27) 🤝 Dynamic Duo (18) 👑 Triple Crown 🔬 Deep Specialist (14) 🧬 Topic Evolution 🏆 Keyword Champion (3) 📈 Trend Setter ⚡ Prolific Year (20) 🚀 Conference Pioneer ❓ The Questioner (2) 🔥 Unstoppable (11) 💎 Century Club (84) 🗃️ Keyword Collector (288)

Conferences

CVPR (27) NIPS (15) ICCV (13) ICLR (11) ICML (7) ECCV (6) WACV (2) ACL (1) CORL (1) EMNLP (1)

Top co-authors

Martial Hebert (18) Liang-Yan Gui (14) Zhipeng Bao (9) Ziqi Pang (9) Yunze Man (8) Liangyan Gui (8) Deva Ramanan (8) Shengcao Cao (8) Sirui Xu (7) Jun-Kun Chen (7)

Keywords

diffusion model (8) few-shot learning (8) transfer learning (8) object detection (8) representation learning (7) neural radiance field (7) data augmentation (6) contrastive learning (5) semantic segmentation (5) image classification (4) vision-language model (4) human-object interaction (4) generative model (4) 3d reconstruction (4) self-supervised learning (4) novel view synthesis (4) domain adaptation (3) unsupervised learning (3) scene understanding (3) 3d vision (3)

Papers

ReferEverything: Towards Segmenting Everything We Can Speak of in Videos ICCV 2025 Visual Program Distillation with Template-Based Augmentation EMNLP 2025 RandAR: Decoder-only Autoregressive Visual Generation in Random Orders CVPR 2025 GLUS: Global-Local Reasoning Unified into A Single Large Language Model for Video Segmentation CVPR 2025 Floating No More: Object-Ground Reconstruction from a Single Image CVPR 2025 Argus: Vision-Centric Reasoning with Grounded Chain-of-Thought CVPR 2025 InterMimic: Towards Universal Whole-Body Control for Physics-Based Human-Object Interactions CVPR 2025 InterAct: Advancing Large-Scale Versatile 3D Human-Object Interaction Generation CVPR 2025 Refer to Any Segmentation Mask Group With Vision-Language Prompts ICCV 2025 Proposer-Agent-Evaluator (PAE): Autonomous Skill Discovery For Foundation Model Internet Agents ICML 2025 Diff-2-in-1: Bridging Generation and Dense Perception with Diffusion Models ICLR 2025 Swiss Army Knife: Synergizing Biases in Knowledge from Vision Foundation Models for Multi-Task Learning ICLR 2025 3DGS-Drag: Dragging Gaussians for Intuitive Point-Based 3D Editing ICLR 2025 RTDiff: Reverse Trajectory Synthesis via Diffusion for Offline Reinforcement Learning ICLR 2025 Aligning Generative Denoising with Discriminative Objectives Unleashes Diffusion for Visual Perception ICLR 2025 Dexplore: Scalable Neural Control for Dexterous Manipulation from Reference Scoped Exploration CORL 2025 RMem: Restricted Memory Banks Improve Video Object Segmentation CVPR 2024 ProEdit: Simple Progression is All You Need for High-Quality 3D Scene Editing NIPS 2024 Reinforcement Learning Gradients as Vitamin for Online Finetuning Decision Transformers NIPS 2024 InterDreamer: Zero-Shot Text to 3D Dynamic Human-Object Interaction NIPS 2024 Lexicon3D: Probing Visual Foundation Models for Complex 3D Scene Understanding NIPS 2024 SceneCraft: Layout-Guided 3D Scene Generation NIPS 2024 InstructG2I: Synthesizing Images from Multimodal Attributed Graphs NIPS 2024 Aligning Large Multimodal Models with Factually Augmented RLHF ACL 2024 Situational Awareness Matters in 3D Vision Language Reasoning CVPR 2024 ConsistDreamer: 3D-Consistent 2D Diffusion for High-Fidelity Scene Editing CVPR 2024 Region-Based Representations Revisited CVPR 2024 TAMM: TriAdapter Multi-Modal Learning for 3D Shape Understanding CVPR 2024 Instruct 4D-to-4D: Editing 4D Scenes as Pseudo-3D Scenes Using 2D Diffusion CVPR 2024 AlignDiff: Aligning Diffusion Models for General Few-Shot Segmentation ECCV 2024 Robust Model-Based Optimization for Challenging Fitness Landscapes ICLR 2024 SOHES: Self-supervised Open-world Hierarchical Entity Segmentation ICLR 2024 Frozen Transformers in Language Models Are Effective Visual Encoder Layers ICLR 2024 Offline Imitation from Observation via Primal Wasserstein State Occupancy Matching ICML 2024 ATraDiff: Accelerating Online Reinforcement Learning with Imaginary Trajectories ICML 2024 Language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models ICML 2024 Distilling Out-of-Distribution Robustness from Vision-Language Foundation Models NIPS 2023 Learning Lightweight Object Detectors via Multi-Teacher Progressive Distillation ICML 2023 Contrastive Learning Relies More on Spatial Inductive Bias Than Supervised Learning: An Empirical Study ICCV 2023 Video State-Changing Object Segmentation ICCV 2023 InterDiff: Generating 3D Human-Object Interactions with Physics-Informed Diffusion ICCV 2023 Multi-task View Synthesis with Neural Radiance Fields ICCV 2023 MV-Map: Offboard HD-Map Generation with Multi-view Consistency ICCV 2023 Improving Equivariance in State-of-the-Art Supervised Depth and Normal Predictors ICCV 2023 ViCA-NeRF: View-Consistency-Aware 3D Editing of Neural Radiance Fields NIPS 2023 HASSOD: Hierarchical Adaptive Self-Supervised Object Detection NIPS 2023 Stochastic Multi-Person 3D Motion Forecasting ICLR 2023 Do Pre-Trained Models Benefit Equally in Continual Learning? WACV 2023 Beyond RGB: Scene-Property Synthesis With Neural Radiance Fields WACV 2023 YouTubePD: A Multimodal Benchmark for Parkinson’s Disease Analysis NIPS 2023 Object Discovery From Motion-Guided Tokens CVPR 2023 BEV-Guided Multi-Modality Fusion for Driving Perception CVPR 2023 Standing Between Past and Future: Spatio-Temporal Modeling for Multi-Camera 3D Multi-Object Tracking CVPR 2023 NeuralEditor: Editing Neural Radiance Fields via Manipulating Point Clouds CVPR 2023 Contrastive Mean Teacher for Domain Adaptive Object Detectors CVPR 2023 A Simple Solution for Offline Imitation from Observations and Examples with Possibly Incomplete Trajectories NIPS 2023 Discovering Objects That Can Move CVPR 2022 Continual Learning with Evolving Class Ontologies NIPS 2022 On the Importance of Firth Bias Reduction in Few-Shot Classification ICLR 2022 Diverse Human Motion Prediction Guided by Multi-level Spatial-Temporal Anchors ECCV 2022 PointTree: Transformation-Robust Point Cloud Encoder with Relaxed K-D Trees ECCV 2022 DIVeR: Real-Time and Accurate Neural Radiance Fields With Deterministic Integration for Volume Rendering CVPR 2022 Embracing Single Stride 3D Object Detector With Sparse Transformer CVPR 2022 Long-Tailed Recognition via Weight Balancing CVPR 2022 CEIP: Combining Explicit and Implicit Priors for Reinforcement Learning with Demonstrations NIPS 2022 Generative Modeling for Multi-task Visual Learning ICML 2022 Pixel Contrastive-Consistent Semi-Supervised Semantic Segmentation ICCV 2021 Image-Level or Object-Level? A Tale of Two Resampling Strategies for Long-Tailed Detection ICML 2021 Bowtie Networks: Generative Modeling for Joint Few-Shot Recognition and Novel-View Synthesis ICLR 2021 DAP: Detection-Aware Pre-Training With Weak Supervision CVPR 2021 Hallucination Improves Few-Shot Object Detection CVPR 2021 On the Importance of Distractors for Few-Shot Classification ICCV 2021 Learning To Hallucinate Examples From Extrinsic and Intrinsic Supervision ICCV 2021 Towards Streaming Perception ECCV 2020 Meta-Learning to Detect Rare Objects ICCV 2019 Learning Compositional Representations for Few-Shot Recognition ICCV 2019 Image Deformation Meta-Networks for One-Shot Learning CVPR 2019 Few-Shot Human Motion Prediction via Meta-Learning ECCV 2018 Low-Shot Learning From Imaginary Data CVPR 2018 Adversarial Geometry-Aware Human Motion Prediction ECCV 2018 Learning to Model the Tail NIPS 2017 Growing a Brain: Fine-Tuning by Increasing Model Capacity CVPR 2017 Learning from Small Sample Sets by Combining Unsupervised Meta-Training with CNNs NIPS 2016 Model Recommendation: Generating Object Detectors From Few Samples CVPR 2015