Yadong Mu

51 papers · 2013–2026 · 9 conferences · across top CS/AI conferences

Achievements

+14 more ↓

🧭 Keyword Pioneer 🐣 Hot Topic Early Bird 🗺️ Taxonomy Completionist (13) 🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (9)

🏃 Academic Marathon (12) 🗺️ Taxonomy Completionist (13) 🧭 Keyword Pioneer 🤝 Dynamic Duo (11) 👑 Triple Crown 🏆 Grand Slam 🧬 Topic Evolution 🏆 Keyword Champion (2) 🔥 Unstoppable (7) 🚀 Conference Pioneer ⚡ Prolific Year (8) 🗃️ Keyword Collector (229) 💎 Century Club (50) 📈 Trend Setter

Conferences

CVPR (15) AAAI (8) ICLR (6) NIPS (6) ICML (5) IJCAI (5) ICCV (3) ECCV (2) WACV (1)

Top co-authors

Yang Jin (11) Zhicheng Sun (9) Hao Jiang (8) Kun Xu (6) Chenguo Lin (4) Yang Song (4) yongzhi li (4) Chenchen Liu (4) Liwei Chen (4) Kun Gai (4)

Research topics

Privacy (1)

Keywords

video understanding (5) object detection (4) attention mechanism (4) weakly-supervised learning (3) convolutional neural network (3) diffusion model (3) graph neural network (3) neural network (3) transfer learning (3) temporal action localization (3) vision-language model (2) graph convolutional network (2) feature learning (2) influence function (2) semantic segmentation (2) personalized generation (2) cross-modal learning (2) vision-language navigation (2) continual learning (2) action recognition (2)

Papers

Generating Attribute-Aware Human Motions from Textual Prompt AAAI 2026 Weakly-Supervised Affordance Grounding Guided by Part-Level Semantic Priors ICLR 2025 OmniPhysGS: 3D Constitutive Gaussians for General Physics-Based Dynamics Generation ICLR 2025 Pyramidal Flow Matching for Efficient Video Generative Modeling ICLR 2025 DiffSplat: Repurposing Image Diffusion Models for Scalable Gaussian Splat Generation ICLR 2025 Closed-Loop Long-Horizon Robotic Planning via Equilibrium Sequence Modeling ICML 2025 NavQ: Learning a Q-Model for Foresighted Vision-and-Language Navigation ICCV 2025 Neural Assembler: Learning to Generate Fine-Grained Robotic Assembly Instructions from Multi-View Images AAAI 2025 Granularity-Adaptive Spatial Evidence Tokenization for Video Question Answering AAAI 2025 Unified Language-Vision Pretraining in LLM with Dynamic Discrete Visual Tokenization ICLR 2024 Local Occupancy-Enhanced Object Grasping with Multiple Triplanar Projection ECCV 2024 Ink Dot-Oriented Differentiable Optimization for Neural Image Halftoning CVPR 2024 Weakly-Supervised Spatio-Temporal Video Grounding with Variational Cross-Modal Alignment ECCV 2024 HumanSplat: Generalizable Single-Image Human Gaussian Splatting with Structure Priors NIPS 2024 RectifID: Personalizing Rectified Flow with Anchored Classifier Guidance NIPS 2024 Exploring Orthogonality in Open World Object Detection CVPR 2024 Countering Personalized Text-to-Image Generation with Influence Watermarks CVPR 2024 Learning Solution-Aware Transformers for Efficiently Solving Quadratic Assignment Problem ICML 2024 Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization ICML 2024 Transferable Video Moment Localization by Moment-Guided Query Prompting AAAI 2024 InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior ICLR 2024 Video Action Segmentation via Contextually Refined Temporal Keypoints ICCV 2023 Rewiring Neurons in Non-Stationary Environments NIPS 2023 Tree-Structured Trajectory Encoding for Vision-and-Language Navigation AAAI 2023 Learning Instance-Level Representation for Large-Scale Multi-Modal Pretraining in E-Commerce CVPR 2023 Neural Koopman Pooling: Control-Inspired Temporal Dynamics Encoding for Skeleton-Based Action Recognition CVPR 2023 Regularizing Second-Order Influences for Continual Learning CVPR 2023 Trapdoor Normalization with Irreversible Ownership Verification ICML 2023 Image Completion With Heterogeneously Filtered Spectral Hints WACV 2023 Joint Video Summarization and Moment Localization by Cross-Task Sample Transfer CVPR 2022 Conditional Diffusion Process for Inverse Halftoning NIPS 2022 Embracing Consistency: A One-Stage Approach for Spatio-Temporal Video Grounding NIPS 2022 Complex Video Action Reasoning via Learnable Markov Logic Network CVPR 2022 Dense Events Grounding in Video AAAI 2021 Learning 3-D Human Pose Estimation from Catadioptric Videos IJCAI 2021 Multi-Target Invisibly Trojaned Networks for Visual Recognition and Detection IJCAI 2021 Self-Supervised Video Action Localization with Adversarial Temporal Transforms IJCAI 2021 Localize, Assemble, and Predicate: Contextual Object Proposal Embedding for Visual Relation Detection AAAI 2020 Beyond Short-Term Snippet: Video Relation Detection With Spatio-Temporal Global Context CVPR 2020 Non-Local Neural Networks With Grouped Bilinear Attentional Transforms CVPR 2020 Weakly-Supervised Action Localization by Generative Attention Modeling CVPR 2020 Informative Dropout for Robust Representation Learning: A Shape-bias Perspective ICML 2020 Visual-Semantic Matching by Exploring High-Order Attention and Distraction CVPR 2020 Fast Fourier Convolution NIPS 2020 Learning Temporal Co-Attention Models for Unsupervised Video Action Localization CVPR 2020 Recurrent Attentive Zooming for Joint Crowd Counting and Precise Localization CVPR 2019 Attention-Based Multi-Context Guiding for Few-Shot Semantic Segmentation AAAI 2019 A Stochastic Image Grammar for Fine-Grained 3D Scene Reconstruction IJCAI 2016 Coordinate Discrete Optimization for Efficient Cross-View Image Retrieval IJCAI 2016 Hash-SVM: Scalable Kernel Machines for Large-Scale Visual Classification CVPR 2014 Distributed Low-Rank Subspace Segmentation ICCV 2013