Yingya Zhang

27 papers · 2013–2025 · 7 conferences · across top CS/AI conferences

Achievements

+12 more ↓

🌉 Interdisciplinary Bridge 🏃 Academic Marathon (12) 🌍 Conference Polyglot (7) 🌈 Renaissance Researcher (6) 🗺️ Taxonomy Completionist (52)

🗺️ Taxonomy Completionist (52) 🧭 Keyword Pioneer 🐣 Hot Topic Early Bird 🏆 Grand Slam 🤝 Dynamic Duo (19) 🧬 Topic Evolution 🔬 Deep Specialist (10) 🗃️ Keyword Collector (149) 🔥 Unstoppable (5) ⚡ Prolific Year (9) 🚀 Conference Pioneer 💎 Century Club (27)

Conferences

CVPR (9) ICCV (8) NIPS (4) AAAI (3) ECCV (1) ICLR (1) ICML (1)

Top co-authors

Shiwei Zhang (19) Xiang Wang (12) Hangjie Yuan (9) Deli Zhao (8) Yujie Wei (8) Kang Zhao (7) Zhiwu Qing (7) PAN PAN (5) Haonan Qiu (4) Yinghui Xu (4)

Keywords

diffusion model (7) video generation (6) text-to-video generation (3) communication efficiency (3) transfer learning (3) temporal modeling (3) contrastive learning (2) face generation (2) video customization (2) generative model (2) decentralized optimization (2) few-shot learning (2) action recognition (2) non-convex optimization (2) video recognition (2) distributed training (2) video diffusion model (2) stochastic gradient descent (2) reward modeling (1) representation learning (1)

Papers

FreeScale: Unleashing the Resolution of Diffusion Models via Tuning-Free Scale Fusion ICCV 2025 Timestep Embedding Tells: It's Time to Cache for Video Diffusion Model CVPR 2025 PersonalVideo: High ID-Fidelity Video Customization without Dynamic and Semantic Degradation ICCV 2025 FreeMask: Rethinking the Importance of Attention Masks for Zero-Shot Video Editing AAAI 2025 DreamRelation: Relation-Centric Video Customization ICCV 2025 AE-NeRF: Audio Enhanced Neural Radiance Field for Few Shot Talking Head Synthesis AAAI 2024 A Recipe for Scaling up Text-to-Video Generation with Text-free Videos CVPR 2024 Hierarchical Spatio-temporal Decoupling for Text-to-Video Generation CVPR 2024 InstructVideo: Instructing Video Diffusion Models with Human Feedback CVPR 2024 DreamVideo: Composing Your Dream Videos with Customized Subject and Motion CVPR 2024 S^3D-NeRF: Single-Shot Speech-Driven Neural Radiance Field for High Fidelity Talking Head Synthesis ECCV 2024 EvolveDirector: Approaching Advanced Text-to-Image Generation with Large Vision-Language Models NIPS 2024 Disentangling Spatial and Temporal Learning for Efficient Image-to-Video Transfer Learning ICCV 2023 VideoComposer: Compositional Video Synthesis with Motion Controllability NIPS 2023 FaceComposer: A Unified Model for Versatile Facial Content Creation NIPS 2023 The Devil is in the Wrongly-classified Samples: Towards Unified Open-set Recognition ICLR 2023 MoLo: Motion-Augmented Long-Short Contrastive Learning for Few-Shot Action Recognition CVPR 2023 Enlarging Instance-Specific and Class-Specific Information for Open-Set Action Recognition CVPR 2023 LipFormer: High-Fidelity and Generalizable Talking Face Generation With a Pre-Learned Facial Codebook CVPR 2023 Space-time Prompting for Video Class-incremental Learning ICCV 2023 RLIPv2: Fast Scaling of Relational Language-Image Pre-Training ICCV 2023 Revisiting Optimal Convergence Rate for Smooth and Non-convex Stochastic Decentralized Optimization NIPS 2022 DecentLaM: Decentralized Momentum SGD for Large-Batch Deep Training ICCV 2021 Communication Efficient SGD via Gradient Sampling With Bayes Prior CVPR 2021 Distribution Adaptive INT8 Quantization for Training CNNs AAAI 2021 Accelerating Gossip SGD with Periodic Global Averaging ICML 2021 Robust Subspace Clustering via Half-Quadratic Minimization ICCV 2013