Yong Zhang

111 papers · 2008–2026 · 19 conferences · across top CS/AI conferences

Achievements

+14 more ↓

🧭 Keyword Pioneer 🌈 Renaissance Researcher (7) 🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (16) 🐣 Hot Topic Early Bird

🐝 Cross-Pollinator (12) 🗺️ Taxonomy Completionist (16) 🌈 Renaissance Researcher (7) 🏠 Conference Loyalist (30) 🤝 Dynamic Duo (20) 🧬 Topic Evolution 🏆 Keyword Champion 🏆 Grand Slam 🔬 Deep Specialist (15) 📈 Trend Setter 🔥 Unstoppable (10) ⚡ Prolific Year (26) 🗃️ Keyword Collector (463) 💎 Century Club (109)

Conferences

CVPR (30) ICCV (12) AAAI (12) ECCV (11) NIPS (8) EMNLP (7) ACL (5) ICLR (5) IJCAI (4) COLING (3) NAACL (3) INTERSPEECH (2) ICML (2) ACML (2) IJCNLP (1) EACL (1) CONLL (1) RSS (1) WACV (1)

Top co-authors

Ying Shan (20) Xiaodong Cun (20) Baoyuan Wu (15) Yanbo Fan (13) Mohammad Akbari (10) Xintao Wang (10) Jue Wang (10) Xuan Wang (8) Zirui Zhou (7) Menghan Xia (7)

Research topics

Privacy (1)

Keywords

large language model (8) diffusion model (7) video generation (7) domain generalization (6) knowledge distillation (6) latent space (5) deepfake detection (5) facial action unit (5) model compression (5) self-supervised learning (4) object detection (4) gan inversion (4) attention mechanism (4) intensity estimation (4) graph neural network (4) optimal transport (3) 3d reconstruction (3) unsupervised learning (3) generative adversarial network (3) representation learning (3)

Papers

Rethinking Schema Linking: A Context-Aware Bidirectional Retrieval Approach for Text-to-SQL EACL 2026 Appearance-Motion Decomposed Alignment for Text-Video Retrieval AAAI 2026 FedPall: Prototype-based Adversarial and Collaborative Learning for Federated Learning with Feature Drift ICCV 2025 DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation CVPR 2025 A Cross-Modal Densely Guided Knowledge Distillation Based on Modality Rebalancing Strategy for Enhanced Unimodal Emotion Recognition IJCAI 2025 Towards Secure and Usable 3D Assets: A Novel Framework for Automatic Visible Watermarking WACV 2025 CustomTTT: Motion and Appearance Customized Video Generation via Test-Time Training AAAI 2025 CustomCrafter: Customized Video Generation with Preserving Motion and Concept Composition Abilities AAAI 2025 DivPrune: Diversity-based Visual Token Pruning for Large Multimodal Models CVPR 2025 Task-Agnostic Language Model Watermarking via High Entropy Passthrough Layers AAAI 2025 Evaluating LLM Reasoning in the Operations Research Domain with ORQA AAAI 2025 Learn2Aggregate: Supervised Generation of Chvatal-Gomory Cuts Using Graph Neural Networks AAAI 2025 Efficiently Serving Large Multimodal Models Using EPD Disaggregation ICML 2025 Diffusion-based Decoupled Deterministic and Uncertain Framework for Probabilistic Multivariate Time Series Forecasting ICLR 2025 Dynamic Attention-Guided Context Decoding for Mitigating Context Faithfulness Hallucinations in Large Language Models ACL 2025 DeTriever: Decoder-representation-based Retriever for Improving NL2SQL In-Context Learning COLING 2025 CASP: Compression of Large Multimodal Models Based on Attention Sparsity CVPR 2025 GRASP: Replace Redundant Layers with Adaptive Singular Parameters for Efficient Model Compression EMNLP 2025 DepthCrafter: Generating Consistent Long Depth Sequences for Open-world Videos CVPR 2025 Cocktail Universal Adversarial Attack on Deep Neural Networks ECCV 2024 DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors ECCV 2024 LFME: A Simple Framework for Learning from Multiple Experts in Domain Generalization NIPS 2024 Superfiltering: Weak-to-Strong Data Filtering for Fast Instruction-Tuning ACL 2024 Noise Calibration: Plug-and-play Content-Preserving Video Enhancement using Pre-trained Video Diffusion Models ECCV 2024 FreeNoise: Tuning-Free Longer Video Diffusion via Noise Rescheduling ICLR 2024 ScaleCrafter: Tuning-free Higher-Resolution Visual Generation with Diffusion Models ICLR 2024 GOLD: Generalized Knowledge Distillation via Out-of-Distribution-Guided Language Data Generation NAACL 2024 Hierarchical Attention Graph for Scientific Document Summarization in Global and Local Level NAACL 2024 From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning NAACL 2024 Fair and Efficient Contribution Valuation for Vertical Federated Learning ICLR 2024 Towards Human-aligned Evaluation for Linear Programming Word Problems COLING 2024 Parameterized Approximation Algorithms for Sum of Radii Clustering and Variants AAAI 2024 Make a Cheap Scaling: A Self-Cascade Diffusion Model for Higher-Resolution Adaptation ECCV 2024 CV-VAE: A Compatible Video VAE for Latent Generative Video Models NIPS 2024 Make-Your-Anchor: A Diffusion-based 2D Avatar Generation Framework CVPR 2024 EvalCrafter: Benchmarking and Evaluating Large Video Generation Models CVPR 2024 VideoCrafter2: Overcoming Data Limitations for High-Quality Video Diffusion Models CVPR 2024 OMG: Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models ECCV 2024 MOFA-Video: Controllable Image Animation via Generative Motion Field Adaptions in Frozen Image-to-Video Diffusion Model ECCV 2024 Shortcuts Arising from Contrast: Towards Effective and Lightweight Clean-Label Attacks in Prompt-Based Learning EMNLP 2024 LaWa: Using Latent Space for In-Generation Image Watermarking ECCV 2024 Domain Generalization via Rationale Invariance ICCV 2023 DeepfakeBench: A Comprehensive Benchmark of Deepfake Detection NIPS 2023 Inserting Anybody in Diffusion Models via Celeb Basis NIPS 2023 CoordFill: Efficient High-Resolution Image Inpainting via Parameterized Coordinate Querying AAAI 2023 LaTeX2Solver: a Hierarchical Semantic Parsing of LaTeX Document into Code for an Assistive Optimization Modeling Application ACL 2023 ArchBERT: Bi-Modal Understanding of Neural Architectures and Natural Languages CONLL 2023 Learning To Generate Language-Supervised and Open-Vocabulary Scene Graph Using Pre-Trained Visual-Semantic Space CVPR 2023 3D GAN Inversion With Facial Symmetry Prior CVPR 2023 Generating Human Motion From Textual Descriptions With Discrete Representations CVPR 2023 DPE: Disentanglement of Pose and Expression for General Video Portrait Editing CVPR 2023 High-Fidelity Clothed Avatar Reconstruction From a Single Image CVPR 2023 Improved Test-Time Adaptation for Domain Generalization CVPR 2023 Fine-Grained Face Swapping via Regional GAN Inversion CVPR 2023 High-Fidelity Facial Avatar Reconstruction From Monocular Video With Generative Priors CVPR 2023 Next3D: Generative Neural Texture Rasterization for 3D-Aware Head Avatars CVPR 2023 SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face Animation CVPR 2023 PRCA: Fitting Black-Box Large Language Models for Retrieval Question Answering via Pluggable Reward-Driven Contextual Adapter EMNLP 2023 ArchBERT: Bi-Modal Understanding of Neural Architectures and Natural Languages EMNLP 2023 ETran: Energy-Based Transferability Estimation ICCV 2023 Bridging Vision and Language Encoders: Parameter-Efficient Tuning for Referring Image Segmentation ICCV 2023 FateZero: Fusing Attentions for Zero-shot Text-based Video Editing ICCV 2023 ToonTalker: Cross-Domain Face Reenactment ICCV 2023 UCF: Uncovering Common Features for Generalizable Deepfake Detection ICCV 2023 Smart Initial Basis Selection for Linear Programs ICML 2023 Boosting Chinese ASR Error Correction with Dynamic Error Scaling Mechanism INTERSPEECH 2023 Prompt Guided Copy Mechanism for Conversational Question Answering INTERSPEECH 2023 FENeRF: Face Editing in Neural Radiance Fields CVPR 2022 Augmenting Operations Research with Auto-Formulation of Optimization Models From Problem Descriptions EMNLP 2022 Debiasing NLU Models via Causal Intervention and Counterfactual Reasoning AAAI 2022 Cosine Model Watermarking against Ensemble Distillation AAAI 2022 Prior-Guided Adversarial Initialization for Fast Adversarial Training ECCV 2022 Boosting the Transferability of Adversarial Attacks with Reverse Adversarial Perturbation NIPS 2022 E-LANG: Energy-Based Joint Inferencing of Super and Swift Language Models ACL 2022 Unsupervised Sentence Textual Similarity with Compositional Phrase Semantics COLING 2022 OST: Improving Generalization of DeepFake Detection via One-Shot Test-Time Training NIPS 2022 LAS-AT: Adversarial Training With Learnable Attack Strategy CVPR 2022 High-Fidelity GAN Inversion for Image Attribute Editing CVPR 2022 Self-Supervised Learning of Adversarial Example: Towards Good Generalizations for Deepfake Detection CVPR 2022 Exploring Structure-Aware Transformer Over Interaction Proposals for Human-Object Interaction Detection CVPR 2022 SemAug: Semantically Meaningful Image Augmentations for Object Detection through Language Grounding ECCV 2022 StyleHEAT: One-Shot High-Resolution Editable Talking Face Generation via Pre-trained StyleGAN ECCV 2022 Probabilistic Modeling of Semantic Ambiguity for Scene Graph Generation CVPR 2021 Generating Self-Contained and Summary-Centric Question Answer Pairs via Differentiable Reward Imitation Learning EMNLP 2021 Finding Representative Interpretations on Convolutional Neural Networks ICCV 2021 DAE-GAN: Dynamic Aspect-Aware GAN for Text-to-Image Synthesis ICCV 2021 SimROD: A Simple Adaptation Method for Robust Object Detection ICCV 2021 Meta-Attack: Class-Agnostic and Model-Agnostic Physical Adversarial Attack ICCV 2021 Robust Counterfactual Explanations on Graph Neural Networks NIPS 2021 Personalized Cross-Silo Federated Learning on Non-IID Data AAAI 2021 Targeted Attack against Deep Neural Networks via Flipping Limited Weight Bits ICLR 2021 Generalizing Face Forgery Detection With High-Frequency Features CVPR 2021 Semi-Supervised Bilingual Lexicon Induction with Two-way Interaction EMNLP 2020 Discovering Subsequence Patterns for Next POI Recommendation IJCAI 2020 Sparse Adversarial Attack via Perturbation Factorization ECCV 2020 Label Error Correction and Generation through Label Relationships AAAI 2020 A Relaxed Matching Procedure for Unsupervised BLI ACL 2020 Robust Document Distance with Wasserstein-Fisher-Rao metric ACML 2020 Context-Aware Feature and Label Fusion for Facial Action Unit Intensity Estimation With Partially Labeled Data ICCV 2019 Hierarchical Inter-Attention Network for Document Classification with Multi-Task Learning IJCAI 2019 Joint Representation and Estimator Learning for Facial Action Unit Intensity Estimation CVPR 2019 Compressing Convolutional Neural Networks via Factorized Convolutional Filters CVPR 2019 Exact Adversarial Attack to Image Captioning via Structured Output Learning With Latent Variables CVPR 2019 Classifier Learning With Prior Probabilities for Facial Action Unit Recognition CVPR 2018 Weakly-Supervised Deep Convolutional Neural Network Learning for Facial Action Unit Intensity Estimation CVPR 2018 Hierarchical Electricity Time Series Forecasting for Integrating Consumption Patterns Analysis and Aggregation Consistency IJCAI 2018 Bilateral Ordinal Relevance Multi-Instance Regression for Facial Action Unit Intensity Estimation CVPR 2018 MainiwayAI at IJCNLP-2017 Task 2: Ensembles of Deep Architectures for Valence-Arousal Prediction IJCNLP 2017 Unifying Topic, Sentiment & Preference in an HDP-Based Rating Regression Model for Online Reviews ACML 2016 Penalty Decomposition Methods for Rank Minimization NIPS 2011 NanoNewton Force Sensing and Control in Microrobotic Cell Manipulation RSS 2008