Yongdong Zhang

110 papers · 2013–2026 · 14 conferences · across top CS/AI conferences

Achievements

+14 more ↓

🧭 Keyword Pioneer 🗺️ Taxonomy Completionist (17) 🌈 Renaissance Researcher (6) 🌉 Interdisciplinary Bridge 🐣 Hot Topic Early Bird

🐣 Hot Topic Early Bird 🌉 Interdisciplinary Bridge 🏃 Academic Marathon (12) 🏠 Conference Loyalist (31) 🔬 Deep Specialist (16) 🏆 Keyword Champion (2) 🤝 Dynamic Duo (34) 🏆 Grand Slam 🗃️ Keyword Collector (452) ⚡ Prolific Year (24) 🚀 Conference Pioneer 📈 Trend Setter 💎 Century Club (105) 🔥 Unstoppable (9)

Conferences

CVPR (31) AAAI (15) IJCAI (15) ICCV (12) NIPS (9) ACL (6) ECCV (5) EMNLP (4) ICML (4) ICLR (3) NAACL (3) COLING (1) IJCNLP (1) SEMEVAL (1)

Top co-authors

Hongtao Xie (35) Zhendong Mao (26) Tianzhu Zhang (21) Feng Wu (20) Quan Wang (16) Yuxin Wang (11) Jie Wang (10) Benfeng Xu (8) Zheng-Jun Zha (7) Shancheng Fang (7)

Keywords

large language model (8) diffusion model (8) weakly supervised learning (8) domain adaptation (8) attention mechanism (8) semantic segmentation (6) few-shot learning (6) image generation (6) scene text recognition (5) semi-supervised learning (5) image-text matching (5) metric learning (4) multimodal learning (4) domain generalization (4) neural network (4) generative model (4) medical imaging (4) object detection (4) semantic alignment (4) contrastive learning (3)

Papers

In-Token Rationality Optimization: Towards Accurate and Concise LLM Reasoning via Self-Feedback AAAI 2026 GASim: A Graph-Accelerated Hybrid Framework for Social Simulation ACL 2026 SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder AAAI 2026 FS-Researcher: Test-Time Scaling for Long-Horizon Research Tasks with File-System-Based Agents ACL 2026 SpaceVLLM: Endowing Multimodal Large Language Model with Spatio-Temporal Video Grounding Capability AAAI 2026 Mask^2DiT: Dual Mask-based Diffusion Transformer for Multi-Scene Long Video Generation CVPR 2025 IGD: Instructional Graphic Design with Multimodal Layer Generation ICCV 2025 CMI-AIGCX at GenAI Detection Task 2: Leveraging Multilingual Proxy LLMs for Machine-Generated Text Detection in Academic Essays COLING 2025 ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA AAAI 2025 HOIGen-1M: A Large-scale Dataset for Human-Object Interaction Video Generation CVPR 2025 CLIP-Adapted Region-to-Text Learning for Generative Open-Vocabulary Semantic Segmentation ICCV 2025 Diffusion-based Source-biased Model for Single Domain Generalized Object Detection ICCV 2025 Forensic-MoE: Exploring Comprehensive Synthetic Image Detection Traces with Mixture of Experts ICCV 2025 Aggregation and Purification: Dual Enhancement Network for Point Cloud Few-shot Segmentation IJCAI 2024 Homology Consistency Constrained Efficient Tuning for Vision-Language Models NIPS 2024 Towards Next-Generation Logic Synthesis: A Scalable Neural Circuit Generation Framework NIPS 2024 MotionGS: Exploring Explicit Motion Guidance for Deformable 3D Gaussian Splatting NIPS 2024 AlignZeg: Mitigating Objective Misalignment for Zero-shot Semantic Segmentation ECCV 2024 Exploring Reliable Matching with Phase Enhancement for Night-time Semantic Segmentation ECCV 2024 Boosting Semi-Supervised Scene Text Recognition via Viewing and Summarizing NIPS 2024 USTC-BUPT at SemEval-2024 Task 8: Enhancing Machine-Generated Text Detection via Domain Adversarial Neural Networks and LLM Embeddings SEMEVAL 2024 USTC-BUPT at SemEval-2024 Task 8: Enhancing Machine-Generated Text Detection via Domain Adversarial Neural Networks and LLM Embeddings NAACL 2024 Task-Adaptive Prompted Transformer for Cross-Domain Few-Shot Learning AAAI 2024 Bootstrapping Large Language Models for Radiology Report Generation AAAI 2024 Prompting Few-shot Multi-hop Question Generation via Comprehending Type-aware Semantics NAACL 2024 Aspect-based Sentiment Analysis with Context Denoising NAACL 2024 ChiMed-GPT: A Chinese Medical Large Language Model with Full Training Regime and Better Alignment to Human Preferences ACL 2024 A Hierarchical Adaptive Multi-Task Reinforcement Learning Framework for Multiplier Circuit Design ICML 2024 A Circuit Domain Generalization Framework for Efficient Logic Synthesis in Chip Design ICML 2024 Coarse-to-Fine Highlighting: Reducing Knowledge Hallucination in Large Language Models ICML 2024 Reinforcement Learning within Tree Search for Fast Macro Placement ICML 2024 MILP-StuDio: MILP Instance Generation via Block Structure Decomposition NIPS 2024 AnyScene: Customized Image Synthesis with Composited Foreground CVPR 2024 DiffAM: Diffusion-based Adversarial Makeup Transfer for Facial Privacy Protection CVPR 2024 OTE: Exploring Accurate Scene Text Recognition Using One Token CVPR 2024 RealCustom: Narrowing Real Text Word for Real-Time Open-Domain Text-to-Image Customization CVPR 2024 DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations CVPR 2024 A Deep Instance Generative Framework for MILP Solvers Under Limited Data Availability NIPS 2023 On the Calibration of Large Language Models and Alignment EMNLP 2023 Adaptive Template Transformer for Mitochondria Segmentation in Electron Microscopy Images ICCV 2023 MomentDiff: Generative Video Moment Retrieval from Random to Real NIPS 2023 Grammatical Error Correction via Mixed-Grained Weighted Training EMNLP 2023 Progressive Spatio-Temporal Prototype Matching for Text-Video Retrieval ICCV 2023 Towards Accurate Image Coding: Improved Autoregressive Image Generation With Dynamic Vector Quantization CVPR 2023 Learning Semantic Relationship Among Instances for Image-Text Matching CVPR 2023 Not All Image Regions Matter: Masked Vector Quantization for Autoregressive Image Generation CVPR 2023 Learning Orthogonal Prototypes for Generalized Few-Shot Semantic Segmentation CVPR 2023 Linguistic More: Taking a Further Step toward Efficient and Accurate Scene Text Recognition IJCAI 2023 Proposal-Based Multiple Instance Learning for Weakly-Supervised Temporal Action Localization CVPR 2023 Dynamic Generative Targeted Attacks With Pattern Injection CVPR 2023 Crossing the Gap: Domain Generalization for Image Captioning CVPR 2023 Air-Decoding: Attribute Distribution Reconstruction for Decoding-Time Controllable Text Generation EMNLP 2023 De Novo Molecular Generation via Connection-aware Motif Mining ICLR 2023 Learning Cut Selection for Mixed-Integer Linear Programming via Hierarchical Sequence Model ICLR 2023 $k$NN Prompting: Beyond-Context Learning with Calibration-Free Nearest Neighbor Inference ICLR 2023 S2ynRE: Two-stage Self-training with Synthetic data for Low-resource Relation Extraction ACL 2023 Exploring Stroke-Level Modifications for Scene Text Editing AAAI 2023 Negative-Aware Attention Framework for Image-Text Matching CVPR 2022 Bridging the Gap Between Vision Transformers and Convolutional Neural Networks on Small Datasets NIPS 2022 Show Your Faith: Cross-Modal Confidence-Aware Network for Image-Text Matching AAAI 2022 Partial Class Activation Attention for Semantic Segmentation CVPR 2022 Motion-Modulated Temporal Fragment Alignment Network for Few-Shot Action Recognition CVPR 2022 Dual-Stream Knowledge-Preserving Hashing for Unsupervised Video Retrieval ECCV 2022 Cross-Modality Transformer for Visible-Infrared Person Re-identification ECCV 2022 Detecting Tampered Scene Text in the Wild ECCV 2022 Improving Chinese Spelling Check by Character Pronunciation Prediction: The Effects of Adaptivity and Granularity EMNLP 2022 MFAN: Multi-modal Feature-enhanced Attention Networks for Rumor Detection IJCAI 2022 Action Unit Memory Network for Weakly Supervised Temporal Action Localization CVPR 2021 Frequency-Aware Discriminative Feature Learning Supervised by Single-Center Loss for Face Forgery Detection CVPR 2021 Read Like Humans: Autonomous, Bidirectional and Iterative Language Modeling for Scene Text Recognition CVPR 2021 Lesion-Aware Transformers for Diabetic Retinopathy Grading CVPR 2021 Diverse Part Discovery: Occluded Person Re-Identification With Part-Aware Transformer CVPR 2021 Deep Metric Learning with Self-Supervised Ranking AAAI 2021 Semantic-guided Reinforced Region Embedding for Generalized Zero-Shot Learning AAAI 2021 Query-Memory Re-Aggregation for Weakly-supervised Video Object Segmentation AAAI 2021 Explainable Person Re-Identification With Attribute-Guided Metric Distillation ICCV 2021 Meta-Attack: Class-Agnostic and Model-Agnostic Physical Adversarial Attack ICCV 2021 From Two to One: A New Scene Text Recognizer With Visual Language Modeling Network ICCV 2021 Foreground Activation Maps for Weakly Supervised Object Localization ICCV 2021 Dynamic Inconsistency-aware DeepFake Video Detection IJCAI 2021 Task-Aware Part Mining Network for Few-Shot Learning ICCV 2021 Uncertainty Guided Collaborative Training for Weakly Supervised Temporal Action Detection CVPR 2021 Multi-Modality Cross Attention Network for Image and Sentence Matching CVPR 2020 Bilinear Graph Neural Network with Neighbor Interactions IJCAI 2020 Curriculum Learning for Natural Language Understanding ACL 2020 Hierarchical Granularity Transfer Learning NIPS 2020 Self-Supervised Domain-Aware Generative Network for Generalized Zero-Shot Learning CVPR 2020 Overcoming Language Priors with Self-supervised Learning for Visual Question Answering IJCAI 2020 Domain-Aware Visual Bias Eliminating for Generalized Zero-Shot Learning CVPR 2020 ContourNet: Taking a Further Step Toward Accurate Arbitrary-Shaped Scene Text Detection CVPR 2020 Graph Structured Network for Image-Text Matching CVPR 2020 Learning Hierarchy-Aware Knowledge Graph Embeddings for Link Prediction AAAI 2020 Filtration and Distillation: Enhancing Region Attention for Fine-Grained Visual Categorization AAAI 2020 CircleNet for Hip Landmark Detection AAAI 2020 Boundary Perception Guidance: A Scribble-Supervised Semantic Segmentation Approach IJCAI 2019 Learning to Draw Text in Natural Images with Conditional Adversarial Networks IJCAI 2019 DSRN: A Deep Scale Relationship Network for Scene Text Detection IJCAI 2019 Semi-supervised User Profiling with Heterogeneous Graph Attention Networks IJCAI 2019 A Two-Stream Mutual Attention Network for Semi-Supervised Biomedical Segmentation with Noisy Labels AAAI 2019 Distortion-aware CNNs for Spherical Images IJCAI 2018 Multi-Level Policy and Reward Reinforcement Learning for Image Captioning IJCAI 2018 High Resolution Feature Recovering for Accelerating Urban Scene Parsing IJCAI 2018 Scale-Adaptive Convolutions for Scene Parsing ICCV 2017 Sequential Prediction of Social Media Popularity with Deep Temporal Context Networks IJCAI 2017 Task-Driven Dynamic Fusion: Reducing Ambiguity in Video Description CVPR 2017 SOLAR: Scalable Online Learning Algorithms for Ranking IJCNLP 2015 Online Learning to Rank for Content-Based Image Retrieval IJCAI 2015 SOLAR: Scalable Online Learning Algorithms for Ranking ACL 2015 Multi-Task Deep Visual-Semantic Embedding for Video Thumbnail Selection CVPR 2015 Binary Code Ranking with Weighted Hamming Distance CVPR 2013