Yue Cao

65 papers · 2015–2026 · 12 conferences · across top CS/AI conferences

Achievements

+15 more ↓

🌍 Conference Polyglot (12) 🏃 Academic Marathon (10) 🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🐝 Cross-Pollinator (15)

🐝 Cross-Pollinator (15) 🌈 Renaissance Researcher (8) 🗺️ Taxonomy Completionist (99) 🏠 Conference Loyalist (21) 🧬 Topic Evolution 🏆 Grand Slam 🤝 Dynamic Duo (21) 🔬 Deep Specialist (11) ❓ The Questioner ⚡ Prolific Year (9) 🚀 Conference Pioneer 🗃️ Keyword Collector (236) 📈 Trend Setter 🔥 Unstoppable (9) 💎 Century Club (58)

Conferences

CVPR (21) AAAI (7) ECCV (7) ICCV (7) ACL (5) ICML (5) NIPS (5) ICLR (3) EMNLP (2) EACL (1) IJCNLP (1) NAACL (1)

Top co-authors

Han Hu (21) Zheng Zhang (20) Yutong Lin (11) Stephen Lin (8) Zhenda Xie (8) Xiaojun Wan (8) Mingsheng Long (7) Yixuan Wei (6) Jianmin Wang (6) Ze Liu (6)

Research topics

Core AI (1)

Keywords

object detection (11) transfer learning (9) masked image modeling (6) vision transformer (6) representation learning (6) self-supervised learning (5) image classification (5) semantic segmentation (5) binary code (4) image retrieval (4) multi-modal learning (4) contrastive learning (3) vision-language model (3) image generation (3) paraphrase generation (3) diffusion model (3) reinforcement learning (2) metric learning (2) in-context learning (2) attention mechanism (2)

Papers

InquireMobile: Teaching VLM-based Mobile Agent to Request Human Assistance via Reinforcement Fine-Tuning ACL 2026 Unified Thinker: A General Reasoning Core for Image Generation ACL 2026 CNM-UNet: Continuous Ordinary Differential Equations for Medical Image Segmentation AAAI 2026 Mobile-R1: Towards Interactive Capability for VLM-Based Mobile Agent via Systematic Training ACL 2026 MAGIC: Mastering Physical Adversarial Generation in Context Through Collaborative LLM Agents AAAI 2026 Automatic Translational Correction of Multi-View Coronary Angiography Based on Auto-Annotation Data Generation AAAI 2026 Robust Noise Modeling for Spike Camera via Time-Interval Quantification and Spike-DSLR Multimodal Dataset in Low-Light Imaging AAAI 2026 Learning Physics-Based Full-Body Human Reaching and Grasping from Brief Walking References CVPR 2025 SceneTAP: Scene-Coherent Typographic Adversarial Planner against Vision-Language Models in Real-World Environments CVPR 2025 CapsFusion: Rethinking Image-Text Data at Scale CVPR 2024 IRAD: Implicit Representation-driven Image Resampling against Adversarial Attacks ICLR 2024 FedMut: Generalized Federated Learning via Stochastic Mutation AAAI 2024 Physics-Guided ISO-Dependent Sensor Noise Modeling for Extreme Low-Light Photography CVPR 2023 Images Speak in Images: A Generalist Painter for In-Context Visual Learning CVPR 2023 Revealing the Dark Secrets of Masked Image Modeling CVPR 2023 iCLIP: Bridging Image Classification and Contrastive Language-Image Pre-Training for Visual Recognition CVPR 2023 Continual Learners are Incremental Model Generalizers ICML 2023 One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale ICML 2023 Revisiting Discriminative vs. Generative Classifiers: Theory and Implications ICML 2023 Improving CLIP Fine-tuning Performance ICCV 2023 Deep Incubation: Training Large Models by Divide-and-Conquering ICCV 2023 Lightweight Transformer for Multi-Modal Object Detection (Student Abstract) AAAI 2023 SegGPT: Towards Segmenting Everything in Context ICCV 2023 On Data Scaling in Masked Image Modeling CVPR 2023 All Are Worth Words: A ViT Backbone for Diffusion Models CVPR 2023 EVA: Exploring the Limits of Masked Visual Representation Learning at Scale CVPR 2023 SimMIM: A Simple Framework for Masked Image Modeling CVPR 2022 "A Simple Approach and Benchmark for 21,000-Category Object Detection" ECCV 2022 A Simple Baseline for Open-Vocabulary Semantic Segmentation with Pre-trained Vision-Language Model ECCV 2022 Could Giant Pre-trained Image Models Extract Universal Representations? NIPS 2022 Swin Transformer V2: Scaling Up Capacity and Resolution CVPR 2022 Bayesian Modeling and Uncertainty Quantification for Learning to Optimize: What, Why, and How ICLR 2022 Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment CVPR 2022 Correlation-Aware Deep Tracking CVPR 2022 Video Swin Transformer CVPR 2022 WIND: Weighting Instances Differentially for Model-Agnostic Domain Adaptation IJCNLP 2021 Bootstrap Your Object Detector via Mixed Training NIPS 2021 WIND: Weighting Instances Differentially for Model-Agnostic Domain Adaptation ACL 2021 Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised Visual Representation Learning CVPR 2021 Cross-Iteration Batch Normalization CVPR 2021 ParaSCI: A Large Scientific Paraphrase Dataset for Longer Paraphrase Generation EACL 2021 Revisiting Pivot-Based Paraphrase Generation: Language Is Not the Only Optional Pivot EMNLP 2021 Group-Free 3D Object Detection via Transformers ICCV 2021 Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows ICCV 2021 Fold2Seq: A Joint Sequence(1D)-Fold(3D) Embedding-based Generative Model for Protein Design ICML 2021 Continual Learning for Neural Machine Translation NAACL 2021 DivGAN: Towards Diverse Paraphrase Generation via Diversified Generative Adversarial Network EMNLP 2020 A Closer Look at Local Aggregation Operators in Point Cloud Analysis ECCV 2020 VL-BERT: Pre-training of Generic Visual-Linguistic Representations ICLR 2020 Disentangled Non-local Neural Networks ECCV 2020 Negative Margin Matters: Understanding Margin in Few-shot Classification ECCV 2020 Parametric Instance Classification for Unsupervised Visual Feature learning NIPS 2020 Unpaired Learning of Deep Image Denoising ECCV 2020 Memory Enhanced Global-Local Aggregation for Video Object Detection CVPR 2020 RepPoints v2: Verification Meets Regression for Object Detection NIPS 2020 Jointly Learning to Align and Summarize for Neural Cross-Lingual Summarization ACL 2020 MultiSumm: Towards a Unified Model for Multi-Lingual Abstractive Summarization AAAI 2020 Spatial-Temporal Relation Networks for Multi-Object Tracking ICCV 2019 Maximum-Margin Hamming Hashing ICCV 2019 Learning to Optimize in Swarms NIPS 2019 Deep Cauchy Hashing for Hamming Space Retrieval CVPR 2018 Cross-Modal Hamming Hashing ECCV 2018 HashGAN: Deep Learning to Hash With Pair Conditional Wasserstein GAN CVPR 2018 Deep Visual-Semantic Quantization for Efficient Image Retrieval CVPR 2017 Learning Transferable Features with Deep Adaptation Networks ICML 2015