Yuan Gao

91 papers · 2016–2026 · 19 conferences · across top CS/AI conferences

Achievements

+12 more ↓

🌍 Conference Polyglot (19) 🐣 Hot Topic Early Bird 🌉 Interdisciplinary Bridge 🧭 Keyword Pioneer 🏃 Academic Marathon (9)

🐣 Hot Topic Early Bird 🐝 Cross-Pollinator (13) 🗺️ Taxonomy Completionist (127) 👑 Triple Crown 🏆 Grand Slam 👥 Mega-Team (23) 🔬 Deep Specialist (12) 💎 Century Club (87) 🚀 Conference Pioneer 🗃️ Keyword Collector (336) 🔥 Unstoppable (7) ⚡ Prolific Year (8)

Conferences

CVPR (12) AAAI (11) MICCAI (11) NIPS (8) ICML (8) ACL (6) ICCV (6) INTERSPEECH (5) ICLR (5) EMNLP (4) WACV (4) ECCV (3) IJCAI (2) COLING (1) JMLR (1) AISTATS (1) NAACL (1) ACML (1) RSS (1)

Top co-authors

Christian Kroer (8) Xin Wang (6) Wei Liu (6) Tao Tan (6) Jiayi Ma (6) Tianyu Zhang (5) Ke Yan (5) Chunyao Lu (5) Xinglong Liang (5) Ritse Mann (5)

Keywords

multimodal learning (6) feature fusion (5) market equilibrium (5) domain adaptation (4) convex optimization (4) semantic segmentation (4) speech emotion recognition (4) multi-task learning (4) representation learning (3) 3d reconstruction (3) fisher market (3) unsupervised learning (3) vision-language model (3) self-supervised learning (3) keypoint detection (3) image generation (3) knowledge distillation (3) object detection (2) model compression (2) attention mechanism (2)

Papers

InfoCLIP: Bridging Vision-Language Pretraining and Open-Vocabulary Semantic Segmentation via Information-Theoretic Alignment Transfer AAAI 2026 NeuralOM: Neural Ocean Model for Subseasonal-to-Seasonal Simulation AAAI 2026 Towards Multimodal Continual Knowledge Embedding with Modality Forgetting Modulation AAAI 2026 LUMIN: A Longitudinal Multi-modal Knowledge Decomposition Network for Predicting Breast Cancer Recurrence AAAI 2026 BLiSS: Evaluating Bilingual Learner Competence in Second Language Small Language Models EMNLP 2025 A Computational Simulation of Language Production in First Language Acquisition EMNLP 2025 Treat: A Unified Text-guided Conditioned Deep Learning Model for Generalized Radiotherapy Treatment Planning MICCAI 2025 RefineNet: Elevating Medical Foundation Models through Quality-Centric Data Curation by MLLM-Annotated Proxy Distillation MICCAI 2025 PLUS: Plug-and-Play Enhanced Liver Lesion Diagnosis Model on Non-Contrast CT Scans MICCAI 2025 EchoingECG: An Electrocardiogram Cross-Modal Model for Echocardiogram Tasks MICCAI 2025 DpDNet: An Dual-Prompt-Driven Network for Universal PET-CT Segmentation MICCAI 2025 On the Convergence of Tâtonnement for Linear Fisher Markets AAAI 2025 GrokFormer: Graph Fourier Kolmogorov-Arnold Transformers ICML 2025 LongDocURL: a Comprehensive Multimodal Long Document Benchmark Integrating Understanding, Reasoning, and Locating ACL 2025 Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient ACL 2025 Decoder-Only LLMs can be Masked Auto-Encoders ACL 2025 Entrospect: Information-Theoretic Self-Reflection Elicits Better Response Refinement of Small Language Models ACL 2025 OneForecast: A Universal Framework for Global and Regional Weather Forecasting ICML 2025 DiffGAD: A Diffusion-based Unsupervised Graph Anomaly Detector ICLR 2025 Demonstrating GPU Parallelized Robot Simulation and Rendering for Generalizable Embodied AI with ManiSkill3 RSS 2025 ProbMED: A Probabilistic Framework for Medical Multimodal Binding ICCV 2025 Towards Faster Decentralized Stochastic Optimization with Communication Compression ICLR 2025 Bridging Class Imbalance and Partial Labeling via Spectral-Balanced Energy Propagation for Skeleton-based Action Recognition ICCV 2025 DepR: Depth Guided Single-view Scene Reconstruction with Instance-level Diffusion ICCV 2025 Fuse Before Transfer: Knowledge Fusion for Heterogeneous Distillation ICCV 2025 DMTG: One-Shot Differentiable Multi-Task Grouping ICML 2024 VideoTetris: Towards Compositional Text-to-Video Generation NIPS 2024 Towards Neuron Attributions in Multi-Modal Large Language Models NIPS 2024 Locality Preserving Refinement for Shape Matching with Functional Maps AAAI 2024 EtymoLink: A Structured English Etymology Dataset ACL 2024 Dr3: Ask Large Language Models Not to Give Off-Topic Answers in Open Domain Multi-Hop Question Answering COLING 2024 SD2Event:Self-supervised Learning of Dynamic Detectors and Contextual Descriptors for Event Cameras CVPR 2024 Enhancing Vision-Language Pre-training with Rich Supervisions CVPR 2024 DeMatch: Deep Decomposition of Motion Field for Two-View Correspondence Learning CVPR 2024 Anchor-based Robust Finetuning of Vision-Language Models CVPR 2024 Instance-Adaptive and Geometric-Aware Keypoint Learning for Category-Level 6D Object Pose Estimation CVPR 2024 OneRestore: A Universal Restoration Framework for Composite Degradation ECCV 2024 Efficient Active Domain Adaptation for Semantic Segmentation by Selecting Information-rich Superpixels ECCV 2024 EControl: Fast Distributed Optimization with Compression and Error Control ICLR 2024 Aux-NAS: Exploiting Auxiliary Labels with Negligibly Extra Inference Cost ICLR 2024 Non-convex Stochastic Composite Optimization with Polyak Momentum ICML 2024 Unified Generation, Reconstruction, and Representation: Generalized Diffusion with Adaptive Latent Encoding-Decoding ICML 2024 Efficient Denoising Diffusion via Probabilistic Masking ICML 2024 Speech Emotion Recognition with Multi-level Acoustic and Semantic Information Extraction and Interaction INTERSPEECH 2024 Gaussian Interpolation Flows JMLR 2024 Improved Esophageal Varices Assessment from Non-Contrast CT Scans MICCAI 2024 Improving Neoadjuvant Therapy Response Prediction by Integrating Longitudinal Mammogram Generation with Cross-Modal Radiological Reports: A Vision-Language Alignment-guided Model MICCAI 2024 LIDIA: Precise Liver Tumor Diagnosis on Multi-Phase Contrast-Enhanced CT via Iterative Fusion and Asymmetric Contrastive Learning MICCAI 2024 MEDBind: Unifying Language and Multimodal Medical Data Embeddings MICCAI 2024 Non-Adversarial Learning: Vector-Quantized Common Latent Space for Multi-Sequence MRI MICCAI 2024 Ordinal Learning: Longitudinal Attention Alignment Model for Predicting Time to Future Breast Cancer Events from Mammograms MICCAI 2024 A Novel Two-step Fine-tuning Framework for Transfer Learning in Low-Resource Neural Machine Translation NAACL 2024 Refine and Redistribute: Multi-Domain Fusion and Dynamic Label Assignment for Unbiased Scene Graph Generation WACV 2024 MTANet: Multi-band Time-frequency Attention Network for Singing Melody Extraction from Polyphonic Music INTERSPEECH 2023 Two-stage Finetuning of Wav2vec 2.0 for Speech Emotion Recognition with ASR and Gender Pretraining INTERSPEECH 2023 Fast and Interpretable Dynamics for Fisher Markets via Block-Coordinate Updates AAAI 2023 Statistical Inference for Fisher Market Equilibrium ICLR 2023 D2Former: Jointly Learning Hierarchical Detectors and Contextual Descriptors via Agent-Based Transformers CVPR 2023 Composable Text Controls in Latent Space with ODEs EMNLP 2023 Inferring Hybrid Neural Fluid Fields from Videos NIPS 2023 MFFN: Multi-View Feature Fusion Network for Camouflaged Object Detection WACV 2023 On Prefix-tuning for Lightweight Out-of-distribution Detection ACL 2023 Evaluating Post-hoc Explanations for Graph Neural Networks via Robustness Analysis NIPS 2023 Exploit Domain-Robust Optical Flow in Domain Adaptive Video Semantic Segmentation AAAI 2023 Finding Dynamics Preserving Adversarial Winning Tickets AISTATS 2022 Multilevel Hierarchical Network with Multiscale Sampling for Video Question Answering IJCAI 2022 Multi-Level Attentive Adversarial Learning With Temporal Dilation for Unsupervised Video Domain Adaptation WACV 2022 Nonstationary Dual Averaging and Online Fair Allocation NIPS 2022 Panoptic-PHNet: Towards Real-Time and High-Precision LiDAR Panoptic Segmentation via Clustering Pseudo Heatmap CVPR 2022 Semi-Supervised Video Semantic Segmentation With Inter-Frame Feature Reconstruction CVPR 2022 Infinite-Dimensional Fisher Markets: Equilibrium, Duality and Optimization AAAI 2021 Increasing Iterate Averaging for Solving Saddle-Point Problems AAAI 2021 Exploiting Learnable Joint Groups for Hand Pose Estimation AAAI 2021 Temporal Cue Guided Video Highlight Detection With Low-Rank Audio-Visual Fusion ICCV 2021 Orthogonal Jacobian Regularization for Unsupervised Disentanglement in Image Generation ICCV 2021 Online Market Equilibrium with Application to Fair Division NIPS 2021 Metric Learning Based Feature Representation with Gated Fusion Model for Speech Emotion Recognition INTERSPEECH 2021 An Improved Analysis of Stochastic Gradient Descent with Momentum NIPS 2020 MTL-NAS: Task-Agnostic Neural Architecture Search Towards General-Purpose Multi-Task Learning CVPR 2020 First-Order Methods for Large-Scale Market Equilibrium Computation NIPS 2020 Graph-PCNN: Two Stage Human Pose Estimation with Graph Pose Refinement ECCV 2020 Stochastic Flows and Geometric Optimization on the Orthogonal Group ICML 2020 WeChat Neural Machine Translation Systems for WMT20 EMNLP 2020 Multi-Scale Adversarial Cross-Domain Detection with Robust Discriminative Learning WACV 2020 Temporal Attention Convolutional Network for Speech Emotion Recognition with Latent Representation INTERSPEECH 2020 Deep Generative Learning via Variational Gradient Flow ICML 2019 Face Anti-Spoofing: Model Matters, so Does Data CVPR 2019 NDDR-CNN: Layerwise Feature Fusing in Multi-Task CNNs by Neural Discriminative Dimensionality Reduction CVPR 2019 Exploiting Symmetry and/or Manhattan Properties for 3D Object Structure Estimation From Single and Multiple Images CVPR 2017 Locality Preserving Matching IJCAI 2017 Deep Gate Recurrent Neural Network ACML 2016