Jun Yu

81 papers · 2015–2026 · 13 conferences · across top CS/AI conferences

Achievements

+15 more ↓

🧭 Keyword Pioneer 🌍 Conference Polyglot (13) 🗺️ Taxonomy Completionist (16) 🌉 Interdisciplinary Bridge 🏃 Academic Marathon (10)

🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (16) 🧭 Keyword Pioneer 🌟 Keyword Trendsetter Combo (4) 🤝 Dynamic Duo (15) 👑 Triple Crown 🔬 Deep Specialist (12) 🏆 Grand Slam ⚡ Prolific Year (14) 🗃️ Keyword Collector (334) ❓ The Questioner 📈 Trend Setter 💎 Century Club (76) 🚀 Conference Pioneer 🔥 Unstoppable (9)

Conferences

AAAI (13) CVPR (13) ACL (10) ICCV (8) ICLR (8) ICML (8) IJCAI (7) NIPS (5) COLING (2) ECCV (2) EMNLP (2) JMLR (2) INTERSPEECH (1)

Top co-authors

Tongliang Liu (15) Min Zhang (13) Bo Han (12) Zhou Yu (9) Dacheng Tao (8) Jing Li (6) Xiaobo Xia (6) Qiang Huang (6) Zhou Zhao (6) Meishan Zhang (5)

Research topics

Privacy (1)

Keywords

large language model (11) vision-language model (7) multimodal learning (7) attention mechanism (4) video understanding (4) video question answering (4) representation learning (3) semi-supervised learning (3) adversarial robustness (3) domain generalization (3) diffusion model (3) optimal transport (3) few-shot learning (3) feature learning (2) knowledge distillation (2) cross-modal learning (2) noisy label learning (2) reinforcement learning (2) pose estimation (2) image generation (2)

Papers

Knowledge Completes the Vision: A Multimodal Entity-aware Retrieval-Augmented Generation Framework for News Image Captioning AAAI 2026 Measuring Social Bias in Vision-Language Models with Face-Only Counterfactuals from Real Photos ACL 2026 Sparse4DGS: 4D Gaussian Splatting for Sparse-Frame Dynamic Scene Reconstruction AAAI 2026 Frequency-Aware Vision-Language Multimodality Generalization Network for Remote Sensing Image Classification AAAI 2026 Partially Shared Concept Bottleneck Models AAAI 2026 Classic but Everlasting: Traditional Gradient-Based Algorithms Converge Fast Even in Time-Varying Multi-Player Games ICLR 2025 Deep Kernel Relative Test for Machine-generated Text Detection ICLR 2025 A General Framework for Producing Interpretable Semantic Text Embeddings ICLR 2025 OmniKV: Dynamic Context Selection for Efficient Long-Context LLMs ICLR 2025 A Similarity Paradigm Through Textual Regularization Without Forgetting AAAI 2025 Towards Text-Image Interleaved Retrieval ACL 2025 Safety Alignment via Constrained Knowledge Unlearning ACL 2025 MTSA: Multi-turn Safety Alignment for LLMs through Multi-round Red-teaming ACL 2025 PRISM: A Framework for Producing Interpretable Political Bias Embeddings with Political-Aware Cross-Encoder ACL 2025 Speed Up Your Code: Progressive Code Acceleration Through Bidirectional Tree Editing ACL 2025 Benchmarking and Improving Large Vision-Language Models for Fundamental Visual Graph Understanding and Reasoning ACL 2025 Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing ACL 2025 APT: Improving Specialist LLM Performance with Weakness Case Acquisition and Iterative Preference Training ACL 2025 LLMs Can Also Do Well! Breaking Barriers in Semantic Role Labeling via Large Language Models ACL 2025 A Two-Stage LLM System for Enhanced Regulatory Information Retrieval and Answer Generation COLING 2025 Growing a Twig to Accelerate Large Vision-Language Models ICCV 2025 Stable Score Distillation ICCV 2025 D2ST-Adapter: Disentangled-and-Deformable Spatio-Temporal Adapter for Few-shot Action Recognition ICCV 2025 Dataset Distillation via Vision-Language Category Prototype ICCV 2025 Fine-grained Adaptive Visual Prompt for Generative Medical Visual Question Answering AAAI 2025 Vision-Guided Action: Enhancing 3D Human Motion Prediction with Gaze-informed Affordance in 3D Scenes CVPR 2025 Recognition-Synergistic Scene Text Editing CVPR 2025 Learning Compatible Multi-Prize Subnetworks for Asymmetric Retrieval CVPR 2025 Function-to-Style Guidance of LLMs for Code Translation ICML 2025 AQuilt: Weaving Logic and Self-Inspection into Low-Cost, High-Relevance Data Synthesis for Specialist LLMs EMNLP 2025 SeaPO: Strategic Error Amplification for Robust Preference Optimization of Large Language Models EMNLP 2025 Enhancing Target-unspecific Tasks through a Features Matrix ICML 2025 Towards Realistic Model Selection for Semi-supervised Learning ICML 2024 Facial Identity Anonymization via Intrinsic and Extrinsic Attention Distraction CVPR 2024 GLOW: Global Layout Aware Attacks on Object Detection CVPR 2024 LMT-GP: Combined Latent Mean-Teacher and Gaussian Process for Semi-supervised Low-light Image Enhancement ECCV 2024 Mitigating Label Noise on Graphs via Topological Sample Selection ICML 2024 Graph Context Transformation Learning for Progressive Correspondence Pruning AAAI 2024 BCLNet: Bilateral Consensus Learning for Two-View Correspondence Pruning AAAI 2024 Integrating Representation Subspace Mapping with Unimodal Auxiliary Loss for Attention-based Multimodal Emotion Recognition COLING 2024 Network Tight Community Detection ICML 2024 Neural Auto-designer for Enhanced Quantum Kernels ICLR 2024 Emotional Cues Extraction and Fusion for Multi-modal Emotion Prediction and Recognition in Conversation INTERSPEECH 2024 Dialogue Cross-Enhanced Central Engagement Attention Model for Real-Time Engagement Estimation IJCAI 2024 Multi-Domain Deep Learning from a Multi-View Perspective for Cross-Border E-commerce Search AAAI 2024 Learnability Matters: Active Learning for Video Captioning NIPS 2024 Which is Better for Learning with Noisy Labels: The Semi-supervised Method or Modeling Label Noise? ICML 2023 InstanT: Semi-supervised Learning with Instance-dependent Thresholds NIPS 2023 FlatMatch: Bridging Labeled Data and Unlabeled Data with Cross-Sharpness for Semi-Supervised Learning NIPS 2023 Subclass-Dominant Label Noise: A Counterexample for the Success of Early Stopping NIPS 2023 ShiftDDPMs: Exploring Conditional Diffusion Models by Shifting Diffusion Trajectories AAAI 2023 Knowledge-Constrained Answer Generation for Open-Ended Video Question Answering AAAI 2023 Prompting Large Language Models With Answer Heuristics for Knowledge-Based Visual Question Answering CVPR 2023 Robust Generalization Against Photon-Limited Corruptions via Worst-Case Sharpness Minimization CVPR 2023 ANetQA: A Large-Scale Benchmark for Fine-Grained Compositional Reasoning Over Untrimmed Videos CVPR 2023 Graph Matching with Bi-level Noisy Correspondence ICCV 2023 Combating Noisy Labels with Sample Selection by Mining High-Discrepancy Examples ICCV 2023 Moderate Coreset: A Universal Method of Data Selection for Real-world Data-efficient Deep Learning ICLR 2023 Mosaic Representation Learning for Self-supervised Visual Pre-training ICLR 2023 Actor-Multi-Scale Context Bidirectional Higher Order Interactive Relation Network for Spatial-Temporal Action Localization IJCAI 2023 Importance Sparsification for Sinkhorn Algorithm JMLR 2023 Sample Selection with Uncertainty of Losses for Learning with Noisy Labels ICLR 2022 Learning from Noisy Pairwise Similarity and Unlabeled Data JMLR 2022 ESCNet: Gaze Target Detection With the Understanding of 3D Scenes CVPR 2022 Wnet: Audio-Guided Video Object Segmentation via Wavelet-Based Cross-Modal Denoising Networks CVPR 2022 Understanding Robust Overfitting of Adversarial Training and Beyond ICML 2022 Weakly Supervised Dense Video Captioning via Jointly Usage of Knowledge Distillation and Cross-modal Matching IJCAI 2021 Removing Adversarial Noise in Class Activation Feature Space ICCV 2021 Deep Graph-neighbor Coherence Preserving Network for Unsupervised Cross-modal Hashing AAAI 2021 Sufficient dimension reduction for classification using principal optimal transport direction NIPS 2020 Weakly Supervised Local-Global Relation Network for Facial Expression Recognition IJCAI 2020 ActivityNet-QA: A Dataset for Understanding Complex Web Videos via Question Answering AAAI 2019 Embedding Complementary Deep Networks for Image Classification CVPR 2019 Deep Modular Co-Attention Networks for Visual Question Answering CVPR 2019 On Exploring Undetermined Relationships for Visual Relationship Detection CVPR 2019 Open-Ended Long-form Video Question Answering via Adaptive Hierarchical Reinforced Networks IJCAI 2018 Rethinking Diversified and Discriminative Proposal Generation for Visual Grounding IJCAI 2018 FishEyeRecNet: A Multi-Context Collaborative Deep Network for Fisheye Image Rectification ECCV 2018 Improving Stochastic Block Models by Incorporating Power-Law Degree Characteristic IJCAI 2017 Multi-Modal Factorized Bilinear Pooling With Co-Attention Learning for Visual Question Answering ICCV 2017 Bayesian and Empirical Bayesian Forests ICML 2015