Xuelong Li

99 papers · 2013–2026 · 14 conferences · across top CS/AI conferences

Achievements

+17 more ↓

🗺️ Taxonomy Completionist (16) 🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🌈 Renaissance Researcher (6) 🌍 Conference Polyglot (14)

🌈 Renaissance Researcher (6) 🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (14) 🏠 Conference Loyalist (20) 🤝 Dynamic Duo (30) 👑 Triple Crown 🏆 Grand Slam 🔬 Deep Specialist (15) 🧬 Topic Evolution 🏆 Keyword Champion 🚀 Conference Pioneer 🔥 Unstoppable (11) ⚡ Prolific Year (22) 💎 Century Club (93) 🗃️ Keyword Collector (62) ❓ The Questioner 📈 Trend Setter

Conferences

CVPR (20) IJCAI (18) AAAI (13) ICCV (10) NIPS (9) ACL (8) ICML (5) CORL (4) EMNLP (3) ICLR (3) INTERSPEECH (2) RSS (2) AISTATS (1) ECCV (1)

Top co-authors

Bin Zhao (30) Dong Wang (25) Zhigang Wang (21) Feiping Nie (15) Chenjia Bai (11) Zhen Wang (10) Rong Wang (8) Di Hu (7) Delin Qu (7) Mulin Chen (6)

Keywords

diffusion model (6) large language model (6) contrastive learning (5) feature selection (5) reinforcement learning (4) depth estimation (4) graph neural network (4) image restoration (4) multi-task learning (4) dimensionality reduction (3) object detection (3) graph clustering (3) multimodal large language model (3) attention mechanism (3) multimodal learning (3) neural radiance field (3) representation learning (2) benchmark evaluation (2) video generation (2) event camera (2)

Papers

When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models AAAI 2026 DIFFA: Large Language Diffusion Models Can Listen and Understand AAAI 2026 Visual Attention Reasoning via Hierarchical Search and Self-Verification ACL 2026 Introducing Visual Scenes and Reasoning: A More Realistic Benchmark for Spoken Language Understanding AAAI 2026 Awakening Dormant Experts:Counterfactual Routing to Mitigate MoE Hallucinations ACL 2026 OmniVDiff: Omni Controllable Video Diffusion for Generation and Understanding AAAI 2026 Improve LLM-as-a-Judge Ability as a General Ability EMNLP 2025 CCIN: Compositional Conflict Identification and Neutralization for Composed Image Retrieval CVPR 2025 Think Small, Act Big: Primitive Prompt Learning for Lifelong Robot Manipulation CVPR 2025 FastUMI: A Scalable and Hardware-Independent Universal Manipulation Interface with Dataset CORL 2025 SpatialVLA: Exploring Spatial Representations for Visual-Language-Action Models RSS 2025 Efficient Diffusion as Low Light Enhancer CVPR 2025 JTD-UAV: MLLM-Enhanced Joint Tracking and Description Framework for Anti-UAV Systems CVPR 2025 G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation CVPR 2025 Enhance Vision-Language Alignment with Noise AAAI 2025 Towards Learnable Anchor for Deep Multi-View Clustering AAAI 2025 Why Does Dropping Edges Usually Outperform Adding Edges in Graph Contrastive Learning? AAAI 2025 LLMs Caught in the Crossfire: Malware Requests and Jailbreak Challenges ACL 2025 Logic-Regularized Verifier Elicits Reasoning from LLMs ACL 2025 Towards Efficient LLM Grounding for Embodied Multi-Agent Collaboration ACL 2025 INT: Establishing Information Transfer for Multilingual Intent Detection and Slot Filling ACL 2025 WebUIBench: A Comprehensive Benchmark for Evaluating Multimodal Large Language Models in WebUI-to-Code ACL 2025 Multi-Task Curriculum Graph Contrastive Learning with Clustering Entropy Guidance IJCAI 2025 MSMAR-RL: Multi-Step Masked-Attention Recovery Reinforcement Learning for Safe Maneuver Decision in High-Speed Pursuit-Evasion Game IJCAI 2025 Learn Beneficial Noise as Graph Augmentation ICML 2025 Online Preference Alignment for Language Models via Count-based Exploration ICLR 2025 Discriminator-Guided Embodied Planning for LLM Agent ICLR 2025 AerialVG: A Challenging Benchmark for Aerial Visual Grounding by Exploring Positional Relations ICCV 2025 InterSyn: Interleaved Learning for Dynamic Motion Synthesis in the Wild ICCV 2025 MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation ICCV 2025 Open-Vocabulary Octree-Graph for 3D Scene Understanding ICCV 2025 T2R-BENCH: A Benchmark for Real World Table-to-Report Task EMNLP 2025 Any2Point: Empowering Any-modality Transformers for Efficient 3D Understanding ECCV 2024 LiveScene: Language Embedding Interactive Radiance Fields for Physical Scene Control and Rendering NIPS 2024 Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training NIPS 2024 Causal Deciphering and Inpainting in Spatio-Temporal Dynamics via Diffusion Model NIPS 2024 Regularized Conditional Diffusion Model for Multi-Task Preference Alignment NIPS 2024 Play to the Score: Stage-Guided Dynamic Multi-Sensory Fusion for Robotic Manipulation CORL 2024 KOI: Accelerating Online Imitation Learning via Hybrid Key-state Guidance CORL 2024 Color Event Enhanced Single-Exposure HDR Imaging AAAI 2024 Point-PEFT: Parameter-Efficient Fine-Tuning for 3D Pre-trained Models AAAI 2024 DAG-Aware Variational Autoencoder for Social Propagation Graph Generation AAAI 2024 Deep Contrastive Graph Learning with Clustering-Oriented Guidance AAAI 2024 Dual Prompt Tuning based Contrastive Learning for Hierarchical Text Classification ACL 2024 Implicit Event-RGBD Neural SLAM CVPR 2024 HPL-ESS: Hybrid Pseudo-Labeling for Unsupervised Event-based Semantic Segmentation CVPR 2024 GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting CVPR 2024 On the Role of General Function Approximation in Offline Reinforcement Learning ICLR 2024 Constrained Ensemble Exploration for Unsupervised Skill Discovery ICML 2024 Contrastive Representation for Data Filtering in Cross-Domain Offline Reinforcement Learning ICML 2024 SAM-E: Leveraging Visual Foundation Model with Sequence Imitation for Embodied Manipulation ICML 2024 Textual-Driven Adversarial Purification for Speaker Verification INTERSPEECH 2024 Graph Attention Based Multi-Channel U-Net for Speech Dereverberation With Ad-Hoc Microphone Arrays INTERSPEECH 2024 Learning Manipulation by Predicting Interaction RSS 2024 Behavior Contrastive Learning for Unsupervised Skill Discovery ICML 2023 Joint Feature and Differentiable $ k $-NN Graph Learning using Dirichlet Energy NIPS 2023 Sequential Attention Source Identification Based on Feature Representation IJCAI 2023 Diffusion Model is an Effective Planner and Data Synthesizer for Multi-Task Reinforcement Learning NIPS 2023 ViewRefer: Grasp the Multi-view Knowledge for 3D Visual Grounding ICCV 2023 Towards Nonlinear-Motion-Aware and Occlusion-Robust Rolling Shutter Correction ICCV 2023 Propagate and Calibrate: Real-Time Passive Non-Line-of-Sight Tracking CVPR 2023 One-Shot High-Fidelity Talking-Head Synthesis With Deformable Neural Radiance Field CVPR 2023 Cross-Domain Policy Adaptation via Value-Guided Data Filtering NIPS 2023 Efficient Top-K Feature Selection Using Coordinate Descent Method AAAI 2023 Affordance-Driven Next-Best-View Planning for Robotic Grasping CORL 2023 Fully Self-Supervised Depth Estimation From Defocus Clue CVPR 2023 Modelling the Dynamics of Regret Minimization in Large Agent Populations: a Master Equation Approach IJCAI 2022 Search to Pass Messages for Temporal Knowledge Graph Completion EMNLP 2022 A Formal Model for Multiagent Q-Learning Dynamics on Regular Graphs IJCAI 2022 GSPL: A Succinct Kernel Model for Group-Sparse Projections Learning of Multiview Data IJCAI 2021 Discrete Multiple Kernel k-means IJCAI 2021 BidNet: Binocular Image Dehazing Without Explicit Disparity Estimation CVPR 2020 Semi-supervised Clustering via Pairwise Constrained Optimal Graph IJCAI 2020 SGAP-Net: Semantic-Guided Attentive Prototypes Network for Few-Shot Human-Object Interaction Recognition AAAI 2020 Learning Feature Sparse Principal Subspace NIPS 2020 Efficient Clustering Based On A Unified View Of $K$-means And Ratio-cut NIPS 2020 Discriminative Feature Selection via A Structured Sparse Subspace Learning Module IJCAI 2020 A Unified Weight Learning Paradigm for Multi-view Learning AISTATS 2019 Listen to the Image CVPR 2019 Hierarchical Shot Detector ICCV 2019 Deep Multimodal Clustering for Unsupervised Audiovisual Learning CVPR 2019 Triply Supervised Decoder Networks for Joint Detection and Segmentation CVPR 2019 Nonrigid Points Alignment with Soft-weighted Selection IJCAI 2018 HSA-RNN: Hierarchical Structure-Adaptive RNN for Video Summarization CVPR 2018 Video Captioning with Tube Features IJCAI 2018 Self-Representative Manifold Concept Factorization with Adaptive Neighbors for Clustering IJCAI 2018 Self-weighted Multiview Clustering with Multiple Graphs IJCAI 2017 Image2song: Song Retrieval via Bridging Image Content and Lyric Words ICCV 2017 Locality Adaptive Discriminant Analysis IJCAI 2017 MAM-RNN: Multi-level Attention Model Based RNN for Video Captioning IJCAI 2017 Parameter-Free Auto-Weighted Multiple Graph Learning: A Framework for Multiview Clustering and Semi-Supervised Classification IJCAI 2016 Towards Convolutional Neural Networks Compression via Global Error Reconstruction IJCAI 2016 Pedestrian Detection Inspired by Appearance Constancy and Shape Symmetry CVPR 2016 Non-Negative Matrix Factorization with Sinkhorn Distance IJCAI 2016 Temporal Multimodal Learning in Audiovisual Speech Recognition CVPR 2016 Multi-View Subspace Clustering ICCV 2015 A Maximum Entropy Feature Descriptor for Age Invariant Face Recognition CVPR 2015 Complementary Projection Hashing ICCV 2013 Compressed Hashing CVPR 2013