Xunliang Cai

59 papers · 2021–2026 · 8 conferences · across top CS/AI conferences

Achievements

+11 more ↓

🌍 Conference Polyglot (8) 🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🗺️ Taxonomy Completionist (12) 🐝 Cross-Pollinator (11)

🧭 Keyword Pioneer 🏃 Academic Marathon (5) 🌍 Conference Polyglot (8) 🤝 Dynamic Duo (24) 👥 Mega-Team (27) 🔬 Deep Specialist (16) 💎 Century Club (47) ⚡ Prolific Year (10) ❓ The Questioner (4) 🗃️ Keyword Collector (223) 🔥 Unstoppable (5)

Conferences

ACL (26) EMNLP (18) AAAI (7) COLING (2) ICLR (2) NAACL (2) IJCNLP (1) NIPS (1)

Top co-authors

Jingang Wang (30) Jiahao Liu (8) Ke Zeng (8) Weiran Xu (7) Jiansong Chen (7) Sirui Wang (7) Rongxiang Weng (7) Mengdi Zhang (7) Keqing He (6) Xuezhi Cao (5)

Keywords

large language model (31) reinforcement learning (8) data quality (5) code generation (4) retrieval-augmented generation (4) knowledge distillation (4) mathematical reasoning (3) instruction tuning (3) data selection (3) language model (3) out-of-domain detection (2) few-shot learning (2) continual learning (2) visual reasoning (2) intent classification (2) adversarial learning (2) benchmark evaluation (2) question answering (2) curriculum learning (2) zero-shot learning (2)

Papers

Harmonizing Dense and Sparse Signals in Multi-turn RL: Dual-Horizon Credit Assignment for Industrial Sales Agents ACL 2026 Unlocking Implicit Experience: Synthesizing Tool-Use Trajectories from Text ACL 2026 PaTaRM: Bridging Pairwise and Pointwise Signals via Preference-Aware Task-Adaptive Reward Modeling ACL 2026 Counteracting the Matthew Effect in Self-Improvement of LVLMs through Head-Tail Re-balancing ACL 2026 Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective AAAI 2026 LANG: Reinforcement Learning for Multilingual Reasoning with Language-Adaptive Hint Guidance ACL 2026 Scaling and Transferability of Annealing Strategies in Large Language Model Training AAAI 2026 MASPO: Unifying Gradient Utilization, Probability Mass, and Signal Reliability for Robust and Sample-Efficient LLM Reasoning ACL 2026 MTR-Suite: A Framework for Evaluating and Synthesizing Conversational Retrieval Benchmarks ACL 2026 Turning Failures into Value: Negative Experience Replay for RLVR via Confidence Gating and Boundary Failure Sampling ACL 2026 CoreCodeBench: Decoupling Code Intelligence via Fine-Grained Repository-Level Tasks ACL 2026 LinkQA: Synthesizing Diverse QA from Multiple Seeds Strongly Linked by Knowledge Points ACL 2026 Multi-Programming Language Sandbox for LLMs ACL 2025 Why Not Act on What You Know? Unleashing Safety Potential of LLMs via Self-Aware Guard Enhancement ACL 2025 AMoPO: Adaptive Multi-objective Preference Optimization without Reward Models and Reference Models ACL 2025 FRAME: Boosting LLMs with A Four-Quadrant Multi-Stage Pretraining Strategy ACL 2025 Preference Curriculum: LLMs Should Always Be Pretrained on Their Preferred Data ACL 2025 LLMs Know What They Need: Leveraging a Missing Information Guided Framework to Empower Retrieval-Augmented Generation COLING 2025 SEAS: Self-Evolving Adversarial Safety Optimization for Large Language Models AAAI 2025 Enhancing LLMs via High-Knowledge Data Selection AAAI 2025 Too Consistent to Detect: A Study of Self-Consistent Errors in LLMs EMNLP 2025 FIRE: Flexible Integration of Data Quality Ratings for Effective Pretraining EMNLP 2025 MUSE: MCTS-Driven Red Teaming Framework for Enhanced Multi-Turn Dialogue Safety in Large Language Models EMNLP 2025 A Reasoner for Real-World Event Detection: Scaling Reinforcement Learning via Adaptive Perplexity-Aware Sampling Strategy EMNLP 2025 Instance-level Randomization: Toward More Stable LLM Evaluations EMNLP 2025 Prejudge-Before-Think: Enhancing Large Language Models at Test-Time by Process Prejudge Reasoning EMNLP 2025 When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning EMNLP 2025 ReMamba: Equip Mamba with Effective Long-Sequence Modeling EMNLP 2025 Leveraging Unpaired Feedback for Long-Term LLM-based Recommendation Tuning EMNLP 2025 SampleMix: A Sample-wise Pre-training Data Mixing Strategy by Coordinating Data Quality and Diversity EMNLP 2025 AgentRefine: Enhancing Agent Generalization through Refinement Tuning ICLR 2025 Earlier Tokens Contribute More: Learning Direct Preference Optimization From Temporal Decay Perspective ICLR 2025 Dynamic Fisher-weighted Model Merging via Bayesian Optimization NAACL 2025 Mitigating Tail Narrowing in LLM Self-Improvement via Socratic-Guided Sampling NAACL 2025 S^3cMath: Spontaneous Step-Level Self-Correction Makes Large Language Models Better Mathematical Reasoners AAAI 2025 Leveraging Dual Process Theory in Language Agent Framework for Real-time Simultaneous Human-AI Collaboration ACL 2025 Revisit Self-Debugging with Self-Generated Tests for Code Generation ACL 2025 The Role of Visual Modality in Multimodal Mathematical Reasoning: Challenges and Insights ACL 2025 Don’t Half-listen: Capturing Key-part Information in Continual Instruction Tuning ACL 2025 Revisiting Scaling Laws for Language Models: The Role of Data Quality and Training Strategies ACL 2025 LogicPro: Improving Complex Logical Reasoning via Program-Guided Learning ACL 2025 Rethinking the Reversal Curse of LLMs: a Prescription from Human Knowledge Reversal EMNLP 2024 What Makes Quantization for Large Language Model Hard? An Empirical Study from the Lens of Perturbation AAAI 2024 DolphCoder: Echo-Locating Code Large Language Models with Diverse and Multi-Objective Instruction Tuning ACL 2024 Learning or Self-aligning? Rethinking Instruction Fine-tuning ACL 2024 Speculative Decoding via Early-exiting for Faster LLM Inference with Thompson Sampling Control Mechanism ACL 2024 Graph-Structured Speculative Decoding ACL 2024 Beyond the Known: Investigating LLMs Performance on Out-of-Domain Intent Detection COLING 2024 Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning NIPS 2024 How Do Your Code LLMs perform? Empowering Code Instruction Tuning with Really Good Data EMNLP 2024 Not All Contexts Are Equal: Teaching LLMs Credibility-aware Generation EMNLP 2024 Large Language Models Meet Open-World Intent Discovery and Recognition: An Evaluation of ChatGPT EMNLP 2023 Improving Input-label Mapping with Demonstration Replay for In-context Learning EMNLP 2023 Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression EMNLP 2023 APP: Adaptive Prototypical Pseudo-Labeling for Few-shot OOD Detection EMNLP 2023 Confidence Calibration for Intent Detection via Hyperspherical Space and Rebalanced Accuracy-Uncertainty Loss AAAI 2022 Domain-Lifelong Learning for Dialogue State Tracking via Knowledge Preservation Networks EMNLP 2021 From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding ACL 2021 From Paraphrasing to Semantic Parsing: Unsupervised Semantic Parsing via Synchronous Semantic Decoding IJCNLP 2021