Tengyu Xu

17 papers · 2019–2025 · 8 conferences · across top CS/AI conferences

Achievements

+8 more ↓

🐝 Cross-Pollinator (10) 🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (8) 🏃 Academic Marathon (6) 🌈 Renaissance Researcher (5)

🧭 Keyword Pioneer 🌉 Interdisciplinary Bridge 🌍 Conference Polyglot (8) 🤝 Dynamic Duo (14) 🏆 Grand Slam ⚡ Prolific Year (6) 💎 Century Club (17) 🗃️ Keyword Collector (58)

Conferences

ICLR (4) NIPS (4) ICML (3) AISTATS (2) AAAI (1) ACL (1) EMNLP (1) UAI (1)

Top co-authors

Yingbin Liang (14) Sinong Wang (3) Han Fang (3) Hao Ma (3) Eryk Helenowski (2) Ziwei Guan (2) Wenxuan Zhou (2) Wei Zhang (2) Yun He (2) Yi Zhou (2)

Keywords

reinforcement learning (4) temporal difference learning (4) convergence analysis (4) stochastic approximation (3) markov decision process (3) policy gradient (3) off-policy learning (3) sample complexity (3) function approximation (2) non-asymptotic analysis (2) value function (2) convergence guarantee (2) natural actor-critic (1) inverse reinforcement learning (1) global convergence (1) policy optimization (1) alternating optimization (1) value function estimation (1) natural policy gradient (1) constraint satisfaction (1)

Papers

Think Smarter not Harder: Adaptive Reasoning with Inference Aware Optimization ICML 2025 Learning Auxiliary Tasks Improves Reference-Free Hallucination Detection in Open-Domain Long-Form Generation ACL 2025 Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback EMNLP 2025 Deterministic policy gradient: Convergence analysis UAI 2022 A Unifying Framework of Off-Policy General Value Function Evaluation NIPS 2022 Model-Based Offline Meta-Reinforcement Learning with Regularization ICLR 2022 PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning Method ICLR 2022 When Will Generative Adversarial Imitation Learning Algorithms Attain Global Convergence AISTATS 2021 CRPO: A New Approach for Safe Reinforcement Learning with Convergence Guarantee ICML 2021 Doubly Robust Off-Policy Actor-Critic: Convergence and Optimality ICML 2021 Non-asymptotic Convergence of Adam-type Reinforcement Learning Algorithms under Markovian Sampling AAAI 2021 Sample Complexity Bounds for Two Timescale Value-based Reinforcement Learning Algorithms AISTATS 2021 Proximal Gradient Descent-Ascent: Variable Convergence under KŁ Geometry ICLR 2021 Improving Sample Complexity Bounds for (Natural) Actor-Critic Algorithms NIPS 2020 Reanalysis of Variance Reduced Temporal Difference Learning ICLR 2020 Finite-Sample Analysis for SARSA with Linear Function Approximation NIPS 2019 Two Time-scale Off-Policy TD Learning: Non-asymptotic Analysis over Markovian Samples NIPS 2019