Reinforcement Learning › Methods ›

Policy Learning

2068 directly classified papers

Papers per year

Papers

Independent Natural Policy Gradient always converges in Markov Potential Games AISTATS 2022

Near-optimal Policy Optimization Algorithms for Learning Adversarial Linear Mixture MDPs AISTATS 2022

Reward-Weighted Regression Converges to a Global Optimum AAAI 2022

Model-free Policy Learning with Reward Gradients AISTATS 2022

On the Generalization of Representations in Reinforcement Learning AISTATS 2022

Sample-Efficient Reinforcement Learning via Conservative Model-Based Actor-Critic AAAI 2022

Gap-Dependent Unsupervised Exploration for Reinforcement Learning AISTATS 2022

Nearly Minimax Optimal Regret for Learning Infinite-horizon Average-reward MDPs with Linear Function Approximation AISTATS 2022

Explicable Policy Search NIPS 2022

Triple-Q: A Model-Free Algorithm for Constrained Reinforcement Learning with Sublinear Regret and Zero Constraint Violation AISTATS 2022

Reward-Free Policy Space Compression for Reinforcement Learning AISTATS 2022

Robust Action Gap Increasing with Clipped Advantage Learning AAAI 2022

Provably Efficient Policy Optimization for Two-Player Zero-Sum Markov Games AISTATS 2022

Dimensionality Reduction and Prioritized Exploration for Policy Search AISTATS 2022

Convergence and Optimality of Policy Gradient Methods in Weakly Smooth Settings AAAI 2022

Giving Feedback on Interactive Student Programs with Meta-Exploration NIPS 2022

On the Global Optimum Convergence of Momentum-based Policy Gradient AISTATS 2022

Policy Learning and Evaluation with Randomized Quasi-Monte Carlo AISTATS 2022

RLET: A Reinforcement Learning Based Approach for Explainable QA with Entailment Trees EMNLP 2022

A Globally Convergent Evolutionary Strategy for Stochastic Constrained Optimization with Applications to Reinforcement Learning AISTATS 2022

Maillard Sampling: Boltzmann Exploration Done Optimally AISTATS 2022

LAPO: Latent-Variable Advantage-Weighted Policy Optimization for Offline Reinforcement Learning NIPS 2022

Near-Optimal Goal-Oriented Reinforcement Learning in Non-Stationary Environments NIPS 2022

Episodic Policy Gradient Training AAAI 2022

PALMER: Perception - Action Loop with Memory for Long-Horizon Planning NIPS 2022