policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

I-dual: Solving Constrained SSPs via Heuristic Search in the Dual Space IJCAI 2017

Variational Policy for Guiding Point Processes ICML 2017

Cumulative Prospect Theory Meets Reinforcement Learning: Prediction and Control ICML 2016

Combined Optimization and Reinforcement Learning for Manipulation Skills RSS 2016

Multi-Objective Markov Decision Processes for Data-Driven Decision Support JMLR 2016

Policy Error Bounds for Model-Based Reinforcement Learning with Factored Linear Models COLT 2016

Model-Free Imitation Learning with Policy Optimization ICML 2016

Guided Cost Learning: Deep Inverse Optimal Control via Policy Optimization ICML 2016

Hierarchical Relative Entropy Policy Search JMLR 2016

Modelling Policies in MDPs in Reproducing Kernel Hilbert Space AISTATS 2015

Linear Programming for Large-Scale Markov Decision Problems ICML 2014

Online Learning in Markov Decision Processes with Adversarially Chosen Transition Probability Distributions NIPS 2013

Online learning in episodic Markovian decision processes by relative entropy policy search NIPS 2013

Actor-Critic Algorithms for Risk-Sensitive MDPs NIPS 2013

DESPOT: Online POMDP Planning with Regularization NIPS 2013

Guided Policy Search ICML 2013

Transferring Expectations in Model-based Reinforcement Learning NIPS 2012

Value Pursuit Iteration NIPS 2012

Weighted Likelihood Policy Search with Model Selection NIPS 2012

Inverse Reinforcement Learning through Structured Classification NIPS 2012

Dynamic Policy Programming with Function Approximation AISTATS 2011

Periodic Finite State Controllers for Efficient POMDP and DEC-POMDP Planning NIPS 2011

Natural Policy Gradient Methods with Parameter-based Exploration for Control Tasks NIPS 2010

MDPs with Non-Deterministic Policies NIPS 2008

Biasing Approximate Dynamic Programming with a Lower Discount Factor NIPS 2008