policy optimization

630 papers

Explore in graph

Also known as

GRPO POLO MAPO PO PPO

Co-occurring keywords

reinforcement learning (4122) markov decision process (788) offline reinforcement learning (492) deep reinforcement learning (903) model-based reinforcement learning (415) large language model (12755) safe reinforcement learning (119) policy learning (699) value function (294) regret bound (1918)

Papers

Active Policy Learning for Robot Planning and Exploration under Uncertainty RSS 2007

Random Sampling of States in Dynamic Programming NIPS 2007

The Robustness-Performance Tradeoff in Markov Decision Processes NIPS 2006

Automated Hierarchy Discovery for Planning in Partially Observable Environments NIPS 2006

Linearly-solvable Markov decision problems NIPS 2006