policy gradient

518 papers

Explore in graph

Also known as

SPG A3C CPGA DPG VPG PG

Co-occurring keywords

reinforcement learning (4122) variance reduction (520) deep reinforcement learning (903) continuous control (246) sample efficiency (469) markov decision process (788) policy optimization (630) sample complexity (1158) off-policy learning (227) multi-agent reinforcement learning (534)

Papers

Addressing Function Approximation Error in Actor-Critic Methods ICML 2018

A Lyapunov-based Approach to Safe Reinforcement Learning NIPS 2018

CSGNet: Neural Shape Parser for Constructive Solid Geometry CVPR 2018

Learning to Design Games: Strategic Environments in Reinforcement Learning IJCAI 2018

GEP-PG: Decoupling Exploration and Exploitation in Deep Reinforcement Learning Algorithms ICML 2018

Stochastic Variance-Reduced Policy Gradient ICML 2018

Global Convergence of Policy Gradient Methods for the Linear Quadratic Regulator ICML 2018

Smoothed Action Value Functions for Learning Gaussian Policies ICML 2018

Clipped Action Policy Gradient ICML 2018

Toward Diverse Text Generation with Inverse Reinforcement Learning IJCAI 2018

Model-Free Trajectory-based Policy Optimization with Monotonic Improvement JMLR 2018

The Mirage of Action-Dependent Baselines in Reinforcement Learning ICML 2018

Total stochastic gradient algorithms and applications in reinforcement learning NIPS 2018

An Off-policy Policy Gradient Theorem Using Emphatic Weightings NIPS 2018

Focused Hierarchical RNNs for Conditional Sequence Processing ICML 2018

Learning Globally Optimized Object Detector via Policy Gradient CVPR 2018

Chinese Grammatical Error Diagnosis Based on Policy Gradient LSTM Model ACL 2018

Single-Agent Policy Tree Search With Guarantees NIPS 2018

Recurrent Predictive State Policy Networks ICML 2018

An Inference-Based Policy Gradient Method for Learning Options ICML 2018

Learning to Collaborate for Question Answering and Asking NAACL 2018

On Learning Intrinsic Rewards for Policy Gradient Methods NIPS 2018

Learning Temporal Point Processes via Reinforcement Learning NIPS 2018

Deep Reinforcement Learning of Marked Temporal Point Processes NIPS 2018

CaLcs: Continuously Approximating Longest Common Subsequence for Sequence Level Optimization EMNLP 2018