policy gradient

518 papers

Explore in graph

Also known as

SPG A3C CPGA DPG VPG PG

Co-occurring keywords

reinforcement learning (4122) variance reduction (520) deep reinforcement learning (903) continuous control (246) sample efficiency (469) markov decision process (788) policy optimization (630) sample complexity (1158) off-policy learning (227) multi-agent reinforcement learning (534)

Papers

Optimization Methods for Interpretable Differentiable Decision Trees Applied to Reinforcement Learning AISTATS 2020

Actor Critic Deep Reinforcement Learning for Neural Malware Control AAAI 2020

Balancing Learning Speed and Stability in Policy Gradient via Adaptive Exploration AISTATS 2020

Worst Cases Policy Gradients CORL 2019

Exploiting the Sign of the Advantage Function to Learn Deterministic Policies in Continuous Domains IJCAI 2019

ARAML: A Stable Adversarial Training Framework for Text Generation EMNLP 2019

Evaluating Rewards for Question Generation Models NAACL 2019

Trajectory-Based Off-Policy Deep Reinforcement Learning ICML 2019

Soft Policy Gradient Method for Maximum Entropy Deep Reinforcement Learning IJCAI 2019

Natural Option Critic AAAI 2019

Diverse Exploration via Conjugate Policies for Policy Gradient Methods AAAI 2019

Model Learning for Look-Ahead Exploration in Continuous Control AAAI 2019

Reading Like HER: Human Reading Inspired Extractive Summarization IJCNLP 2019

Diversity-Inducing Policy Gradient: Using Maximum Mean Discrepancy to Find a Set of Diverse Policies IJCAI 2019

Counterfactual Critic Multi-Agent Training for Scene Graph Generation ICCV 2019

Large-Scale Interactive Recommendation with Tree-Structured Policy Gradient AAAI 2019

Trust Region Evolution Strategies AAAI 2019

Making History Matter: History-Advantage Sequence Training for Visual Dialog ICCV 2019

StartNet: Online Detection of Action Start in Untrimmed Videos ICCV 2019

Reinforcement-based denoising of distantly supervised NER with partial annotation EMNLP 2019

Reading Like HER: Human Reading Inspired Extractive Summarization EMNLP 2019

Reinforced Product Metadata Selection for Helpfulness Assessment of Customer Reviews EMNLP 2019

End-to-end Deep Reinforcement Learning Based Coreference Resolution ACL 2019

Historical Text Normalization with Delayed Rewards ACL 2019

Multi-Task Semantic Dependency Parsing with Policy Gradient for Learning Easy-First Strategies ACL 2019