policy gradient

518 papers

Explore in graph

Also known as

SPG A3C CPGA DPG VPG PG

Co-occurring keywords

reinforcement learning (4122) variance reduction (520) deep reinforcement learning (903) continuous control (246) sample efficiency (469) markov decision process (788) policy optimization (630) sample complexity (1158) off-policy learning (227) multi-agent reinforcement learning (534)

Papers

On Reinforcement Learning and Distribution Matching for Fine-Tuning Language Models with no Catastrophic Forgetting NIPS 2022

Tutoring Helps Students Learn Better: Improving Knowledge Distillation for BERT with Tutor Network EMNLP 2022

On the convergence of policy gradient methods to Nash equilibria in general stochastic games NIPS 2022

Multi-Agent Reinforcement Learning with General Utilities via Decentralized Shadow Reward Actor-Critic AAAI 2022

TaSIL: Taylor Series Imitation Learning NIPS 2022

Efficient Unsupervised Sentence Compression by Fine-tuning Transformers with Reinforcement Learning ACL 2022

DECORE: Deep Compression With Reinforcement Learning CVPR 2022

Lexicographic Multi-Objective Reinforcement Learning IJCAI 2022

Trust Region Policy Optimization with Optimal Transport Discrepancies: Duality and Algorithm for Continuous Actions NIPS 2022

Plan Your Target and Learn Your Skills: Transferable State-Only Imitation Learning via Decoupled Policy Optimization ICML 2022

Scalable and Robust Self-Learning for Skill Routing in Large-Scale Conversational AI Systems NAACL 2022

Bridging the Gap between Training and Inference: Multi-Candidate Optimization for Diverse Neural Machine Translation NAACL 2022

Approximate Information State for Approximate Planning and Reinforcement Learning in Partially Observed Systems JMLR 2022

Alleviating "Posterior Collapse'' in Deep Topic Models via Policy Gradient NIPS 2022

Reinforcement Learning with Large Action Spaces for Neural Machine Translation COLING 2022

Beyond the Policy Gradient Theorem for Efficient Policy Updates in Actor-Critic Algorithms AISTATS 2022

Policy Optimization with Stochastic Mirror Descent AAAI 2022

Robust Reinforcement Learning: A Constrained Game-theoretic Approach L4DC 2021

GRAC: Self-Guided and Self-Regularized Actor-Critic CORL 2021

Discrete-Continuous Action Space Policy Gradient-Based Attention for Image-Text Matching CVPR 2021

Reinforced Attention for Few-Shot Learning and Beyond CVPR 2021

Learning Fair Policies in Decentralized Cooperative Multi-Agent Reinforcement Learning ICML 2021

On-Policy Deep Reinforcement Learning for the Average-Reward Criterion ICML 2021

Adaptive Prior-Dependent Correction Enhanced Reinforcement Learning for Natural Language Generation AAAI 2021

Characterizing the Gap Between Actor-Critic and Policy Gradient ICML 2021