Reinforcement Learning › Methods ›

Policy Learning

2068 directly classified papers

Papers per year

Papers

Building Task-Oriented Visual Dialog Systems Through Alternative Optimization Between Dialog Policy and Language Generation EMNLP 2019

DIVINE: A Generative Adversarial Imitation Learning Framework for Knowledge Graph Reasoning EMNLP 2019

Collaborative Policy Learning for Open Knowledge Graph Reasoning EMNLP 2019

Clickbait? Sensational Headline Generation with Auto-tuned Reinforcement Learning EMNLP 2019

Learning to Ask for Conversational Machine Learning EMNLP 2019

ARAML: A Stable Adversarial Training Framework for Text Generation EMNLP 2019

Data-Anonymous Encoding for Text-to-SQL Generation EMNLP 2019

LexicalAT: Lexical-Based Adversarial Reinforcement Training for Robust Sentiment Classification EMNLP 2019

Human-Like Decision Making: Document-level Aspect Sentiment Classification via Hierarchical Reinforcement Learning EMNLP 2019

An Empirical Comparison on Imitation Learning and Reinforcement Learning for Paraphrase Generation EMNLP 2019

Generating Classical Chinese Poems from Vernacular Chinese EMNLP 2019

Unified Policy Optimization for Robust Reinforcement Learning ACML 2019

Trajectory-wise Control Variates for Variance Reduction in Policy Gradient Methods CORL 2019

An Improved Convergence Analysis of Stochastic Variance-Reduced Policy Gradient UAI 2019

Model-based RL in Contextual Decision Processes: PAC bounds and Exponential Improvements over Model-free Approaches COLT 2019

Clickbait? Sensational Headline Generation with Auto-tuned Reinforcement Learning IJCNLP 2019

Better Rewards Yield Better Summaries: Learning to Summarise Without References IJCNLP 2019

Human-Like Decision Making: Document-level Aspect Sentiment Classification via Hierarchical Reinforcement Learning IJCNLP 2019

Derivative-Free Methods for Policy Optimization: Guarantees for Linear Quadratic Systems AISTATS 2019

Active Exploration in Markov Decision Processes AISTATS 2019

Rethinking Action Spaces for Reinforcement Learning in End-to-end Dialog Agents with Latent Variable Models NAACL 2019

Better, Faster, Stronger Sequence Tagging Constituent Parsers NAACL 2019

POLITEX: Regret Bounds for Policy Iteration using Expert Prediction ICML 2019

Action Robust Reinforcement Learning and Applications in Continuous Control ICML 2019

Transfer of Samples in Policy Search via Multiple Importance Sampling ICML 2019