Reinforcement Learning › Methods ›

Policy Learning

2068 directly classified papers

Papers per year

Papers

Eventual Discounting Temporal Logic Counterfactual Experience Replay ICML 2023

AutoCost: Evolving Intrinsic Cost for Zero-Violation Reinforcement Learning AAAI 2023

Harnessing the Plug-and-Play Controller by Prompting EMNLP 2023

Policy Gradient in Robust MDPs with Global Convergence Guarantee ICML 2023

Automatic Unit Test Data Generation and Actor-Critic Reinforcement Learning for Code Synthesis EMNLP 2023

Robust Average-Reward Markov Decision Processes AAAI 2023

trlX: A Framework for Large Scale Open Source RLHF EMNLP 2023

Logarithmic regret in communicating MDPs: Leveraging known dynamics with bandits ACML 2023

Continuous Versatile Jumping Using Learned Action Residuals L4DC 2023

The Regret of Exploration and the Control of Bad Episodes in Reinforcement Learning ICML 2023

A Pragmatic Look at Deep Imitation Learning ACML 2023

Policy Evaluation in Distributional LQR L4DC 2023

Model Predictive Control via On-Policy Imitation Learning L4DC 2023

Optimal Goal-Reaching Reinforcement Learning via Quasimetric Learning ICML 2023

Task-Oriented Koopman-Based Control with Contrastive Encoder CORL 2023

Towards Hierarchical Policy Learning for Conversational Recommendation with Hypergraph-based Reinforcement Learning IJCAI 2023

Model-based Reinforcement Learning with Scalable Composite Policy Gradient Estimators ICML 2023

Reader: Model-based language-instructed reinforcement learning EMNLP 2023

ConvLab-3: A Flexible Dialogue System Toolkit Based on a Unified Data Format EMNLP 2023

VA-learning as a more efficient alternative to Q-learning ICML 2023

KRLS: Improving End-to-End Response Generation in Task Oriented Dialog with Reinforced Keywords Learning EMNLP 2023

Enhancing Generative Retrieval with Reinforcement Learning from Relevance Feedback EMNLP 2023

Target-to-Source Augmentation for Aspect Sentiment Triplet Extraction EMNLP 2023

Reinforced Target-driven Conversational Promotion EMNLP 2023

Inference-Time Policy Adapters (IPA): Tailoring Extreme-Scale LMs without Fine-tuning EMNLP 2023