reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Unpaired Sentiment-to-Sentiment Translation: A Cycled Reinforcement Learning Approach ACL 2018

Sequicity: Simplifying Task-oriented Dialogue Systems with Single Sequence-to-Sequence Architectures ACL 2018

Reliability and Learnability of Human Bandit Feedback for Sequence-to-Sequence Reinforcement Learning ACL 2018

Robust Distant Supervision Relation Extraction via Deep Reinforcement Learning ACL 2018

Deep Dyna-Q: Integrating Planning for Task-Completion Dialogue Policy Learning ACL 2018

Object-oriented Neural Programming (OONP) for Document Understanding ACL 2018

On Oracle-Efficient PAC RL with Rich Observations NIPS 2018

Meta-Reinforcement Learning of Structured Exploration Strategies NIPS 2018

Temporal Regularization for Markov Decision Process NIPS 2018

An Off-policy Policy Gradient Theorem Using Emphatic Weightings NIPS 2018

Near Optimal Exploration-Exploitation in Non-Communicating Markov Decision Processes NIPS 2018

Embodied Question Answering CVPR 2018

Efficient Interactive Annotation of Segmentation Datasets With Polygon-RNN++ CVPR 2018

Learning to Look Around: Intelligently Exploring Unseen Environments for Unknown Tasks CVPR 2018

Practical Block-Wise Neural Network Architecture Generation CVPR 2018

Crafting a Toolchain for Image Restoration by Deep Reinforcement Learning CVPR 2018

Vision-and-Language Navigation: Interpreting Visually-Grounded Navigation Instructions in Real Environments CVPR 2018

Environment Upgrade Reinforcement Learning for Non-Differentiable Multi-Stage Pipelines CVPR 2018

A Bayesian Approach to Generative Adversarial Imitation Learning NIPS 2018

A Case Study on the Importance of Belief State Representation for Dialogue Policy Management INTERSPEECH 2018

Joint Learning of Interactive Spoken Content Retrieval and Trainable User Simulator INTERSPEECH 2018

Reinforcement Learning with Action-Derived Rewards for Chemotherapy and Clinical Trial Dosing Regimen Selection MLHC 2018

Concrete Dropout NIPS 2017

Runtime Neural Pruning NIPS 2017

Transfer Learning in Multi-Armed Bandits: A Causal Approach IJCAI 2017