reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Look Harder: A Neural Machine Translation Model with Hard Attention ACL 2019

Sentence Mover’s Similarity: Automatic Evaluation for Multi-Sentence Texts ACL 2019

Neural Keyphrase Generation via Reinforcement Learning with Adaptive Rewards ACL 2019

Reinforced Dynamic Reasoning for Conversational Question Generation ACL 2019

Reinforced Training Data Selection for Domain Adaptation ACL 2019

Unsupervised Curricula for Visual Meta-Reinforcement Learning NIPS 2019

Trust Region-Guided Proximal Policy Optimization NIPS 2019

Off-Policy Evaluation via Off-Policy Classification NIPS 2019

Control What You Can: Intrinsically Motivated Task-Planning Agent NIPS 2019

Mirroring without Overimitation: Learning Functionally Equivalent Manipulation Actions AAAI 2019

Geometric Multi-Model Fitting by Deep Reinforcement Learning AAAI 2019

Large-Scale Interactive Recommendation with Tree-Structured Policy Gradient AAAI 2019

Human-Like Delicate Region Erasing Strategy for Weakly Supervised Detection AAAI 2019

Combined Reinforcement Learning via Abstract Representations AAAI 2019

Trust Region Evolution Strategies AAAI 2019

The Utility of Sparse Representations for Control in Reinforcement Learning AAAI 2019

Trainable Undersampling for Class-Imbalance Learning AAAI 2019

What and Where the Themes Dominate in Image AAAI 2019

Beyond Confidence Regions: Tight Bayesian Ambiguity Sets for Robust MDPs NIPS 2019

Planning with Goal-Conditioned Policies NIPS 2019

DualDICE: Behavior-Agnostic Estimation of Discounted Stationary Distribution Corrections NIPS 2019

A neurally plausible model learns successor representations in partially observable environments NIPS 2019

Towards Interpretable Reinforcement Learning Using Attention Augmented Agents NIPS 2019

Weight Agnostic Neural Networks NIPS 2019

Latent Structure Models for Natural Language Processing ACL 2019