reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Relational recurrent neural networks NIPS 2018

Q-learning with Nearest Neighbors NIPS 2018

Reinforcement Cutting-Agent Learning for Video Object Segmentation CVPR 2018

BlockDrop: Dynamic Inference Paths in Residual Networks CVPR 2018

Reward Learning From Narrated Demonstrations CVPR 2018

Deep Progressive Reinforcement Learning for Skeleton-Based Action Recognition CVPR 2018

Sim2Real Viewpoint Invariant Visual Servoing by Recurrent Control CVPR 2018

Deep Reinforcement Learning of Region Proposal Networks for Object Detection CVPR 2018

Dynamic Zoom-In Network for Fast Object Detection in Large Images CVPR 2018

Learning Globally Optimized Object Detector via Policy Gradient CVPR 2018

A Reinforcement Learning-driven Translation Model for Search-Oriented Conversational Systems EMNLP 2018

BanditSum: Extractive Summarization as a Contextual Bandit EMNLP 2018

Thread Popularity Prediction and Tracking with a Permutation-invariant Model EMNLP 2018

Multi-Hop Knowledge Graph Reasoning with Reward Shaping EMNLP 2018

Learning a Policy for Opportunistic Active Learning EMNLP 2018

APRIL: Interactively Learning to Summarise by Combining Active Preference Learning and Reinforcement Learning EMNLP 2018

Situated Mapping of Sequential Instructions to Actions with Single-step Reward Observation ACL 2018

Loss Functions for Multiset Prediction NIPS 2018

Exploration in Structured Reinforcement Learning NIPS 2018

Graph Convolutional Policy Network for Goal-Directed Molecular Graph Generation NIPS 2018

Is Q-Learning Provably Efficient? NIPS 2018

Near-Optimal Time and Sample Complexities for Solving Markov Decision Processes with a Generative Model NIPS 2018

Differentiable MPC for End-to-end Planning and Control NIPS 2018

Learning Hierarchical Structures On-The-Fly with a Recurrent-Recursive Model for Sequences ACL 2018

Towards one-shot learning for rare-word translation with external experts ACL 2018