reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Variance Reduced Policy Evaluation with Smooth Function Approximation NIPS 2019

Search on the Replay Buffer: Bridging Planning and Reinforcement Learning NIPS 2019

Imitation-Projected Programmatic Reinforcement Learning NIPS 2019

Towards Optimal Off-Policy Evaluation for Reinforcement Learning with Marginalized Importance Sampling NIPS 2019

Almost Horizon-Free Structure-Aware Best Policy Identification with a Generative Model NIPS 2019

Provably Global Convergence of Actor-Critic: A Case for Linear Quadratic Regulator with Ergodic Cost NIPS 2019

Mo' States Mo' Problems: Emergency Stop Mechanisms from Observation NIPS 2019

Learning Options with Interest Functions AAAI 2019

Imitation Learning from Observation AAAI 2019

Addressing Sample Complexity in Visual Tasks Using HER and Hallucinatory GANs NIPS 2019

VIREL: A Variational Inference Framework for Reinforcement Learning NIPS 2019

NAT: Neural Architecture Transformer for Accurate and Compact Architectures NIPS 2019

Learning Personalized Modular Network Guided by Structured Knowledge CVPR 2019

HAQ: Hardware-Aware Automated Quantization With Mixed Precision CVPR 2019

Actor-Critic Instance Segmentation CVPR 2019

Spot and Learn: A Maximum-Entropy Patch Sampler for Few-Shot Image Classification CVPR 2019

AdaFrame: Adaptive Frame Selection for Fast Video Recognition CVPR 2019

Learning Channel-Wise Interactions for Binary Convolutional Neural Networks CVPR 2019

Scene Memory Transformer for Embodied Agents in Long-Horizon Tasks CVPR 2019

Language-Driven Temporal Activity Localization: A Semantic Matching Reinforcement Learning Model CVPR 2019

Learning Compositional Neural Programs with Recursive Tree Search and Planning NIPS 2019

No-Press Diplomacy: Modeling Multi-Agent Gameplay NIPS 2019

Learning from Trajectories via Subgoal Discovery NIPS 2019

Learning Data Manipulation for Augmentation and Weighting NIPS 2019

Information-Theoretic Confidence Bounds for Reinforcement Learning NIPS 2019