conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

RMM: A Recursive Mental Model for Dialogue Navigation EMNLP 2020

Learning to Stop: A Simple yet Effective Approach to Urban Vision-Language Navigation EMNLP 2020

Learning to summarize with human feedback NIPS 2020

Inferring learning rules from animal decision-making NIPS 2020

Memory Based Trajectory-conditioned Policies for Learning from Sparse Rewards NIPS 2020

AvE: Assistance via Empowerment NIPS 2020

Continual Learning of Control Primitives : Skill Discovery via Reset-Games NIPS 2020

Neural Dynamic Policies for End-to-End Sensorimotor Learning NIPS 2020

Policy Improvement via Imitation of Multiple Oracles NIPS 2020

Improving GAN Training with Probability Ratio Clipping and Sample Reweighting NIPS 2020

Reinforcement Learning with General Value Function Approximation: Provably Efficient Approach via Bounded Eluder Dimension NIPS 2020

Neurosymbolic Reinforcement Learning with Formally Verified Exploration NIPS 2020

Improving Generalization in Reinforcement Learning with Mixture Regularization NIPS 2020

One Solution is Not All You Need: Few-Shot Extrapolation via Structured MaxEnt RL NIPS 2020

Reinforced Molecular Optimization with Neighborhood-Controlled Grammars NIPS 2020

CoinDICE: Off-Policy Confidence Interval Estimation NIPS 2020

RD$^2$: Reward Decomposition with Representation Decomposition NIPS 2020

Instance-based Generalization in Reinforcement Learning NIPS 2020

Task-agnostic Exploration in Reinforcement Learning NIPS 2020

Sample Efficient Reinforcement Learning via Low-Rank Matrix Estimation NIPS 2020

Leverage the Average: an Analysis of KL Regularization in Reinforcement Learning NIPS 2020

DISK: Learning local features with policy gradient NIPS 2020

Provably Efficient Online Hyperparameter Optimization with Population-Based Bandits NIPS 2020

What Did You Think Would Happen? Explaining Agent Behaviour through Intended Outcomes NIPS 2020

R-learning in actor-critic model offers a biologically relevant mechanism for sequential decision-making NIPS 2020