conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

A Provably Efficient Sample Collection Strategy for Reinforcement Learning NIPS 2021

Going Beyond Linear Transformers with Recurrent Fast Weight Programmers NIPS 2021

Hit and Lead Discovery with Explorative RL and Fragment-based Molecule Generation NIPS 2021

Ranking Policy Decisions NIPS 2021

Learning MDPs from Features: Predict-Then-Optimize for Sequential Decision Making by Reinforcement Learning NIPS 2021

Non-Asymptotic Analysis for Two Time-scale TDC with General Smooth Function Approximation NIPS 2021

Compositional Reinforcement Learning from Logical Specifications NIPS 2021

Infinite Time Horizon Safety of Bayesian Neural Networks NIPS 2021

CO-PILOT: COllaborative Planning and reInforcement Learning On sub-Task curriculum NIPS 2021

Generalized Proximal Policy Optimization with Sample Reuse NIPS 2021

Optimization-Based Algebraic Multigrid Coarsening Using Reinforcement Learning NIPS 2021

Provably Efficient Black-Box Action Poisoning Attacks Against Reinforcement Learning NIPS 2021

Continual Auxiliary Task Learning NIPS 2021

Uniform-PAC Bounds for Reinforcement Learning with Linear Function Approximation NIPS 2021

What Matters for Adversarial Imitation Learning? NIPS 2021

MAP Propagation Algorithm: Faster Learning with a Team of Reinforcement Learning Agents NIPS 2021

Contrastive Reinforcement Learning of Symbolic Reasoning Domains NIPS 2021

On Joint Learning for Solving Placement and Routing in Chip Design NIPS 2021

Skill Preferences: Learning to Extract and Execute Robotic Skills from Human Feedback CORL 2021

Planning from Pixels in Environments with Combinatorially Hard Search Spaces NIPS 2021

Learning the Non-Differentiable Optimization for Blind Super-Resolution CVPR 2021

NPAS: A Compiler-Aware Framework of Unified Network Pruning and Architecture Search for Beyond Real-Time Mobile Acceleration CVPR 2021

Outcome-Driven Reinforcement Learning via Variational Inference NIPS 2021

Curriculum Learning for Vision-and-Language Navigation NIPS 2021

Bellman Eluder Dimension: New Rich Classes of RL Problems, and Sample-Efficient Algorithms NIPS 2021