conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

The Sensory Neuron as a Transformer: Permutation-Invariant Neural Networks for Reinforcement Learning NIPS 2021

Average-Reward Learning and Planning with Options NIPS 2021

Counterexample Guided RL Policy Refinement Using Bayesian Optimization NIPS 2021

Causal Influence Detection for Improving Efficiency in Reinforcement Learning NIPS 2021

Sample-Efficient Reinforcement Learning for Linearly-Parameterized MDPs with a Generative Model NIPS 2021

Optimal Policies Tend To Seek Power NIPS 2021

XDO: A Double Oracle Algorithm for Extensive-Form Games NIPS 2021

Learning State Representations from Random Deep Action-conditional Predictions NIPS 2021

RL for Latent MDPs: Regret Guarantees and a Lower Bound NIPS 2021

Active Offline Policy Selection NIPS 2021

Adaptive Ensemble Q-learning: Minimizing Estimation Bias via Error Feedback NIPS 2021

Why Generalization in RL is Difficult: Epistemic POMDPs and Implicit Partial Observability NIPS 2021

Reward is enough for convex MDPs NIPS 2021

Provable Model-based Nonlinear Bandit and Reinforcement Learning: Shelve Optimism, Embrace Virtual Curvature NIPS 2021

Is Bang-Bang Control All You Need? Solving Continuous Control with Bernoulli Policies NIPS 2021

Co-GAIL: Learning Diverse Strategies for Human-Robot Collaboration CORL 2021

ColorRL: Reinforced Coloring for End-to-End Instance Segmentation CVPR 2021

Bridging the Imitation Gap by Adaptive Insubordination NIPS 2021

Policy Learning Using Weak Supervision NIPS 2021

Explicable Reward Design for Reinforcement Learning Agents NIPS 2021

Local policy search with Bayesian optimization NIPS 2021

Safe Policy Optimization with Local Generalized Linear Function Approximations NIPS 2021

Reinforcement Learning based Disease Progression Model for Alzheimer’s Disease NIPS 2021

Search from History and Reason for Future: Two-stage Reasoning on Temporal Knowledge Graphs IJCNLP 2021

Exploring Dynamic Selection of Branch Expansion Orders for Code Generation IJCNLP 2021