conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Efficient skill acquisition for insertion tasks in obstructed environments L4DC 2024

On the uniqueness of solution for the Bellman equation of LTL objectives L4DC 2024

Improved Algorithm for Adversarial Linear Mixture MDPs with Bandit Feedback and Unknown Transition AISTATS 2024

An investigation of time reversal symmetry in reinforcement learning L4DC 2024

Learning to stabilize high-dimensional unknown systems using Lyapunov-guided exploration L4DC 2024

Symmetric Q-learning: Reducing Skewness of Bellman Error in Online Reinforcement Learning AAAI 2024

Risk-Conditioned Reinforcement Learning: A Generalized Approach for Adapting to Varying Risk Measures AAAI 2024

Unsupervised Object Interaction Learning with Counterfactual Dynamics Models AAAI 2024

Explaining Reinforcement Learning Agents through Counterfactual Action Outcomes AAAI 2024

DiG-In-GNN: Discriminative Feature Guided GNN-Based Fraud Detector against Inconsistencies in Multi-Relation Fraud Graph AAAI 2024

Beyond Expected Return: Accounting for Policy Reproducibility When Evaluating Reinforcement Learning Algorithms AAAI 2024

In vivo learning-based control of microbial populations density in bioreactors L4DC 2024

Tracking object positions in reinforcement learning: A metric for keypoint detection L4DC 2024

Controlgym: Large-scale control environments for benchmarking reinforcement learning algorithms L4DC 2024

OVD-Explorer: Optimism Should Not Be the Sole Pursuit of Exploration in Noisy Environments AAAI 2024

Distributional Off-Policy Evaluation for Slate Recommendations AAAI 2024

Pointwise-in-time diagnostics for reinforcement learning during training and runtime L4DC 2024

A large deviations perspective on policy gradient algorithms L4DC 2024

Policy Evaluation for Reinforcement Learning from Human Feedback: A Sample Complexity Analysis AISTATS 2024

A Bayesian Learning Algorithm for Unknown Zero-sum Stochastic Games with an Arbitrary Opponent AISTATS 2024

PDE control gym: A benchmark for data-driven boundary control of partial differential equations L4DC 2024

Safety filters for black-box dynamical systems by learning discriminating hyperplanes L4DC 2024

Discerning Temporal Difference Learning AAAI 2024

Robust exploration with adversary via Langevin Monte Carlo L4DC 2024

Improving Socratic Question Generation using Data Augmentation and Preference Optimization NAACL 2024