← Learning Types

Machine Learning › Learning Types ›

Reinforcement Learning

2932 directly classified papers

Papers per year

Papers

A Nearly Optimal and Low-Switching Algorithm for Reinforcement Learning with General Function Approximation NIPS 2024

Excluding the Irrelevant: Focusing Reinforcement Learning through Continuous Action Masking NIPS 2024

Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads NIPS 2024

Learning to Assist Humans without Inferring Rewards NIPS 2024

Improving Context-Aware Preference Modeling for Language Models NIPS 2024

Trace is the Next AutoDiff: Generative Optimization with Rich Feedback, Execution Traces, and LLMs NIPS 2024

The Edge-of-Reach Problem in Offline Model-Based Reinforcement Learning NIPS 2024

CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges ACL 2024

Adversarial Environment Design via Regret-Guided Diffusion Models NIPS 2024

Disentangled Unsupervised Skill Discovery for Efficient Hierarchical Reinforcement Learning NIPS 2024

Two-way Deconfounder for Off-policy Evaluation in Causal Reinforcement Learning NIPS 2024

Maximum Entropy Reinforcement Learning via Energy-Based Normalizing Flow NIPS 2024

Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs NIPS 2024

ACAMDA: Improving Data Efficiency in Reinforcement Learning through Guided Counterfactual Data Augmentation AAAI 2024

Diversity Is Not All You Need: Training A Robust Cooperative Agent Needs Specialist Partners NIPS 2024

Is Mamba Compatible with Trajectory Optimization in Offline Reinforcement Learning? NIPS 2024

Fast TRAC: A Parameter-Free Optimizer for Lifelong Reinforcement Learning NIPS 2024

Belief-State Query Policies for User-Aligned POMDPs NIPS 2024

Provably Efficient Reinforcement Learning with Multinomial Logit Function Approximation NIPS 2024

Goal Conditioned Reinforcement Learning for Photo Finishing Tuning NIPS 2024

DMoERM: Recipes of Mixture-of-Experts for Effective Reward Modeling ACL 2024

Reinforced Cross-Domain Knowledge Distillation on Time Series Data NIPS 2024

Horizon-Free and Instance-Dependent Regret Bounds for Reinforcement Learning with General Function Approximation AISTATS 2024

SafeAR: Safe Algorithmic Recourse by Risk-Aware Policies AAAI 2024

Amnesia as a Catalyst for Enhancing Black Box Pixel Attacks in Image Classification and Object Detection NIPS 2024