conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback NIPS 2024

Reinforcement Retrieval Leveraging Fine-grained Feedback for Fact Checking News Claims with Black-Box LLM COLING 2024

Catastrophic Goodhart: regularizing RLHF with KL divergence does not mitigate heavy-tailed reward misspecification NIPS 2024

Learning to stabilize high-dimensional unknown systems using Lyapunov-guided exploration L4DC 2024

Pearl: A Production-Ready Reinforcement Learning Agent JMLR 2024

Optimizing Language Models with Fair and Stable Reward Composition in Reinforcement Learning EMNLP 2024

The CoachAI Badminton Environment: Bridging the Gap between a Reinforcement Learning Environment and Real-World Badminton Games AAAI 2024

Robustness and Visual Explanation for Black Box Image, Video, and ECG Signal Classification with Reinforcement Learning AAAI 2024

MANDREL: Modular Reinforcement Learning Pipelines for Material Discovery AAAI 2024

Multi-world Model in Continual Reinforcement Learning AAAI 2024

Real-Time Recurrent Learning using Trace Units in Reinforcement Learning NIPS 2024

Using Reinforcement Learning to Iteratively Construct Road Networks from Satellite Images and GPS Data AAAI 2024

Improving Discriminative Capability of Reward Models in RLHF Using Contrastive Learning EMNLP 2024

The CoachAI Badminton Environment: A Novel Reinforcement Learning Environment with Realistic Opponents (Student Abstract) AAAI 2024

Imitation Bootstrapped Reinforcement Learning RSS 2024

Coordination of Emergent Demand Changes via Value-Based Negotiation for Supply Chain Management (Student Abstract) AAAI 2024

MARCO: A Memory-Augmented Reinforcement Framework for Combinatorial Optimization IJCAI 2024

Knowledge Distillation from Single-Task Teachers to Multi-Task Student for End-to-End Autonomous Driving AAAI 2024

Amortized Active Causal Induction with Deep Reinforcement Learning NIPS 2024

Dynamic Multi-Reward Weighting for Multi-Style Controllable Generation EMNLP 2024

Mimicking the Maestro: Exploring the Efficacy of a Virtual AI Teacher in Fine Motor Skill Acquisition AAAI 2024

Reward (Mis)design for Autonomous Driving (Abstract Reprint) AAAI 2024

RLPeri: Accelerating Visual Perimetry Test with Reinforcement Learning and Convolutional Feature Extraction AAAI 2024

Active Reinforcement Learning for Robust Building Control AAAI 2024

Human-Guided Moral Decision Making in Text-Based Games AAAI 2024