reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch NIPS 2024

Risk-Conditioned Reinforcement Learning: A Generalized Approach for Adapting to Varying Risk Measures AAAI 2024

State Chrono Representation for Enhancing Generalization in Reinforcement Learning NIPS 2024

Implicit Curriculum in Procgen Made Explicit NIPS 2024

Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads NIPS 2024

Explaining Reinforcement Learning Agents through Counterfactual Action Outcomes AAAI 2024

Span-Based Optimal Sample Complexity for Weakly Communicating and General Average Reward MDPs NIPS 2024

Distributionally Robust Reinforcement Learning with Interactive Data Collection: Fundamental Hardness and Near-Optimal Algorithms NIPS 2024

Learning Formal Mathematics From Intrinsic Motivation NIPS 2024

Response Enhanced Semi-supervised Dialogue Query Generation AAAI 2024

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing NIPS 2024

Policy Learning from Tutorial Books via Understanding, Rehearsing and Introspecting NIPS 2024

Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge AAAI 2024

Using Unity to Help Solve Reinforcement Learning NIPS 2024

Policy Mirror Descent with Lookahead NIPS 2024

Learning to Discuss Strategically: A Case Study on One Night Ultimate Werewolf NIPS 2024

Recursive Introspection: Teaching Language Model Agents How to Self-Improve NIPS 2024

E2CL: Exploration-based Error Correction Learning for Embodied Agents EMNLP 2024

Can Learned Optimization Make Reinforcement Learning Less Difficult? NIPS 2024

Exploration by Learning Diverse Skills through Successor State Representations NIPS 2024

C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory NIPS 2024

No Representation, No Trust: Connecting Representation, Collapse, and Trust Issues in PPO NIPS 2024

Assouad, Fano, and Le Cam with Interaction: A Unifying Lower Bound Framework and Characterization for Bandit Learnability NIPS 2024

On the Role of Information Structure in Reinforcement Learning for Partially-Observable Sequential Teams and Games NIPS 2024

Mars: Situated Inductive Reasoning in an Open-World Environment NIPS 2024