reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Provably Efficient Reinforcement Learning with Multinomial Logit Function Approximation NIPS 2024

Designs for Enabling Collaboration in Human-Machine Teaming via Interactive and Explainable Systems NIPS 2024

Model-Based Transfer Learning for Contextual Reinforcement Learning NIPS 2024

DGPO: Discovering Multiple Strategies with Diversity-Guided Policy Optimization AAAI 2024

Near-Optimal Dynamic Regret for Adversarial Linear Mixture MDPs NIPS 2024

Learning to Cooperate with Humans using Generative Agents NIPS 2024

Towards Healthy AI: Large Language Models Need Therapists Too NAACL 2024

AdaRefiner: Refining Decisions of Language Models with Adaptive Feedback NAACL 2024

Learning Successor Features the Simple Way NIPS 2024

An Automatic Prompt Generation System for Tabular Data Tasks NAACL 2024

Removing RLHF Protections in GPT-4 via Fine-Tuning NAACL 2024

LeDex: Training LLMs to Better Self-Debug and Explain Code NIPS 2024

Expectation Alignment: Handling Reward Misspecification in the Presence of Expectation Mismatch NIPS 2024

Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning NIPS 2024

Keep it Private: Unsupervised Privatization of Online Text NAACL 2024

Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation NAACL 2024

Isometric Neural Machine Translation using Phoneme Count Ratio Reward-based Reinforcement Learning NAACL 2024

C-GAIL: Stabilizing Generative Adversarial Imitation Learning with Control Theory NIPS 2024

Reliability Estimation of News Media Sources: Birds of a Feather Flock Together NAACL 2024

Semantic-Preserving Adversarial Example Attack against BERT NAACL 2024

Mitigating Partial Observability in Sequential Decision Processes via the Lambda Discrepancy NIPS 2024

Sample Efficient Reinforcement Learning with Partial Dynamics Knowledge AAAI 2024

RL-GPT: Integrating Reinforcement Learning and Code-as-policy NIPS 2024

Reinforced Multiple Instance Selection for Speaker Attribute Prediction NAACL 2024

Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing NIPS 2024