reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Embedding-Aligned Language Models NIPS 2024

HumanVLA: Towards Vision-Language Directed Object Rearrangement by Physical Humanoid NIPS 2024

Fine Tuning Out-of-Vocabulary Item Recommendation with User Sequence Imagination NIPS 2024

Reinforcement Learning with Lookahead Information NIPS 2024

Functional Bilevel Optimization for Machine Learning NIPS 2024

AdaSociety: An Adaptive Environment with Social Structures for Multi-Agent Decision-Making NIPS 2024

Can Learned Optimization Make Reinforcement Learning Less Difficult? NIPS 2024

Enhancing Chess Reinforcement Learning with Graph Representation NIPS 2024

Abstract Reward Processes: Leveraging State Abstraction for Consistent Off-Policy Evaluation NIPS 2024

SurgicAI: A Hierarchical Platform for Fine-Grained Surgical Policy Learning and Benchmarking NIPS 2024

Goal Reduction with Loop-Removal Accelerates RL and Models Human Brain Activity in Goal-Directed Learning NIPS 2024

Re3val: Reinforced and Reranked Generative Retrieval EACL 2024

Artificial Generational Intelligence: Cultural Accumulation in Reinforcement Learning NIPS 2024

EASI: Evolutionary Adversarial Simulator Identification for Sim-to-Real Transfer NIPS 2024

On the Role of Information Structure in Reinforcement Learning for Partially-Observable Sequential Teams and Games NIPS 2024

The Value of Reward Lookahead in Reinforcement Learning NIPS 2024

Keep it Private: Unsupervised Privatization of Online Text NAACL 2024

Reliability Estimation of News Media Sources: Birds of a Feather Flock Together NAACL 2024

Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation NAACL 2024

Reinforced Multiple Instance Selection for Speaker Attribute Prediction NAACL 2024

Reciprocal Reward Influence Encourages Cooperation From Self-Interested Agents NIPS 2024

Isometric Neural Machine Translation using Phoneme Count Ratio Reward-based Reinforcement Learning NAACL 2024

DRESS: Instructing Large Vision-Language Models to Align and Interact with Humans via Natural Language Feedback CVPR 2024

Ensemble Diversity Facilitates Adversarial Transferability CVPR 2024

Semantic-Preserving Adversarial Example Attack against BERT NAACL 2024