reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Adaptive Auxiliary Task Weighting for Reinforcement Learning NIPS 2019

Non-Asymptotic Gap-Dependent Regret Bounds for Tabular MDPs NIPS 2019

Adaptive Temporal-Difference Learning for Policy Evaluation with Per-State Uncertainty Estimates NIPS 2019

A Modular Architecture for Unsupervised Sarcasm Generation EMNLP 2019

Curriculum-guided Hindsight Experience Replay NIPS 2019

Knockoff Nets: Stealing Functionality of Black-Box Models CVPR 2019

Hierarchical Macro Strategy Model for MOBA Game AI AAAI 2019

Asynchronous Proximal Stochastic Gradient Algorithm for Composition Optimization Problems AAAI 2019

Hindsight Credit Assignment NIPS 2019

SoftRegex: Generating Regex from Natural Language Descriptions using Softened Regex Equivalence EMNLP 2019

RUDDER: Return Decomposition for Delayed Rewards NIPS 2019

Optimizing Discount and Reputation Trade-Offs in E-Commerce Systems: Characterization and Online Learning AAAI 2019

LexicalAT: Lexical-Based Adversarial Reinforcement Training for Robust Sentiment Classification EMNLP 2019

Stay on the Path: Instruction Fidelity in Vision-and-Language Navigation ACL 2019

Bridging by Word: Image Grounded Vocabulary Construction for Visual Captioning ACL 2019

A Hierarchical Reinforced Sequence Operation Method for Unsupervised Text Style Transfer ACL 2019

Learning to Predict Without Looking Ahead: World Models Without Forward Prediction NIPS 2019

A Unified Bellman Optimality Principle Combining Reward Maximization and Empowerment NIPS 2019

Learning to Perform Local Rewriting for Combinatorial Optimization NIPS 2019

Learning Local Search Heuristics for Boolean Satisfiability NIPS 2019

Discovery of Useful Questions as Auxiliary Tasks NIPS 2019

Robust exploration in linear quadratic reinforcement learning NIPS 2019

Scaling and Benchmarking Self-Supervised Visual Representation Learning ICCV 2019

Self-Critical Attention Learning for Person Re-Identification ICCV 2019

Fair Loss: Margin-Aware Reinforcement Learning for Deep Face Recognition ICCV 2019