conftrace_

reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Hindsight Trust Region Policy Optimization IJCAI 2021

Combining Reinforcement Learning and Causal Models for Robotics Applications IJCAI 2021

Intelligent and Learning Agents: Four Investigations IJCAI 2021

Deep Drone Acrobatics (Extended Abstract) IJCAI 2021

Temporal Induced Self-Play for Stochastic Bayesian Games IJCAI 2021

Emergent Prosociality in Multi-Agent Games Through Gifting IJCAI 2021

Verifying Reinforcement Learning up to Infinity IJCAI 2021

Reconciling Rewards with Predictive State Representations IJCAI 2021

Solving Continuous Control with Episodic Memory IJCAI 2021

Robust Adversarial Imitation Learning via Adaptively-Selected Demonstrations IJCAI 2021

BACKDOORL: Backdoor Attack against Competitive Reinforcement Learning IJCAI 2021

Ask&Confirm: Active Detail Enriching for Cross-Modal Retrieval With Partial Query ICCV 2021

Iterative Bounding MDPs: Learning Interpretable Policies via Non-Interpretable Methods AAAI 2021

Expected Eligibility Traces AAAI 2021

On Convergence of Gradient Expected Sarsa(λ) AAAI 2021

Improving Sample Efficiency in Model-Free Reinforcement Learning from Images AAAI 2021

Sequential Generative Exploration Model for Partially Observable Reinforcement Learning AAAI 2021

Exploration by Maximizing Renyi Entropy for Reward-Free RL Framework AAAI 2021

Sample Efficient Reinforcement Learning with REINFORCE AAAI 2021

Mean-Variance Policy Iteration for Risk-Averse Reinforcement Learning AAAI 2021

Language Model Augmented Relevance Score ACL 2021

Domain-Specific Multi-Agent Dialog Policy Learning in Multi-Domain Task-Oriented Scenarios INTERSPEECH 2021

State-Wise Adaptive Discounting from Experience (SADE): A Novel Discounting Scheme for Reinforcement Learning (Student Abstract) AAAI 2021

Extending Policy Shaping to Continuous State Spaces (Student Abstract) AAAI 2021

Solving JumpIN’ Using Zero-Dependency Reinforcement Learning (Student Abstract) AAAI 2021