conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Training and Evaluation of Deep Policies Using Reinforcement Learning and Generative Models JMLR 2022

Logarithmic Regret for Episodic Continuous-Time Linear-Quadratic Reinforcement Learning over a Finite-Time Horizon JMLR 2022

Simple Agent, Complex Environment: Efficient Reinforcement Learning with Agent States JMLR 2022

VECA: A New Benchmark and Toolkit for General Cognitive Development AAAI 2022

Greedification Operators for Policy Optimization: Investigating Forward and Reverse KL Divergences JMLR 2022

Policy Gradient and Actor-Critic Learning in Continuous Time and Space: Theory and Algorithms JMLR 2022

On Instrumental Variable Regression for Deep Offline Policy Evaluation JMLR 2022

SporeAgent: Reinforced Scene-Level Plausibility for Object Pose Refinement WACV 2022

RLSS: A Deep Reinforcement Learning Algorithm for Sequential Scene Generation WACV 2022

D-Grasp: Physically Plausible Dynamic Grasp Synthesis for Hand-Object Interactions CVPR 2022

Finding Fallen Objects via Asynchronous Audio-Visual Integration CVPR 2022

Multi-Robot Active Mapping via Neural Bipartite Graph Matching CVPR 2022

ForeSI: Success-Aware Visual Navigation Agent WACV 2022

Is Mapping Necessary for Realistic PointGoal Navigation? CVPR 2022

DECORE: Deep Compression With Reinforcement Learning CVPR 2022

Habitat-Web: Learning Embodied Object-Search Strategies From Human Demonstrations at Scale CVPR 2022

Value Function Approximations via Kernel Embeddings for No-Regret Reinforcement Learning ACML 2022

Contrastive Inductive Bias Controlling Networks for Reinforcement Learning ACML 2022

Global-Aware Registration of Less-Overlap RGB-D Scans CVPR 2022

Channel Pruning via Lookahead Search Guided Reinforcement Learning WACV 2022

Intelligent Camera Selection Decisions for Target Tracking in a Camera Network WACV 2022

Efficient Learning for AlphaZero via Path Consistency ICML 2022

Toward Compositional Generalization in Object-Oriented World Modeling ICML 2022

Topology-Aware Network Pruning using Multi-stage Graph Embedding and Reinforcement Learning ICML 2022

Reward-Free RL is No Harder Than Reward-Aware RL in Linear Markov Decision Processes ICML 2022