conftrace_

reinforcement learning

4122 papers

Explore in graph

Also known as

RLVR HARL GRPO RL PPO REINFORCE RFT DRL RL NULL LQR RLHF

Co-occurring keywords

large language model (12755) policy learning (699) markov decision process (788) policy gradient (518) policy optimization (630) deep reinforcement learning (903) multi-agent system (1743) imitation learning (741) regret bound (1918) language model (4573)

Papers

Modeling Document-Level Context for Event Detection via Important Context Selection EMNLP 2021

Multi-granularity Textual Adversarial Attack with Behavior Cloning EMNLP 2021

DouZero: Mastering DouDizhu with Self-Play Deep Reinforcement Learning ICML 2021

Exponential Lower Bounds for Batch Reinforcement Learning: Batch RL can be Exponentially Harder than Online RL ICML 2021

ReGen: Reinforcement Learning for Text and Knowledge Base Generation using Pretrained Language Models EMNLP 2021

Unsupervised Conversation Disentanglement through Co-Training EMNLP 2021

A Generative Framework for Simultaneous Machine Translation EMNLP 2021

Towards Automatic Evaluation of Dialog Systems: A Model-Free Off-Policy Evaluation Approach EMNLP 2021

Efficient Mind-Map Generation via Sequence-to-Graph and Reinforced Graph Refinement EMNLP 2021

TimeTraveler: Reinforcement Learning for Temporal Knowledge Graph Forecasting EMNLP 2021

Wasserstein Selective Transfer Learning for Cross-domain Text Mining EMNLP 2021

Learning by Watching CVPR 2021

Unsupervised Visual Attention and Invariance for Reinforcement Learning CVPR 2021

Learning To Recommend Frame for Interactive Video Object Segmentation in the Wild CVPR 2021

Predicting Human Scanpaths in Visual Question Answering CVPR 2021

Unsupervised Learning for Robust Fitting: A Reinforcement Learning Approach CVPR 2021

Combining Semantic Guidance and Deep Reinforcement Learning for Generating Human Level Paintings CVPR 2021

Visual Navigation With Spatial Attention CVPR 2021

2D or not 2D? Adaptive 3D Convolution Selection for Efficient Video Recognition CVPR 2021

Reinforced Few-Shot Acquisition Function Learning for Bayesian Optimization NIPS 2021

Implicit Finite-Horizon Approximation and Efficient Optimal Algorithms for Stochastic Shortest Path NIPS 2021

Width-based Lookaheads with Learnt Base Policies and Heuristics Over the Atari-2600 Benchmark NIPS 2021

PlayVirtual: Augmenting Cycle-Consistent Virtual Trajectories for Reinforcement Learning NIPS 2021

Multi-modal Dependency Tree for Video Captioning NIPS 2021

Teachable Reinforcement Learning via Advice Distillation NIPS 2021