← Learning Types

Deep Learning › Learning Types ›

Reinforcement Learning

1263 directly classified papers

Papers per year

Papers

Robustness Verification of Deep Reinforcement Learning Based Control Systems Using Reward Martingales AAAI 2024

Frugal LMs Trained to Invoke Symbolic Solvers Achieve Parameter-Efficient Arithmetic Reasoning AAAI 2024

Dialogue for Prompting: A Policy-Gradient-Based Discrete Prompt Generation for Few-Shot Learning AAAI 2024

Sample Complexity of Neural Policy Mirror Descent for Policy Optimization on Low-Dimensional Manifolds JMLR 2024

Learning Encodings for Constructive Neural Combinatorial Optimization Needs to Regret AAAI 2024

Back to Basics: Revisiting REINFORCE-Style Optimization for Learning from Human Feedback in LLMs ACL 2024

CodeAgent: Enhancing Code Generation with Tool-Integrated Agent Systems for Real-World Repo-level Coding Challenges ACL 2024

Context-Aware Iteration Policy Network for Efficient Optical Flow Estimation AAAI 2024

Adversarial Attacks on Federated-Learned Adaptive Bitrate Algorithms AAAI 2024

Learn How to See: Collaborative Embodied Learning for Object Detection and Camera Adjusting AAAI 2024

RL-SeqISP: Reinforcement Learning-Based Sequential Optimization for Image Signal Processing AAAI 2024

Training Diffusion Models Towards Diverse Image Generation with Reinforcement Learning CVPR 2024

Hierarchical Diffusion Policy for Kinematics-Aware Multi-Task Robotic Manipulation CVPR 2024

Aligning Large Language Models via Fine-grained Supervision ACL 2024

Deep Reinforcement Learning for Communication Networks AAAI 2024

Teaching Language Models to Self-Improve by Learning from Language Feedback ACL 2024

Diffusion for World Modeling: Visual Details Matter in Atari NIPS 2024

What Effects the Generalization in Visual Reinforcement Learning: Policy Consistency with Truncated Return Prediction AAAI 2024

Pure-Past Action Masking AAAI 2024

GarmentLab: A Unified Simulation and Benchmark for Garment Manipulation NIPS 2024

Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation CVPR 2024

Policy-shaped prediction: avoiding distractions in model-based reinforcement learning NIPS 2024

Dynamic Policy-Driven Adaptive Multi-Instance Learning for Whole Slide Image Classification CVPR 2024

InstructVideo: Instructing Video Diffusion Models with Human Feedback CVPR 2024

Constrained Latent Action Policies for Model-Based Offline Reinforcement Learning NIPS 2024