conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Reinforced Efficient Reasoning via Semantically Diverse Exploration ACL 2026

Reliable Use of Lemmas via Eligibility Reasoning and Section-Aware Reinforcement Learning ACL 2026

T⋆: Progressive Block Scaling for Masked Diffusion Language Models Through Trajectory Aware Reinforcement Learning ACL 2026

ARGUS: Policy-Adaptive Ad Governance via Evolving Reinforcement with Adversarial Umpiring ACL 2026

Efficient Reinforcement Learning Through Adaptively Pretrained Visual Encoder AAAI 2025

STACKFEED: Structured Textual Actor-Critic Knowledge base editing with FEEDback EMNLP 2025

NOVER: Incentive Training for Language Models via Verifier-Free Reinforcement Learning EMNLP 2025

In-Context Policy Adaptation via Cross-Domain Skill Diffusion AAAI 2025

AI-Driven Personalized Fall Prevention for Older Adults AAAI 2025

WebEvolver: Enhancing Web Agent Self-Improvement with Co-evolving World Model EMNLP 2025

SegAgent: Exploring Pixel Understanding Capabilities in MLLMs by Imitating Human Annotator Trajectories CVPR 2025

Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction CVPR 2025

Neural Motion Simulator Pushing the Limit of World Models in Reinforcement Learning CVPR 2025

RaSS: Improving Denoising Diffusion Samplers with Reinforced Active Sampling Scheduler CVPR 2025

PATeam at SemEval-2025 Task 10: Two-stage News Analytical Framework: Target-oriented Semantic Segmentation and Sequence Generation LLMs for Cross-Lingual Entity and Narrative Analysis ACL 2025

Neural Combinatorial Optimization for Stochastic Flexible Job Shop Scheduling Problems AAAI 2025

Neurosymbolic Reinforcement Learning: Playing MiniHack with Probabilistic Logic Shields AAAI 2025

KodCode: A Diverse, Challenging, and Verifiable Synthetic Dataset for Coding ACL 2025

Reward Fine-Tuning Two-Step Diffusion Models via Learning Differentiable Latent-Space Surrogate Reward CVPR 2025

Tra-MoE: Learning Trajectory Prediction Model from Multiple Domains for Adaptive Policy Conditioning CVPR 2025

Optimus-2: Multimodal Minecraft Agent with Goal-Observation-Action Conditioned Policy CVPR 2025

KazBench-KK: A Cultural-Knowledge Benchmark for Kazakh ACL 2025

ACING: Actor-Critic for Instruction Learning in Black-Box LLMs EMNLP 2025

BindGPT: A Scalable Framework for 3D Molecular Design via Language Modeling and Reinforcement Learning AAAI 2025

Reinforcement Learning for Adversarial Query Generation to Enhance Relevance in Cold-Start Product Search ACL 2025