conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Optimizing Gene-Based Testing for Antibiotic Resistance Prediction AAAI 2025

FRACTAL: Fine-Grained Scoring from Aggregate Text Labels ACL 2025

Optimizing Heat Alert Issuance with Reinforcement Learning AAAI 2025

To Measure or Not: A Cost-Sensitive, Selective Measuring Environment for Agricultural Management Decisions with Reinforcement Learning AAAI 2025

Light-R1: Curriculum SFT, DPO and RL for Long COT from Scratch and Beyond ACL 2025

Touch2Shape: Touch-Conditioned 3D Diffusion for Shape Exploration and Reconstruction CVPR 2025

REM: A Scalable Reinforced Multi-Expert Framework for Multiplex Influence Maximization AAAI 2025

GENTEEL-NEGOTIATOR: LLM-Enhanced Mixture-of-Expert-Based Reinforcement Learning Approach for Polite Negotiation Dialogue AAAI 2025

RL + Transformer = A General-Purpose Problem Solver ACL 2025

Universal Post-Processing Networks for Joint Optimization of Modules in Task-Oriented Dialogue Systems AAAI 2025

Breaking Barriers: A Paradigm Shift in Technology Accessibility for Individuals with Physical Disabilities AAAI 2025

Team XSZ at BioLaySumm2025: Section-Wise Summarization, Retrieval-Augmented LLM, and Reinforcement Learning Fine-Tuning for Lay Summaries ACL 2025

Neural Motion Simulator Pushing the Limit of World Models in Reinforcement Learning CVPR 2025

RaSS: Improving Denoising Diffusion Samplers with Reinforced Active Sampling Scheduler CVPR 2025

LNS2+RL: Combining Multi-agent Reinforcement Learning with Large Neighborhood Search in Multi-agent Path Finding AAAI 2025

Intelligent OPC Engineer Assistant for Semiconductor Manufacturing AAAI 2025

Overview of the BioLaySumm 2025 Shared Task on Lay Summarization of Biomedical Research Articles and Radiology Reports ACL 2025

Noise-Resilient Symbolic Regression with Dynamic Gating Reinforcement Learning AAAI 2025

Stop Diverse OOD Attacks: Knowledge Ensemble for Reliable Defense AAAI 2025

bea-jh at BEA 2025 Shared Task: Evaluating AI-powered Tutors through Pedagogically-Informed Reasoning ACL 2025

PATeam at SemEval-2025 Task 10: Two-stage News Analytical Framework: Target-oriented Semantic Segmentation and Sequence Generation LLMs for Cross-Lingual Entity and Narrative Analysis ACL 2025

Query-efficient Attack for Black-box Image Inpainting Forensics via Reinforcement Learning AAAI 2025

Understanding Individual Agent Importance in Multi-Agent System via Counterfactual Reasoning AAAI 2025

Direct Repair Optimization: Training Small Language Models For Educational Program Repair Improves Feedback ACL 2025

Forward KL Regularized Preference Optimization for Aligning Diffusion Policies AAAI 2025