conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Mitigating Open-Vocabulary Caption Hallucinations EMNLP 2024

Coffee-Gym: An Environment for Evaluating and Improving Natural Language Feedback on Erroneous Code EMNLP 2024

AGR: Reinforced Causal Agent-Guided Self-explaining Rationalization ACL 2024

ABLE: Personalized Disability Support with Politeness and Empathy Integration EMNLP 2024

Contrastive Policy Gradient: Aligning LLMs on sequence-level scores in a supervised-friendly fashion EMNLP 2024

Rethinking the Role of Proxy Rewards in Language Model Alignment EMNLP 2024

ToolPlanner: A Tool Augmented LLM for Multi Granularity Instructions with Path Planning and Feedback EMNLP 2024

Autoregressive Multi-trait Essay Scoring via Reinforcement Learning with Scoring-aware Multiple Rewards EMNLP 2024

Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems EMNLP 2024

CE-NAS: An End-to-End Carbon-Efficient Neural Architecture Search Framework NIPS 2024

If CLIP Could Talk: Understanding Vision-Language Model Representations Through Their Preferred Concept Descriptions EMNLP 2024

Learning to Retrieve Iteratively for In-Context Learning EMNLP 2024

F2RL: Factuality and Faithfulness Reinforcement Learning Framework for Claim-Guided Evidence-Supported Counterspeech Generation EMNLP 2024

LLM-AutoDA: Large Language Model-Driven Automatic Data Augmentation for Long-tailed Problems NIPS 2024

A Critical Evaluation of AI Feedback for Aligning Large Language Models NIPS 2024

QUIS: Question-guided Insights Generation for Automated Exploratory Data Analysis EMNLP 2024

Perplexity-aware Correction for Robust Alignment with Noisy Preferences NIPS 2024

On the Sample Complexity and Metastability of Heavy-tailed Policy Search in Continuous Control JMLR 2024

QDax: A Library for Quality-Diversity and Population-based Algorithms with Hardware Acceleration JMLR 2024

BoNBoN Alignment for Large Language Models and the Sweetness of Best-of-n Sampling NIPS 2024

Learning Regularized Graphon Mean-Field Games with Unknown Graphons JMLR 2024

RaFe: Ranking Feedback Improves Query Rewriting for RAG EMNLP 2024

Two-Stage Evolutionary Reinforcement Learning for Enhancing Exploration and Exploitation AAAI 2024

CleanDiffuser: An Easy-to-use Modularized Library for Diffusion Models in Decision Making NIPS 2024

Recommender Ecosystems: A Mechanism Design Perspective on Holistic Modeling and Optimization AAAI 2024