conftrace_

reinforcement learning

4352 papers

Explore in graph

Also known as

RL REINFORCE

Co-occurring keywords

large language model (13587) policy learning (702) markov decision process (790) policy optimization (657) policy gradient (520) deep reinforcement learning (903) multi-agent system (1819) imitation learning (744) regret bound (1926) language model (4599)

Papers

Would I Lie To You? Inference Time Alignment of Language Models using Direct Preference Heads NIPS 2024

OntoFact: Unveiling Fantastic Fact-Skeleton of LLMs via Ontology-Driven Reinforcement Learning AAAI 2024

Humanoid Locomotion as Next Token Prediction NIPS 2024

The Value of Reward Lookahead in Reinforcement Learning NIPS 2024

Achieving $\tilde{O}(1/\epsilon)$ Sample Complexity for Constrained Markov Decision Process NIPS 2024

Model-Based Transfer Learning for Contextual Reinforcement Learning NIPS 2024

Cloud-LoRa: Enabling Cloud Radio Access LoRa Networks Using Reinforcement Learning Based Bandwidth-Adaptive Compression NSDI 2024

Efficient Contextual LLM Cascades through Budget-Constrained Policy Learning NIPS 2024

OPPerTune: Post-Deployment Configuration Tuning of Services Made Easy NSDI 2024

Relative Policy-Transition Optimization for Fast Policy Transfer AAAI 2024

Prompt to Transfer: Sim-to-Real Transfer for Traffic Signal Control with Prompt Learning AAAI 2024

State Chrono Representation for Enhancing Generalization in Reinforcement Learning NIPS 2024

Teaching Embodied Reinforcement Learning Agents: Informativeness and Diversity of Language Use EMNLP 2024

Improving Multi-party Dialogue Generation via Topic and Rhetorical Coherence EMNLP 2024

Towards a Zero-Data, Controllable, Adaptive Dialog System COLING 2024

Reinforcement Learning based Data Augmentation for Noise Robust Speech Emotion Recognition INTERSPEECH 2024

CoGen: Learning from Feedback with Coupled Comprehension and Generation EMNLP 2024

Experience as Source for Anticipation and Planning: Experiential Policy Learning for Target-driven Recommendation Dialogues EMNLP 2024

ROAR: Reinforcing Original to Augmented Data Ratio Dynamics for Wav2vec2.0 Based ASR INTERSPEECH 2024

When to Sense and Control? A Time-adaptive Approach for Continuous-Time RL NIPS 2024

Reinforcement Learning for Edit-Based Non-Autoregressive Neural Machine Translation NAACL 2024

Isometric Neural Machine Translation using Phoneme Count Ratio Reward-based Reinforcement Learning NAACL 2024

Designs for Enabling Collaboration in Human-Machine Teaming via Interactive and Explainable Systems NIPS 2024

Semantic-Preserving Adversarial Example Attack against BERT NAACL 2024

Opponent Modeling based on Subgoal Inference NIPS 2024