← Optimization & Theory

Machine Learning › Optimization & Theory ›

Optimization

14207 directly classified papers

Papers per year

Papers

SparseRM: A Lightweight Preference Modeling with Sparse Autoencoder AAAI 2026

Pre-DPO: Improving Data Utilization in Direct Preference Optimization Using a Guiding Reference Model AAAI 2026

WaterMod: Modular Token-Rank Partitioning for Probability-Balanced LLM Watermarking AAAI 2026

LLMdoctor: Token-Level Flow-Guided Preference Optimization for Efficient Test-Time Alignment of Large Language Models AAAI 2026

ProFuser: Progressive Fusion of Large Language Models AAAI 2026

Well Begun, Half Done: Reinforcement Learning with Prefix Optimization for LLM Reasoning AAAI 2026

Improving Value-based Process Verifier via Low-Cost Variance Reduction AAAI 2026

MCW-KD: Multi-Cost Wasserstein Knowledge Distillation for Large Language Models AAAI 2026

Re-SpS: A Reinforcement Learning Approach to Speculative Sampling AAAI 2026

Reasoning or Memorization? Unreliable Results of Reinforcement Learning Due to Data Contamination AAAI 2026

Audio-Thinker: Guiding Large Audio Language Model When and How to Think via Reinforcement Learning AAAI 2026

Advanced Black-Box Tuning of Large Language Models with Limited API Calls AAAI 2026

Multi-Value Alignment for LLMs via Value Decorrelation and Extrapolation AAAI 2026

AP2O-Coder: Adaptively Progressive Preference Optimization for Reducing Compilation and Runtime Errors in LLM-Generated Code AAAI 2026

L2-LoRA: Improving Low-Rank Adaptation with Layer-Specific Regularization AAAI 2026

Beyond Step Pruning: Information Theory Based Step-level Optimization for Self-Refining Large Language Models AAAI 2026

Don’t Start Over: A Cost-Effective Framework for Migrating Personalized Prompts Between LLMs AAAI 2026

Probabilistic Hierarchical Goal Network Planning with UCT AAAI 2026

Experiential Fairness: Bridging the Gap Between User Experience and Resource-Centric Fairness in Online LLM Services AAAI 2026

Pareto-Grid-Guided Large Language Models for Fast and High-Quality Heuristics Design in Multi-Objective Combinatorial Optimization AAAI 2026

MOTIF: Multi-strategy Optimization via Turn-based Interactive Framework AAAI 2026

When Human Preferences Flip: An Instance-Dependent Robust Loss for RLHF AAAI 2026

CultureRL: Internalizing Cultural Principles in Large Language Models via Norm-Driven Reinforcement Learning AAAI 2026

Language Models and Logic Programs for Trustworthy Tax Reasoning AAAI 2026

Constrained Particle Seeking: Solving Diffusion Inverse Problems with Just Forward Passes AAAI 2026