← Optimization & Theory

Machine Learning › Optimization & Theory ›

Optimization

14207 directly classified papers

Papers per year

Papers

Q Cache: Visual Attention Is Valuable in Less than Half of Decode Layers for Multimodal Large Language Model AAAI 2026

Learning with Structure: Computing Consistent Subsets on Structurally-Regular Graphs AAAI 2026

ParetoHqD: Fast Offline Multiobjective Alignment of Large Language Models Using Pareto High-Quality Data AAAI 2026

Mitigating Length Bias in RLHF Through a Causal Lens AAAI 2026

Robust Lazy Conflict Detection via Multi-Conflict Extraction and Genetic Diversity Control AAAI 2026

Prune&Comp: Free Lunch for Layer-Pruned LLMs via Iterative Pruning with Magnitude Compensation AAAI 2026

CommitMoE: Efficient Fallback-Free MoE Inference with Offloading Under GPU Memory Constraints AAAI 2026

Contribution-aware Token Compression for Efficient Video Understanding via Reinforcement Learning AAAI 2026

Online Multi-LLM Selection via Contextual Bandits Under Unstructured Context Evolution AAAI 2026

Low-Rank Curvature for Zeroth-Order Optimization in LLM Fine-tuning AAAI 2026

Preference Is More than Comparisons: Rethinking Dueling Bandits with Augmented Human Feedback AAAI 2026

M-Loss: Quantifying Model Merging Compatibility with Limited Unlabeled Data AAAI 2026

DEPO: Dual-Efficiency Preference Optimization for LLM Agents AAAI 2026

From Mathematical Reasoning to Code: Generalization of Process Reward Models in Test-Time Scaling AAAI 2026

Group Causal Policy Optimization for Post-Training Large Language Models AAAI 2026

HAPO: Training Language Models to Reason Concisely via History-Aware Policy Optimization AAAI 2026

Efficient Reasoning for Large Reasoning Language Models via Certainty-Guided Reflection Suppression AAAI 2026

Hybrid Routing for a Mixture of LoRA Experts AAAI 2026

Importance-Aware Data Selection for Efficient LLM Instruction Tuning AAAI 2026

Model Whisper: Steering Vectors Unlock Large Language Models’ Potential in Test-Time AAAI 2026

Rethinking the Sampling Criteria in Reinforcement Learning for LLM Reasoning: A Competence-Difficulty Alignment Perspective AAAI 2026

Confidence-Guided Stepwise Model Routing for Cost-Efficient Reasoning AAAI 2026

ENCORE: Entropy-guided Reward Composition for Multi-head Safety Reward Models AAAI 2026

AgentSwift: Efficient LLM Agent Design via Value-Guided Hierarchical Search AAAI 2026

MoSs: Mixture of Scales for Efficient High-Resolution Autoregressive Image Generation AAAI 2026