Artificial Intelligence › Core AI ›

Model Compression

1928 directly classified papers

Papers per year

Papers

MHA2MLA-VLM: Enabling DeepSeek’s Economical Multi-Head Latent Attention Across Vision-Language Models AAAI 2026

D2MoRA: Diversity-Regulated Asymmetric MoE-LoRA Decomposition for Efficient Multi-Task Adaptation AAAI 2026

One-Cycle Structured Pruning via Stability-Driven Subnetwork Search WACV 2026

Self-Indexing KVCache: Predicting Sparse Attention from Compressed Keys AAAI 2026

DeepTracer: Tracing Stolen Model via Deep Coupled Watermarks AAAI 2026

SALR: Sparsity-Aware Low-Rank Representation for Efficient Fine-Tuning of Large Language Models AAAI 2026

Grow-on-Demand: Sparse and Adaptive Expert Expansion for Continual Instruction Tuning AAAI 2026

Pseudo-Spiking Neurons: A Noise-Based Training Framework for Heterogeneous-Latency Spiking Neural Networks AAAI 2026

FLRQ: Faster LLM Quantization with Flexible Low-Rank Matrix Sketching AAAI 2026

CommitMoE: Efficient Fallback-Free MoE Inference with Offloading Under GPU Memory Constraints AAAI 2026

Direction Sensitivity–Based Knowledge Distillation: Optimization-Aware Low-Rank Knowledge Transfer AAAI 2026

ViTCoP: Accelerating Large Vision-Language Models via Visual and Textual Semantic Collaborative Pruning AAAI 2026

MMG-Vid: Maximizing Marginal Gains at Segment-level and Token-level for Efficient Video LLMs AAAI 2026

Bi-VLM: Binary Post-Training Quantization for Vision-Language Models AAAI 2026

Transferable Model-agnostic Vision-Language Model Adaptation for Efficient Weak-to-Strong Generalization AAAI 2026

Navigating Data Scarcity in Low-Resource English-Tatar Translation using LLM Fine-Tuning EACL 2026

IdiomRanker-X at MWE-2026 AdMIRe 2: Multilingual Idiom-Image Alignment via Low-Rank Adaptation of Cross-Encoders EACL 2026

Paths Not Taken: Structure-Based Pruning in PSDD Learning and Inference AAAI 2026

DesireKV: Decoupling Sensitivity and Importance for Reasoning-Aware KV Cache Compression AAAI 2026

EM-KD: Distilling Efficient Multimodal Large Language Model with Unbalanced Vision Tokens AAAI 2026

Plasticity vs. Rigidity: The Impact of Low-Rank Adapters on Reasoning on a Micro-Budget EACL 2026

KV Pareto: Systems-Level Optimization of KV Cache and Model Compression for Long Context Inference EACL 2026

TAGQuant: Token-Aware Clustering for Group-Wise Quantization EACL 2026

Sparse Brains are Also Adaptive Brains: Cognitive-Load-Aware Dynamic Activation for LLMs EACL 2026

Hala Technical Report Building Arabic-Centric Instruction & Translation Models at Scale EACL 2026