Artificial Intelligence › Core AI ›

Model Compression

1928 directly classified papers

Papers per year

Papers

SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering AAAI 2025

GQSA: Group Quantization and Sparsity for Accelerating Large Language Model Inference AACL 2025

OAC: Output-adaptive Calibration for Accurate Post-training Quantization AAAI 2025

Exploring Model Editing for LLM-based Aspect-Based Sentiment Classification AAAI 2025

CSR:Achieving 1 Bit Key-Value Cache via Sparse Representation AAAI 2025

Multilingual Iterative Model Pruning: What Matters? AACL 2025

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression AAAI 2025

Toward Adaptive Large Language Models Structured Pruning via Hybrid-grained Weight Importance Assessment AAAI 2025

Advancing Weight and Channel Sparsification with Enhanced Saliency WACV 2025

From PEFT to DEFT: Parameter Efficient Finetuning for Reducing Activation Density in Transformers AAAI 2025

When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning EMNLP 2025

Layer- and Timestep-Adaptive Differentiable Token Compression Ratios for Efficient Diffusion Transformers CVPR 2025

GQSA: Group Quantization and Sparsity for Accelerating Large Language Model Inference IJCNLP 2025

Interpreting the Effects of Quantization on LLMs IJCNLP 2025

GenPTQ: Green Post-Training Quantization for Large-Scale ASR Models with Mixed-Precision Bit Allocation EMNLP 2025

Accurate Sublayer Pruning for Large Language Models by Exploiting Latency and Tunability Information IJCAI 2025

Quantization without Tears CVPR 2025

Recover-LoRA: Data-Free Accuracy Recovery of Degraded Language Models via Low-Rank Adaptation EMNLP 2025

FBQuant: FeedBack Quantization for Large Language Models IJCAI 2025

Iterative Layer Pruning for Efficient Translation Inference EMNLP 2025

EfficientLLaVA: Generalizable Auto-Pruning for Large Vision-language Models CVPR 2025

Memory-Efficient Backpropagation for Fine-Tuning LLMs on Resource-Constrained Mobile Devices EMNLP 2025

Integrating Independent Layer-Wise Rank Selection with Low-Rank SVD Training for Model Compression: A Theory-Driven Approach IJCAI 2025

Correcting the Tamazight Portions of FLORES+ and OLDI Seed Datasets EMNLP 2025

Not All Layers of LLMs Are Necessary During Inference IJCAI 2025