Artificial Intelligence › Core AI ›

Model Compression

1928 directly classified papers

Papers per year

Papers

Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment COLING 2025

Not All Layers of LLMs Are Necessary During Inference IJCAI 2025

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models COLING 2025

Interpreting the Effects of Quantization on LLMs IJCNLP 2025

Talking Head Anime 4: Distillation for Real-Time Performance WACV 2025

Efficient Inference for Large Language Models –Algorithm, Model, and System EMNLP 2025

Beyond Dynamic Quantization: An Efficient Static Hierarchical Mix-precision Framework for Near-Lossless LLM Compression EMNLP 2025

Adapters Selector: Cross-domains and Multi-tasks LoRA Modules Integration Usage Method COLING 2025

Recover-LoRA: Data-Free Accuracy Recovery of Degraded Language Models via Low-Rank Adaptation EMNLP 2025

When to Continue Thinking: Adaptive Thinking Mode Switching for Efficient Reasoning EMNLP 2025

GenPTQ: Green Post-Training Quantization for Large-Scale ASR Models with Mixed-Precision Bit Allocation EMNLP 2025

BigMac: A Communication-Efficient Mixture-of-Experts Model Structure for Fast Training and Inference AAAI 2025

ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models AAAI 2025

Binarized Mamba-Transformer for Lightweight Quad Bayer HybridEVS Demosaicing CVPR 2025

MDP: Multidimensional Vision Model Pruning with Latency Constraint CVPR 2025

ICP: Immediate Compensation Pruning for Mid-to-high Sparsity CVPR 2025

Quantization without Tears CVPR 2025

FBQuant: FeedBack Quantization for Large Language Models IJCAI 2025

Exploring Model Editing for LLM-based Aspect-Based Sentiment Classification AAAI 2025

SoLA: Leveraging Soft Activation Sparsity and Low-Rank Decomposition for Large Language Model Compression AAAI 2025

PHLoRA: data-free Post-hoc Low-Rank Adapter extraction from full-rank checkpoint IJCNLP 2025

Accurate Sublayer Pruning for Large Language Models by Exploiting Latency and Tunability Information IJCAI 2025

FlexiDiT: Your Diffusion Transformer Can Easily Generate High-Quality Samples with Less Compute CVPR 2025

Correcting the Tamazight Portions of FLORES+ and OLDI Seed Datasets EMNLP 2025

ECHO-LLaMA: Efficient Caching for High-Performance LLaMA Training EMNLP 2025