← Application Areas

Machine Learning › Application Areas ›

Model Compression

1503 directly classified papers

Papers per year

Papers

Robustness-Guided Image Synthesis for Data-Free Quantization AAAI 2024

ZipCache: Accurate and Efficient KV Cache Quantization with Salient Token Identification NIPS 2024

FM-Delta: Lossless Compression for Storing Massive Fine-tuned Foundation Models NIPS 2024

Practical Hybrid Gradient Compression for Federated Learning Systems IJCAI 2024

Parsimony or Capability? Decomposition Delivers Both in Long-term Time Series Forecasting NIPS 2024

Federated Model Heterogeneous Matryoshka Representation Learning NIPS 2024

Fluctuation-Based Adaptive Structured Pruning for Large Language Models AAAI 2024

Study Selectively: An Adaptive Knowledge Distillation based on a Voting Network for Heart Sound Classification INTERSPEECH 2024

Wasserstein Distance Rivals Kullback-Leibler Divergence for Knowledge Distillation NIPS 2024

Safe LoRA: The Silver Lining of Reducing Safety Risks when Finetuning Large Language Models NIPS 2024

SARCAT: Generative Span-Act Guided Response Generation using Copy-enhanced Target Augmentation EMNLP 2024

ScaleKD: Strong Vision Transformers Could Be Excellent Teachers NIPS 2024

PTQ4DiT: Post-training Quantization for Diffusion Transformers NIPS 2024

EAVE: Efficient Product Attribute Value Extraction via Lightweight Sparse-layer Interaction EMNLP 2024

VE-KD: Vocabulary-Expansion Knowledge-Distillation for Training Smaller Domain-Specific Language Models EMNLP 2024

Induced Model Matching: Restricted Models Help Train Full-Featured Models NIPS 2024

BOLD: Boolean Logic Deep Learning NIPS 2024

Revisiting Neural Networks for Continual Learning: An Architectural Perspective IJCAI 2024

On Sampling Strategies for Spectral Model Sharding NIPS 2024

Cherry on Top: Parameter Heterogeneity and Quantization in Large Language Models NIPS 2024

Heterogeneous LoRA for Federated Fine-tuning of On-Device Foundation Models EMNLP 2024

S$^{2}$FT: Efficient, Scalable and Generalizable LLM Fine-tuning by Structured Sparsity NIPS 2024

QTIP: Quantization with Trellises and Incoherence Processing NIPS 2024

AdaMoE: Token-Adaptive Routing with Null Experts for Mixture-of-Experts Language Models EMNLP 2024

LISA: Layerwise Importance Sampling for Memory-Efficient Large Language Model Fine-Tuning NIPS 2024