Artificial Intelligence › Core AI ›

Model Compression

1928 directly classified papers

Papers per year

Papers

Probabilistically Robust Watermarking of Neural Networks IJCAI 2024

Pruning Multilingual Large Language Models for Multilingual Inference EMNLP 2024

Spear: Evaluate the Adversarial Robustness of Compressed Neural Models IJCAI 2024

Pruning Foundation Models for High Accuracy without Retraining EMNLP 2024

MobileQuant: Mobile-friendly Quantization for On-device Language Models EMNLP 2024

BIPEFT: Budget-Guided Iterative Search for Parameter Efficient Fine-Tuning of Large Pretrained Language Models EMNLP 2024

RoLoRA: Fine-tuning Rotated Outlier-free LLMs for Effective Weight-Activation Quantization EMNLP 2024

Structured Optimal Brain Pruning for Large Language Models EMNLP 2024

LoRAExit: Empowering Dynamic Modulation of LLMs in Resource-limited Settings using Low-rank Adapters EMNLP 2024

Adversarial Distillation Based on Slack Matching and Attribution Region Alignment CVPR 2024

Optimize Weight Rounding via Signed Gradient Descent for the Quantization of LLMs EMNLP 2024

SequentialAttention++ for Block Sparsification: Differentiable Pruning Meets Combinatorial Optimization NIPS 2024

LaMDA: Large Model Fine-Tuning via Spectrally Decomposed Low-Dimensional Adaptation EMNLP 2024

Mitigating the Language Mismatch and Repetition Issues in LLM-based Machine Translation via Model Editing EMNLP 2024

ShiftAddLLM: Accelerating Pretrained LLMs via Post-Training Multiplication-Less Reparameterization NIPS 2024

Change Is the Only Constant: Dynamic LLM Slicing based on Layer Redundancy EMNLP 2024

AFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models ACL 2024

KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches EMNLP 2024

In Defense of Structural Sparse Adapters for Concurrent LLM Serving EMNLP 2024

Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction EMNLP 2024

Unlearning Traces the Influential Training Data of Language Models ACL 2024

Pruning Large Language Models to Intra-module Low-rank Architecture with Transitional Activations ACL 2024

KG-Adapter: Enabling Knowledge Graph Integration in Large Language Models through Parameter-Efficient Fine-Tuning ACL 2024

Unraveling Babel: Exploring Multilingual Activation Patterns of LLMs and Their Applications EMNLP 2024

Sparsity-Accelerated Training for Large Language Models ACL 2024