Artificial Intelligence › Core AI ›

Model Compression

1928 directly classified papers

Papers per year

Papers

Parameter-Efficient Fine-Tuning of LLaMA for the Clinical Domain NAACL 2024

ScaleLLM: A Resource-Frugal LLM Serving Framework by Optimizing End-to-End Efficiency EMNLP 2024

Werkzeug at SemEval-2024 Task 8: LLM-Generated Text Detection via Gated Mixture-of-Experts Fine-Tuning NAACL 2024

Rebuilding ROME : Resolving Model Collapse during Sequential Model Editing EMNLP 2024

OneBit: Towards Extremely Low-bit Large Language Models NIPS 2024

Mentor-KD: Making Small Language Models Better Multi-step Reasoners EMNLP 2024

Med-MoE: Mixture of Domain-Specific Experts for Lightweight Medical Vision-Language Models EMNLP 2024

xCOMET-lite: Bridging the Gap Between Efficiency and Quality in Learned MT Evaluation Metrics EMNLP 2024

DL-QAT: Weight-Decomposed Low-Rank Quantization-Aware Training for Large Language Models EMNLP 2024

AFPQ: Asymmetric Floating Point Quantization for LLMs ACL 2024

Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization EMNLP 2024

LinChance-NTU for Unconstrained WMT2024 Literary Translation EMNLP 2024

ApiQ: Finetuning of 2-Bit Quantized Large Language Model EMNLP 2024

ServerlessLLM: Low-Latency Serverless Inference for Large Language Models OSDI 2024

Stealth edits to large language models NIPS 2024

SS1: Accelerating Inference with Fast and Expressive Sketch Structured Transform NIPS 2024

3-in-1: 2D Rotary Adaptation for Efficient Finetuning, Efficient Batching and Composability NIPS 2024

$C^2M^3$: Cycle-Consistent Multi-Model Merging NIPS 2024

Token Alignment via Character Matching for Subword Completion ACL 2024

Layer-Adaptive State Pruning for Deep State Space Models NIPS 2024

Papilusion at DAGPap24: Paper or Illusion? Detecting AI-generated Scientific Papers ACL 2024

Keep it Private: Unsupervised Privatization of Online Text NAACL 2024

Safe LoRA: The Silver Lining of Reducing Safety Risks when Finetuning Large Language Models NIPS 2024

LLM-QAT: Data-Free Quantization Aware Training for Large Language Models ACL 2024

AlphaLoRA: Assigning LoRA Experts Based on Layer Training Quality EMNLP 2024