model quantization

279 papers

Explore in graph

Also known as

PTQ INT8 QDNN

Co-occurring keywords

model compression (3283) large language model (12755) knowledge distillation (3680) weight quantization (133) post-training quantization (124) neural network optimization (1293) efficient computing (779) neural network (6616) activation quantization (47) efficient inference (225)

Papers

Proofread: Fixes All Errors with One Tap ACL 2024

Quantized Side Tuning: Fast and Memory-Efficient Tuning of Quantized Large Language Models ACL 2024

ApiQ: Finetuning of 2-Bit Quantized Large Language Model EMNLP 2024

xCOMET-lite: Bridging the Gap Between Efficiency and Quality in Learned MT Evaluation Metrics EMNLP 2024

TinyAgent: Function Calling at the Edge EMNLP 2024

LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit EMNLP 2024

QDyLoRA: Quantized Dynamic Low-Rank Adaptation for Efficient Large Language Model Tuning EMNLP 2024

MobileQuant: Mobile-friendly Quantization for On-device Language Models EMNLP 2024

Data-Free Quantization via Pseudo-label Filtering CVPR 2024

Retraining-Free Model Quantization via One-Shot Weight-Coupling Learning CVPR 2024

The Inhibitor: ReLU and Addition-Based Attention for Efficient Transformers (Student Abstract) AAAI 2024

TaxoLLaMA: WordNet-based Model for Solving Multiple Lexical Semantic Tasks ACL 2024

A&B BNN: Add&Bit-Operation-Only Hardware-Friendly Binary Neural Network CVPR 2024

Nearest is Not Dearest: Towards Practical Defense against Quantization-conditioned Backdoor Attacks CVPR 2024

When Compression Meets Model Compression: Memory-Efficient Double Compression for Large Language Models EMNLP 2024

ATQ: Activation Transformation forWeight-Activation Quantization of Large Language Models EMNLP 2024

VPTQ: Extreme Low-bit Vector Post-Training Quantization for Large Language Models EMNLP 2024

Fast Matrix Multiplications for Lookup Table-Quantized LLMs EMNLP 2024

How Does Quantization Affect Multilingual LLMs? EMNLP 2024

Exploiting LLM Quantization NIPS 2024

MobileNVC: Real-Time 1080p Neural Video Compression on a Mobile Device WACV 2024

NoMAD-Attention: Efficient LLM Inference on CPUs Through Multiply-add-free Attention NIPS 2024

LoQT: Low-Rank Adapters for Quantized Pretraining NIPS 2024

Accuracy is Not All You Need NIPS 2024

Robust Weight Signatures: Gaining Robustness as Easy as Patching Weights? ICML 2023