model quantization

279 papers

Explore in graph

Also known as

PTQ INT8 QDNN

Co-occurring keywords

model compression (3283) large language model (12755) knowledge distillation (3680) weight quantization (133) post-training quantization (124) neural network optimization (1293) efficient computing (779) neural network (6616) activation quantization (47) efficient inference (225)

Papers

QSpec: Speculative Decoding with Complementary Quantization Schemes EMNLP 2025

QuZO: Quantized Zeroth-Order Fine-Tuning for Large Language Models EMNLP 2025

Does quantization affect models’ performance on long-context tasks? EMNLP 2025

Quantized but Deceptive? A Multi-Dimensional Truthfulness Evaluation of Quantized LLMs EMNLP 2025

ThinkSLM: Towards Reasoning in Small Language Models EMNLP 2025

LLMs on a Budget? Say HOLA EMNLP 2025

Scaling Down, Serving Fast: Compressing and Deploying Efficient LLMs for Recommendation Systems EMNLP 2025

DecDEC: A Systems Approach to Advancing Low-Bit LLM Quantization OSDI 2025

APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers CVPR 2025

Data-Free Group-Wise Fully Quantized Winograd Convolution via Learnable Scales CVPR 2025

Your Scale Factors are My Weapon: Targeted Bit-Flip Attacks on Vision Transformers via Scale Factor Manipulation CVPR 2025

LMU at PerAnsSumm 2025: LlaMA-in-the-loop at Perspective-Aware Healthcare Answer Summarization Task 2.2 Factuality NAACL 2025

Qua2SeDiMo: Quantifiable Quantization Sensitivity of Diffusion Models AAAI 2025

Asymptotic Unbiased Sample Sampling to Speed Up Sharpness-Aware Minimization AAAI 2025

Treasures in Discarded Weights for LLM Quantization AAAI 2025

Robust Machine Unlearning for Quantized Neural Networks via Adaptive Gradient Reweighting with Similar Labels ICCV 2025

ECCC: Edge Code Cloak Coder for Privacy Code Agent EMNLP 2025

Efficient On-Device Text Simplification for Firefox with Synthetic Data Fine-Tuning EMNLP 2025

Enhancing Model Privacy in Federated Learning with Random Masking and Quantization EMNLP 2025

ABQ-LLM: Arbitrary-Bit Quantized Inference Acceleration for Large Language Models AAAI 2025

SWIFT: A Scalable Lightweight Infrastructure for Fine-Tuning AAAI 2025

GradQ-ViT: Robust and Efficient Gradient Quantization for Vision Transformers AAAI 2025

Optimizing Quantized Diffusion Models via Distillation with Cross-Timestep Error Correction AAAI 2025

TinySAM: Pushing the Envelope for Efficient Segment Anything Model AAAI 2025

Unlocking the Potential of Lightweight Quantized Models for Deepfake Detection IJCAI 2025