conftrace_

model compression

3302 papers

Explore in graph

Also known as

MC

Co-occurring keywords

knowledge distillation (3725) large language model (13587) neural network (6616) efficient computing (781) neural network optimization (1293) transfer learning (5449) convolutional neural network (4226) neural network pruning (265) language model (4599) parameter efficiency (417)

Papers

Gradient-based Parameter Selection for Efficient Fine-Tuning CVPR 2024

Your Student is Better Than Expected: Adaptive Teacher-Student Collaboration for Text-Conditional Diffusion Models CVPR 2024

Distilling Semantic Priors from SAM to Efficient Image Restoration Models CVPR 2024

Plug-and-Play Diffusion Distillation CVPR 2024

Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models CVPR 2024

Improving Training Efficiency of Diffusion Models via Multi-Stage Framework and Tailored Multi-Decoder Architecture CVPR 2024

SDPose: Tokenized Pose Estimation via Circulation-Guide Self-Distillation CVPR 2024

DeepCache: Accelerating Diffusion Models for Free CVPR 2024

MAP: MAsk-Pruning for Source-Free Model Intellectual Property Protection CVPR 2024

TFMQ-DM: Temporal Feature Maintenance Quantization for Diffusion Models CVPR 2024

Pick-or-Mix: Dynamic Channel Sampling for ConvNets CVPR 2024

Efficient Stitchable Task Adaptation CVPR 2024

Dr2Net: Dynamic Reversible Dual-Residual Networks for Memory-Efficient Finetuning CVPR 2024

UniPTS: A Unified Framework for Proficient Post-Training Sparsity CVPR 2024

SDP4Bit: Toward 4-bit Communication Quantization in Sharded Data Parallelism for LLM Training NIPS 2024

Learning to Merge Tokens via Decoupled Embedding for Efficient Vision Transformers NIPS 2024

Communication Efficient Distributed Training with Distributed Lion NIPS 2024

BLAST: Block-Level Adaptive Structured Matrices for Efficient Deep Neural Network Inference NIPS 2024

QBB: Quantization with Binary Bases for LLMs NIPS 2024

KV Cache is 1 Bit Per Channel: Efficient Large Language Model Inference with Coupled Quantization NIPS 2024

MemoryFormer : Minimize Transformer Computation by Removing Fully-Connected Layers NIPS 2024

Don't Look Twice: Faster Video Transformers with Run-Length Tokenization NIPS 2024

Compact Language Models via Pruning and Knowledge Distillation NIPS 2024

DHA: Learning Decoupled-Head Attention from Transformer Checkpoints via Adaptive Heads Fusion NIPS 2024

SparseLLM: Towards Global Pruning of Pre-trained Language Models NIPS 2024