← Optimization & Theory

Deep Learning › Optimization & Theory ›

Efficient Computing

1253 directly classified papers

Papers per year

Papers

An Empirical Study on Cross-lingual Vocabulary Adaptation for Efficient Language Model Inference EMNLP 2024

PromptIntern: Saving Inference Costs by Internalizing Recurrent Prompt during Large Language Model Fine-tuning EMNLP 2024

In Defense of Structural Sparse Adapters for Concurrent LLM Serving EMNLP 2024

Normalized Narrow Jump To Conclusions: Normalized Narrow Shortcuts for Parameter Efficient Early Exit Transformer Prediction EMNLP 2024

Attention-Driven Training-Free Efficiency Enhancement of Diffusion Models CVPR 2024

On the token distance modeling ability of higher RoPE attention dimension EMNLP 2024

In2Core: Leveraging Influence Functions for Coreset Selection in Instruction Finetuning of Large Language Models EMNLP 2024

AsyncDiff: Parallelizing Diffusion Models by Asynchronous Denoising NIPS 2024

LoRAN: Improved Low-Rank Adaptation by a Non-Linear Transformation EMNLP 2024

Optical Diffusion Models for Image Generation NIPS 2024

KV Cache Compression, But What Must We Give in Return? A Comprehensive Benchmark of Long Context Capable Approaches EMNLP 2024

Query-OPT: Optimizing Inference of Large Language Models via Multi-Query Instructions in Meeting Summarization EMNLP 2024

Neural Search Space in Gboard Decoder EMNLP 2024

Point Transformer V3: Simpler Faster Stronger CVPR 2024

Rethinking Interactive Image Segmentation with Low Latency High Quality and Diverse Prompts CVPR 2024

Draft on the Fly: Adaptive Self-Speculative Decoding using Cosine Similarity EMNLP 2024

You Only Need Less Attention at Each Stage in Vision Transformers CVPR 2024

Make Some Noise: Unlocking Language Model Parallel Inference Capability through Noisy Training EMNLP 2024

Salience DETR: Enhancing Detection Transformer with Hierarchical Salience Filtering Refinement CVPR 2024

TensorOpera Router: A Multi-Model Router for Efficient LLM Inference EMNLP 2024

In-Context Former: Lightning-fast Compressing Context for Large Language Model EMNLP 2024

Context-Driven Index Trimming: A Data Quality Perspective to Enhancing Precision of RALMs EMNLP 2024

Scalable Data Ablation Approximations for Language Models through Modular Training and Merging EMNLP 2024

AsCAN: Asymmetric Convolution-Attention Networks for Efficient Recognition and Generation NIPS 2024

Homology Consistency Constrained Efficient Tuning for Vision-Language Models NIPS 2024