Deep Learning › Techniques ›

Pretraining

2471 directly classified papers

Papers per year

Papers

Speech and Language Recognition with Low-rank Adaptation of Pretrained Models INTERSPEECH 2024

Data-Efficient Multimodal Fusion on a Single GPU CVPR 2024

Insect-Foundation: A Foundation Model and Large-scale 1M Dataset for Visual Insect Understanding CVPR 2024

KOALA: Empirical Lessons Toward Memory-Efficient and Fast Diffusion Models for Text-to-Image Synthesis NIPS 2024

Follow Your Pose: Pose-Guided Text-to-Video Generation Using Pose-Free Videos AAAI 2024

Divide and Conquer: Hybrid Pre-training for Person Search AAAI 2024

Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach CVPR 2024

LUWA Dataset: Learning Lithic Use-Wear Analysis on Microscopic Images CVPR 2024

UMUTeam at SemEval-2024 Task 8: Combining Transformers and Syntax Features for Machine-Generated Text Detection SEMEVAL 2024

Vector Quantization Prompting for Continual Learning NIPS 2024

Whisper-PMFA: Partial Multi-Scale Feature Aggregation for Speaker Verification using Whisper Models INTERSPEECH 2024

ConceptMix: A Compositional Image Generation Benchmark with Controllable Difficulty NIPS 2024

BEACON: Benchmark for Comprehensive RNA Tasks and Language Models NIPS 2024

VoxSim: A perceptual voice similarity dataset INTERSPEECH 2024

LoRA-MER: Low-Rank Adaptation of Pre-Trained Speech Models for Multimodal Emotion Recognition Using Mutual Information INTERSPEECH 2024

Harnessing small projectors and multiple views for efficient vision pretraining NIPS 2024

Audio Editing with Non-Rigid Text Prompts INTERSPEECH 2024

DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models AAAI 2024

SRTube: Video-Language Pre-Training with Action-Centric Video Tube Features and Semantic Role Labeling CVPR 2024

All in One: Multi-task Prompting for Graph Neural Networks (Extended Abstract) IJCAI 2024

LidarCLIP or: How I Learned To Talk to Point Clouds WACV 2024

SHMT: Self-supervised Hierarchical Makeup Transfer via Latent Diffusion Models NIPS 2024

LearnerVoice: A Dataset of Non-Native English Learners’ Spontaneous Speech INTERSPEECH 2024

Data, Data Everywhere: A Guide for Pretraining Dataset Construction EMNLP 2024

When Whisper Listens to Aphasia: Advancing Robust Post-Stroke Speech Recognition INTERSPEECH 2024