neural network training

309 papers

Explore in graph

Also known as

DNN NNT

Co-occurring keywords

neural network (6616) neural network optimization (1293) stochastic gradient descent (1088) gradient descent (1143) model compression (3283) deep neural network (1801) stochastic optimization (1060) deep learning (2111) batch normalization (222) non-convex optimization (546)

Papers

BOHB: Robust and Efficient Hyperparameter Optimization at Scale ICML 2018

Gradient Diversity: a Key Ingredient for Scalable Distributed Learning AISTATS 2018

On the Global Convergence of Gradient Descent for Over-parameterized Models using Optimal Transport NIPS 2018

Step Size Matters in Deep Learning NIPS 2018

Can We Gain More from Orthogonality Regularizations in Training Deep Networks? NIPS 2018

Riemannian approach to batch normalization NIPS 2017

On the Fine-Grained Complexity of Empirical Risk Minimization: Kernel Methods and Neural Networks NIPS 2017

Active Bias: Training More Accurate Neural Networks by Emphasizing High Variance Samples NIPS 2017

Repeat before Forgetting: Spaced Repetition for Efficient and Effective Training of Neural Networks EMNLP 2017

Annealed f-Smoothing as a Mechanism to Speed up Neural Network Training INTERSPEECH 2017

Robust Optimization for Non-Convex Objectives NIPS 2017

The Marginal Value of Adaptive Gradient Methods in Machine Learning NIPS 2017

Non-convex Finite-Sum Optimization Via SCSG Methods NIPS 2017

Train longer, generalize better: closing the generalization gap in large batch training of neural networks NIPS 2017

Langevin Dynamics with Continuous Tempering for Training Deep Neural Networks NIPS 2017

Sobolev Training for Neural Networks NIPS 2017

QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding NIPS 2017

Convergent Block Coordinate Descent for Training Tikhonov Regularized Deep Neural Networks NIPS 2017

Global Optimality in Neural Network Training CVPR 2017

Scalable Gradient-Based Tuning of Continuous Regularization Hyperparameters ICML 2016

Training Neural Networks Without Gradients: A Scalable ADMM Approach ICML 2016

Bounding the Search Space for Global Optimization of Neural Networks Learning Error: An Interval Analysis Approach JMLR 2016

Globally Optimal Training of Generalized Polynomial Neural Networks with Nonlinear Spectral Methods NIPS 2016

Training Deep Neural Networks via Direct Loss Minimization ICML 2016

Asynchronous Parallel Learning for Neural Networks and Structured Models with Dense Features COLING 2016