Автор: Александр Гончаренко Редактура: Александр Наздрюхин
Для начала вспомним обозначения из нашей прошлой статьи: $θ$ — веса модели;
$η$ — learning rate;
$∇J(θ)$ — градиент loss функции по весам;
EWMA — Exponentially Weighted Moving Average.
Еще мы будем использовать обозначение $∝$ — равенство размерностей (в физическом смысле). Например, $m∝кг$.
Теперь давайте обратимся к формуле обновления весов для ADAGRAD и RMSprop. Разница между ними только в расчете $G$.
Для ADAGRAD мы берем сумму квадратов градиентов:
А для RMSprop — EWMA квадратов градиентов:
Концептуальная проблема этих двух оптимизаторов — неправильная размерность обновления весов.
Давайте считать $p$ размерностью весов. Подставляем ее в формулу и получаем:
Хотя на самом деле $\Deltaθ∝p$, а значит, размерности не совпадают.
Посмотрим, как создатели Adadelta решают эту проблему.
Для этого вспомним о методе Ньютона — методе оптимизации второго порядка (то есть в данном методе используются вторые производные).