2.2.6 Оценка скоростей обучения
В выражении (2.16) параметр rj по сути является мерой точности обучения сети. Чем он больше, тем более грубым будет следующее уменьшение суммарной ошибки сети. Чем он меньше, тем больше времени сеть будет тратить на обучение и тем более возможно ее попадание в окрестность локального ми-нимума ошибки.
Поэтому управление величиной шага имеет важное значение для улучшения сходимости обучения нейронной сети.В настоящее время существует множество различных схем (большинство из них эмпирические) для автоматической настройки скорости обучения [7175]. Большинство из этих схем уменьшает скорость обучения, когда синаптический коэффициент «колеблется», и увеличивает его, когда весовой коэффициент следует по относительно устойчивому направлению. Главная проблема с этими методами состоит в том, что они являются не подходящими для онлайн- обучения.
Интуитивно понятно, что выбор индивидуальной скорости обучения для каждого синаптического коэффициента может ускорить сходимость и улучшить качество решения (в зависимости от поверхности функции ошибки, некоторые синаптические коэффициенты могут требовать небольшой скорости обучения, чтобы избежать расхождения, в то время как другие могут требовать большого значения скорости обучения, чтобы ускорить схождение алгоритма).
Поэтому в данной работе каждому синаптическому коэффициенту дана индивидуальная скорость обучения.
Для автоматической подстройки скорости обучения на каждой итерации обучения использовался алгоритм, предложенный в работе [73]. Данный метод основывается на следующих фактах:
наименьшее собственное значение матрицы Гессе Н ,,= ^ ^ , гораздо
dWidWi
меньшее чем второе наименьшее собственное значение
после большого количества итераций, вектор параметров приблизится
к минимуму целевой функции по направления минимального собственного вектора матрицы Гессе, как показано на рисунке 2.7.
Рис 2.7.
Сходимость процесса обучения нейронной сети.При этих условиях об изменении параметра скорости обучения можно предполагать как об одномерном процессе, и минимальный собственный век-
1dE\ t dw
тор v может быть оценен (для большого количества итерации) v =
'dET
{dwi dE_
{dwi
т dE
Следовательно, можно записать ? = (v —) =
dw
для оценки минимального собственного вектора v как одномерной меры расстояния до ми-
нимума. Это расстояние может использоваться, чтобы управлять скоростью обучения. Таким образом, итоговые соотношения выглядят:
HF
r(f + l) = (l-Ј)r(r) + J^,(0<Ј где S,a,p являются константами; г используется как вспомогательная переменная, чтобы вычислить среднее значение градиента. Данный набор правил прост для вычисления. Просто нужно держать направление дополнительного вектора (2.17) усредненного градиента г. Норма этого вектора управляет размером скорости обучения (2.18). Алгоритм исходит из простой интуиции: далеко от минимума (большое расстояние ?) осуществляются большие шаги, при близости к минимуму скорость обучения уменьшается.