2.2.2 Режим обучения
На каждой итерации, уравнение (2.16) должно быть рассчитано для всего обучающего набора данных, чтобы вычислить средний или истинный гради- ент. Это называется пакетным обучением, при таком способе обучения вся обучающая выборка рассматривается до обновления синаптических коэффициентов.
Альтернативно, можно использовать стохастическое обучение (онлайн), где отдельный пример {Z^D,} выбран (например, случайно) из учебного набора на каждой итерации t. При данном подходе оценка градиента является за- шумленной, синаптические коэффициенты не перемещаются точно вниз градиента на каждой итерации, но данный «шум» на каждой итерации может быть выгодным. Стохастическое обучение - вообще более предпочтительный метод для алгоритма обратного распространения ошибки по следующим причинам:Преимущества стохастического обучения:
стохастическое обучение сходится обычно намного быстрее чем пакетный метод обучения;
стохастическое обучение часто приводит к лучшим решениям.
Стохастическое обучение часто приводит к лучшим решениям из-за шума в обновлениях весовых коэффициентов. Нелинейные сети обычно имеют множество локальных минимумов различной глубины. Цель обучения состоит в том, чтобы определить местонахождение одного из этих минимумов. Пакетное обучение обнаружит минимум любого бассейна, куда первоначально помещены синаптические коэффициенты. При стохастическом обучении, шумовая составляющая в коррекциях синаптических коэффициентов может привести к вскакиванию конфигурации нейронной сети в бассейн другого, возможно более глубокого, локального минимума. Это демонстрировалось в работах [63,65].
Стохастическое обучение также предпочтительно, когда функция моделируемая нейронной сетью изменяется во времени, весьма обычная ситуация в промышленных применениях, где распределение данных изменяется постепенно в течение долгого времени (например из-за износа машин).
Результаты экспериментов [66-68] говорят, что затраты на одномерную оптимизацию шага не дают практической пользы, обучение по суммарному градиенту (с оптимизацией шага или без неё) всегда проигрывает online-
обучению, online-обучение часто обгоняет метод сопряженных градиентов. ОпИпе-обучеше с фиксированным шагом, сопоставимо по эффективности с наиболее сложным из алгоритмов - методом сопряженных градиентов.
Исходя из всего вышеизложенного, в данной работе была использована онлайн модификация алгоритма обратного распространения ошибки.