1.3.2 Нейронные сети радиально-базисного типа
с
классификацию называются сетями с радиальной базисной функцией активации (RBF-сеть) [44]. В RBF-сетях вместо скалярного произведения двух векторов вычисляется расстояние между ними, т.е. в пространстве этих векторов вводится та или иная метрика p(xlJtx2j). В зависимости от задачи в качестве метрики можно использовать сумму модулей разностей компонент [л,- - Wyj (так называемое Манхеттенское расстояние), или максимум этих модулей max; \xj - или так называемое расстояние Махаланобиса d2(xl,x2) = J^ (xl rx2JDij(xlj-x2j), где Dy - это элементы матрицы ковариации этих векторов. В работе [45] используется квадратичная метрика L2=2^ (xj - Wy)2 . Вместо функции активации: сигмоидального вида в RBF-сетях используется гауссиан, т.е. скрытый, промежуточный слой состоит из радиальных элементов, каждый из которых воспроизводит гауссову поверхность отклика. Поскольку эти; функции нелинейны, то для моделирования произвольной функции нет необходимости брать более одного промежуточного слоя, необходимо лишь взять достаточное число радиальных элементов. Выходной слой состоит из элементов с линейными функциями активации [44].
Это удобно, т.к. параметры линейной комбинации в выходном слое можно полностью оптимизировать с помощью хорошо известных методов линейного моделирования, которые работают быстро и не испытывают трудностей с локальными минимумами, так мешающими при обучении МСП. Поэтому сеть RBF обучается очень быстро (на порядок быстрее МСП). С другой стороны, до того, как применять линейную оптимизацию в выходном слое сети RBF, необходимо определить число радиальных элементов, положение их центров и величины отклонений. Соответствующие алгоритмы, хотя и работают быстрее алгоритмов обучения МСП, в меньшей степени пригодны для отыскания субоптимальных решений. Другие отличия работы RBF от МСП связаны с различным представлением пространства модели: "групповым" в RBF и "плоскостным" в МСП. Из-за "группового" подхода сети RBF требуют больше нейронов скрытого слоя и,соответственно, больше компьютерной памяти. Существует несколько алгоритмов обучения RBF сетей, общими чертами которых являются:
Обучение скрытого слоя отдельно от выходного.
При обучении скрытого слоя, центры нейронов, используя какой- либо из методов кластеризации выстраиваются таким образом, чтобы соответствовать статистическому распределению данных.
При этом расположение центров должно
соответствовать кластерам, реально присутствующим в исходных данных.
Далее подстраиваются параметры, характеризующие форму гауссовых функций отклика нейронов.
После того, как выбраны центры и отклонения, параметры выходного слоя оптимизируются с помощью стандартного метода линейной оптимизации.