Нейрокомпьютинг и его применения в экономике и бизнесе

         

Обучение нейронной сети


Предположим, что обучающий набор данных необходимо расклассифицировать на два класса A и B. В этом случае сеть должна содержать N входных и 2 выходных нейрона. Каждому из классов будут соответствовать следующие активности выходных нейронов (1,0) и (0,1). Подходящее количество нейронов в промежуточном слое, вообще говоря, невозможно определить заранее - слишком большое их число ведет к переобучению, в то время как малое не обеспечивает достаточной точности обучения. Тем не мене, как уже отмечалось ранее, все методы адаптивного поиска числа нейронов в промежуточном слое делятся на два класса, в соответствии с тем, с малого или большого числа промежуточных нейронов стартует алгоритм. В первом случае по мере обучения в сеть добавляются дополнительные нейроны, в противоположном - после обучения происходит уничтожение излишних нейронов и связей. NeuroRule использует последний подход, так что число промежуточных нейронов выбирается достаточно большим. Заметим, что NeuroRule уничтожает также и избыточные входные нейроны, влияние которых на классификацию мало.

В качестве функции активации промежуточных нейронов используется гиперболический тан-генс, так что их состояния изменяются в интервале

. В то же время, функцией активации выходных нейронов является функция Ферми (состояния в интервале
). Обозначим через
- состояния выходных нейронов при предъявлении на вход сети вектора признаков
-го объекта
. Будем считать, что этот объект правильно классифицирован сетью, если

где:

если
и
если
, а
. В остальных случаях
.

Минимизируемая функция ошибки должна не только направлять процесс обучения в сторону правильной классификации всех объектов обучающей выборки, но и делать малыми значения многих связей в сети, чтобы облегчить процесс их прореживания. Подобную технологию - путем добавления к функции ошибки специально подобранных штрафных членов - мы уже разбирали в лекции 3. В методе NeuroRule функция о шибка включает два слагаемых

где

функция взаимной энтропии, минимизация которой происходит быстрее, чем минимизация среднеквадратичной ошибки.
Штрафная функция



уже фигурировала в лекции 3.

Здесь
- число нейронов в скрытом слое,
- величина связи, между
-м входным и
-м скрытым нейронами
- вес связи между
-м скрытым и
-м выходным нейронами.

Использование регуляризирующего члена
приводит к дифференциации весов по величи-нам, уменьшая большинство, но сохраняя значения некоторых из них. Обучение сети произво-дится методом обратного распространения ошибки.


Содержание раздела