Обучение нейронной сети

Предположим, что обучающий набор данных необходимо расклассифицировать на два класса A и B. В этом случае сеть должна содержать N входных и 2 выходных нейрона. Каждому из классов будут соответствовать следующие активности выходных нейронов (1,0) и (0,1). Подходящее количество нейронов в промежуточном слое, вообще говоря, невозможно определить заранее - слишком большое их число ведет к переобучению, в то время как малое не обеспечивает достаточной точности обучения. Тем не мене, как уже отмечалось ранее, все методы адаптивного поиска числа нейронов в промежуточном слое делятся на два класса, в соответствии с тем, с малого или большого числа промежуточных нейронов стартует алгоритм. В первом случае по мере обучения в сеть добавляются дополнительные нейроны, в противоположном - после обучения происходит уничтожение излишних нейронов и связей. NeuroRule использует последний подход, так что число промежуточных нейронов выбирается достаточно большим. Заметим, что NeuroRule уничтожает также и избыточные входные нейроны, влияние которых на классификацию мало.

В качестве функции активации промежуточных нейронов используется гиперболический тан-генс, так что их состояния изменяются в интервале

$Обучение нейронной сети$

. В то же время, функцией активации выходных нейронов является функция Ферми (состояния в интервале

$Обучение нейронной сети$

). Обозначим через

$Обучение нейронной сети$

- состояния выходных нейронов при предъявлении на вход сети вектора признаков

$Обучение нейронной сети$

-го объекта

$Обучение нейронной сети$

. Будем считать, что этот объект правильно классифицирован сетью, если

$Обучение нейронной сети$

где:

$Обучение нейронной сети$

если

$Обучение нейронной сети$

если

$Обучение нейронной сети$

, а

$Обучение нейронной сети$

. В остальных случаях

$Обучение нейронной сети$

Минимизируемая функция ошибки должна не только направлять процесс обучения в сторону правильной классификации всех объектов обучающей выборки, но и делать малыми значения многих связей в сети, чтобы облегчить процесс их прореживания. Подобную технологию - путем добавления к функции ошибки специально подобранных штрафных членов - мы уже разбирали в лекции 3. В методе NeuroRule функция о шибка включает два слагаемых

$Обучение нейронной сети$

где

$Обучение нейронной сети$

функция взаимной энтропии, минимизация которой происходит быстрее, чем минимизация среднеквадратичной ошибки.
Штрафная функция

$Обучение нейронной сети$

уже фигурировала в лекции 3.

Здесь

$Обучение нейронной сети$

- число нейронов в скрытом слое,

$Обучение нейронной сети$

- величина связи, между

$Обучение нейронной сети$

-м входным и

$Обучение нейронной сети$

-м скрытым нейронами

$Обучение нейронной сети$

- вес связи между

$Обучение нейронной сети$

-м скрытым и

$Обучение нейронной сети$

-м выходным нейронами.

Использование регуляризирующего члена

$Обучение нейронной сети$

приводит к дифференциации весов по величи-нам, уменьшая большинство, но сохраняя значения некоторых из них. Обучение сети произво-дится методом обратного распространения ошибки.

Содержание раздела