Нейрокомпьютинг и его применения в экономике и бизнесе



              

Максимизация энтропии как цель предобработки


Допустим, что в результате перевода всех данных в числовую форму и последующей нормировки все входные и выходные переменные отображаются в единичном кубе. Задача нейросетевого моделирования - найти статистически достоверные зависимости между входными и выходными переменными. Единственным источником информации для статистического моделирования являются примеры из обучающей выборки. Чем больше бит информации принесет каждый пример - тем лучше используются имеющиеся в нашем распоряжения даные.

Рассмотрим произвольную компоненту нормированных (предобработанных) данных:

\mbox{\~{x}}_i
. Среднее количество информации, приносимой каждым примером
\mbox{\~{x}}^\alpha_i
, равно энтропии распределения значений этой компоненты
H(\mbox{\~{x}}_i)
. Если эти значения сосредоточены в относительно небольшой области единичного интервала, информационное содержание такой компоненты мало. В пределе нулевой энтропии, когда все значения переменной совпадают, эта переменная не несет никакой информации. Напротив, если значения переменной
\mbox{\~{x}}^\alpha_i
равномерно распределены в единичном интервале, информация такой переменной максимальна.

Общий принцип предобработки данных для обучения, таким образом, состоит в максимизации энтропии входов и выходов. Этим принципом следует руководствоваться и на этапе кодирования нечисловых переменных.




Содержание  Назад  Вперед