Нейрокомпьютинг и его применения в экономике и бизнесе



              

Принцип максимального правдоподобия (maximum likelihood)


Заметим, прежде всего, что второй член в правой части выражения не зависит от данных. Первый же, отражающий эмпирический опыт, как правило, имеет вид колокола тем более узкого, чем больше объем имеющихся в распоряжении данных (см. рисунок 3.4).

Качественная зависимость априорной и эмпирической составляющих формулы Байеса. Чем больше данных - тем точнее можно выбрать проверяемую гипотезу

Рис. 3.4.  Качественная зависимость априорной и эмпирической составляющих формулы Байеса. Чем больше данных - тем точнее можно выбрать проверяемую гипотезу

Действительно, чем больше данных - тем точнее может быть проверены следствия конкурирующих гипотез, и, следовательно, тем точнее будет выбор наилучшей.

Следовательно, при стремлении количества данных к бесконечности, последним членом можно пренебречь. Это приближение:

\max_N \log P(N|D)\Rightarrow \min_N\{-log P(D|N)\}
получило название принципа максимального правдоподобия (Фишер) и характерно для т.н. параметрической статистики, в которой модель представляет собой семейство решений с небольшим и фиксированным набором параметров.

Отрицательный логарифм вероятности имеет смысл эмпирической ошибки при подгонке данных с помощью имеющихся в моделе свободных параметорв.

Например, в задаче аппроксимации функций обычно предполагается, что данные порождаются некоторой неизвестной функцией, которую и надо восстановить, но их "истинные" значения искажены случайным гауссовым шумом. Таким образом, условная вероятность набора данных

\{x^\alpha, y^\alpha\}
для модели
\{y(x^\alpha, w)\}
, зависящей от настраиваемых параметров w, имеет гауссово распределение:
 P(D|N)=\prod_\alpha{P(y^\alpha|N)},

 P(y^\alpha|N)\infty exp[-(y^\alpha-y(y^\alpha|N))^2/2\sigma^2].

Отрицательный логарифм, таким образом, пропорционален сумме квадратов, и аппроксимация функции сводится к минимизации среднеквадратичной ошибки:

\min\{-ln{P(D|N)}\}\Rightarrow min \{\sum_\alpha(y^\alpha-y(x^\alpha,N))^2\}




Содержание  Назад  Вперед