Нейрокомпьютинг и его применения в экономике и бизнесе

         

Восстановление пропущенных компонент данных


Главные компоненты оказываются удобным инструментом и для восстановления пропусков во входных данных. Действительно, метод главных компонент дает наилучшее линейное приближение входных данных меньшим числом компонент:

(Здесь мы, как и прежде, для учета постоянного члена включаем фиктивную нулевую компоненту входов, всегда равную единице - см. рисунок 7.5, где справа показана нейросетевая интерпретация метода главных компонент. Таким образом, - это матрица размерности
). Восстановленные по главным компонентам данные из обучающей выборки
имеют наименьшее среднеквадратичное отклонение от своих прототипов
. Иными словами, при отсутствии у входного вектора
компонент, наиболее вероятное положение этого вектора - на гиперплоскости первых
главных компонент. Таким образом, для восстановленного вектора имеем:
, причем для известных компонент
.

Пусть, например, у вектора

неизвестна всего одна,
-я координата. Ее значение находится из оставшихся по формуле:

где в числителе учитываются лишь известные компоненты входного вектора

.

В общем случае восстановить неизвестные компоненты (с индексами из множества

) можно с помощью следующей итеративной процедуры (см. рисунок 7.6):


Рис. 7.6.  Восстановление пропущенных значения с помощью главных компонент. Пунктир - возможные значения исходного вектора с неизвестными координатами. Наиболее вероятное его значение - на пересечении с первыми главными компонентами



Содержание раздела