Главные компоненты оказываются удобным инструментом и для восстановления пропусков во входных данных. Действительно, метод главных компонент дает наилучшее линейное приближение входных данных меньшим числом компонент:
(Здесь мы, как и прежде, для учета постоянного члена включаем фиктивную нулевую компоненту входов, всегда равную единице - см. рисунок 7.5, где справа показана нейросетевая интерпретация метода главных компонент. Таким образом, - это матрица размерности ). Восстановленные по главным компонентам данные из обучающей выборки имеют наименьшее среднеквадратичное отклонение от своих прототипов . Иными словами, при отсутствии у входного вектора компонент, наиболее вероятное положение этого вектора - на гиперплоскости первых главных компонент. Таким образом, для восстановленного вектора имеем: , причем для известных компонент .Пусть, например, у вектора
неизвестна всего одна, -я координата. Ее значение находится из оставшихся по формуле:где в числителе учитываются лишь известные компоненты входного вектора
.В общем случае восстановить неизвестные компоненты (с индексами из множества
) можно с помощью следующей итеративной процедуры (см. рисунок 7.6):