Нейрокомпьютинг и его применения в экономике и бизнесе

         

Линейное сжатие информации - метод главных компонент


Более общий подход - использовать не две отдельные компоненты, а две линейные комбинации всех 30 исходных параметров, наилучшим образом представляющие имеющиеся данные (см. рисунок 10.3).

Линейное сжатие информации - метод главных компонент

Рис. 10.3.  Линейная аппроксимация многомерных (здесь - трехмерных) данных

Каждый банк представлен точкой в 30-мерном пространстве и задача состоит в проведении двумерной плоскости в этом пространстве, обеспечивающей минимальное среднеквадратичное отклонение имеющихся точек от этой плоскости:

Линейное сжатие информации - метод главных компонент

Как мы знаем подобное линейное приближение дается методом главных компонент. Если действительное расположение точек не сильно отклоняется от плоскости, этот метод может дать неплохое начальное приближение. Однако, оказывается, что в даном случае это не так. Среднеквадратичное отклонение для случая двух главных компонент оказалось равным почти половине от общей дисперсии:

Линейное сжатие информации - метод главных компонент
.

Таким образом, даже оптимальный вариант линейного сжатия не дает возможности визуализировать финансовое положение банков. Оно может, тем не менее, оказаться полезным, в частности, для анализа значимости балансовых статей. Так, увеличение числа главных компонент постепенно дает все лучшее и лучшее приближение имеющегося массива данных (см. Ошибка! Источник ссылки не найден.).

Линейное сжатие информации - метод главных компонент

Рис. 10.4.  Точность воспроизве-дения данных как функция числа главных компонент

Например, 10 главных компонент обеспечивают вполне приемлемую общую точность 94% (т.е.

Линейное сжатие информации - метод главных компонент
). При общем числе входов равном 30, это означает 3-кратное сжатие информации. Такое сжатие оказывается возможным из-за существенных корреляций между отдельными статьями в балансовой отчетности. При этом те статьи, которые дают наибольший вклад в главные компоненты, восстанавливаются по ним с наибольшей точностью.

Степень восстановления исходных данных по ограниченному числу главных компонент свидетельствует о том, насколько согласованны данные в этих статьях между собой во всем массиве имеющейся информации, т.е. насколько содержащаяся в них информация значима для выявления индивидуальных отличий. Ошибка! Источник ссылки не найден. показывает, что около 20 статей восстанавливаются по 10 главным компонентам с относительно высокой точностью. Это как раз те статьи, кторые дают основной вклад в главные компоненты. Остальные статьи гораздо менее значимы для сравнительного финансового анализа, в частности, в силу незначительности совокупной доли активов в этих статьях балансов.

Линейное сжатие информации - метод главных компонент

Рис. 10.5.  Значимость статей балансов и отчетов о прибылях/убытках, определенная по степени их восстановления по 10 главных компонентам



Содержание раздела