PRINCIPAL MANIFOLDS FOR FINANCIAL DATA ANALYSIS AND VISUALIZATION

Research article
Issue: № 8 (15), 2013
Published:
08.09.2013
PDF

Покидышева Л.И.1, Веретнова К.Ю.2

1Доцент, кандидат технических наук, 2аспирант, Сибирский федеральный университет

ГЛАВНЫЕ МНОГООБРАЗИЯ ДЛЯ АНАЛИЗА  И ВИЗУАЛИЗАЦИИ ФИНАНСОВЫХ ДАННЫХ

Аннотация

В статье предложен пример анализа и визуализации данных с помощью метода главных компонент и метода упругих карт для анализа данных и составления рейтинга российских банков.

Ключевые слова: метод главных компонент, визуализация данных, упругие карты.

Pokidysheva L.I.1, Veretnova K.Yu.2

1PhD in Technical Science, associate professor, 2Postgraduate student, Siberian Federal University

PRINCIPAL MANIFOLDS FOR FINANCIAL DATA ANALYSIS AND VISUALIZATION

Abstract

In this article an example of data analysis and visualization using the method of  principal component analysis and  the method of elastic maps for data analysis of the Russian banks  ranking was considered.

Keywords: principal component analysis, data visualization, elastic maps.

Существует множество рейтинговых агентств мирового и российского уровня, которые проводят мониторинг кредитных организаций, используя разные методы и подходы. В данной работе предложена альтернатива существующим методам составления рейтинга. Проведено исследование по созданию объективного рейтинга банков, действующих на территории Российской Федерации, не зависящего от выбора показателей банков. С применением нелинейного моделирования, использующего метод главных компонент и главные многообразия был составлен рейтинг российских банков и представлена визуализация данных.

Метод главных компонент. Это один из способов понижения размерности данных, состоящий в переходе к новому ортогональному базису, оси которого ориентированы по направлениям максимальной дисперсии набора входных данных. Вдоль первой оси нового базиса дисперсия максимальна, вторая ось максимизирует дисперсию при условии ортогональности первой оси, и т.д., последняя ось имеет минимальную дисперсию из всех возможных. Метод применялся для обработки данных в различных областях [1-3]. Так же метод главных компонент применяется для визуализации данных с помощью перехода к двумерному пространству[4].

После того как вектора двух главных компонент будут найдены, точки пространства показателей (банки) можно спроецировать на плоскость, образованную векторами главных компонент.

Векторы главных компонент для задач о наилучшей аппроксимации и о поиске ортогональных проекций с наибольшим рассеянием — это ортонормированный набор {a1a2, a3,⋯,an}  собственных векторов эмпирической ковариационной матрицы C, расположенных в порядке убывания собственных значений λ: λ1λ2≥⋯≥λn≥0 . Эти векторы служат оценкой для собственных векторов ковариационной матрицы данных.

Для применения метода главных компонент данные должны быть записаны в виде матрицы. Отдельная строка такой матрицы – это конкретный объект исследования, вектор с координатами-показателями.

Зачастую объекты исследования имеют сильно различающиеся значения показателей по тому или иному показателю. Для того, чтобы уравновесить эти значения,  данные необходимо нормировать по столбцам. Метод главных компонент так же предполагает, что вектора данных являются центрированными.

Таким образом, вектор-столбец P j-го показателя следует нормировать по следующей формуле:

где, матрица данных имеет размерность  – выборочное среднее для j-го показателя Pj ,

– среднеквадратическое отклонение для j-го показателя 

Вектора главных компонент для показателей были найдены как собственные вектора эмпирической ковариационной матрицы.  Благодаря нормировке ковариационная матрица стала корреляционной.  Вектора и собственные значения матрицы были найдены с помощью метода вращений Якоби.

Метод упругих карт. Упругая карта служит для нелинейного сокращения размерности данных. В многомерном пространстве данных располагается поверхность, которая приближает имеющиеся точки данных и при этом является, по возможности, не слишком изогнутой. Данные проецируются на эту поверхность и потом могут отображаться на ней, как на карте. Ее можно представлять себе как упругую пластину, погруженную в пространство данных и прикрепленную к точкам данных пружинками. Служит обобщением метода главных компонент (в котором вместо упругой пластины используется абсолютно жесткая плоскость).

По построению, упругая карта представляет собой систему упругих пружин, вложенную в многомерное пространство данных. Эта система аппроксимирует облако данных. Метод был разработан проф., д.ф.-м.н. А. Н. Горбанем, к.т.н. А. Зиновьевым и к.т.н. А. Питенко в 1996—2001 гг.[2,4].

Рассмотрим двумерную прямоугольную сетку узлов, в которой p узлов по горизонтали  и q узлов по вертикали. Узлы сетки нумеруются с помощью двух индексов  

Определение 1. Упругой сеткой будем называть множество узлов, таких что:

  1. Узлы сетки близки к точкам данных;
  2. Сетка должна быть упруга по отношению к изгибу. Это свойство до некоторой степени обеспечит гладкость результирующего многообразия;
  3. Сетка должна быть равномерна, то есть упруга по отношению к растяжению.

Меняя параметры упругости и растяжения можно получать сетку с различными свойствами.

На первом шаге множество данных разбивается на таксоны.

Определение 2. Таксон Kij  узла yij – это множество точек x∈X, таких что:

где – множество точек данных,  – Евклидова норма.

То есть таксон узла  yij – это множество точек данных, которые располагаются в пространстве ближе всего к узлу yij .

Каждый узел, кроме граничных, имеет четырех соседей (т.к. сетка прямоугольная), с которыми он соединяется ребром. Чем больше средняя длина ребра, тем сильнее сетка растянута. Таким образом, мы должны минимизировать эту величину. Степень изогнутости определяется с помощью точечной оценки величины второй производной.

Таким образом, мы получаем функционал степени качества сетки, который необходимо минимизировать:

 – число точек данных, λ, μ - коэффициенты упругости, отвечающие за растяжение и изогнутость сетки.

Так как метрика является евклидовой, то функционал является квадратичным по отношению к узлам yij . Следовательно, для его минимизации будет приемлем следующий алгоритм:

Шаг 1. Узлы сетки, так или иначе, располагаются в пространстве.

Шаг 2. При заданных положениях узлов данные разбиваются на таксоны.

Шаг 3. При заданном разбиении множества точек данных на таксоны производится минимизация функционала D из условия

Шаги 2 и 3 повторяются до тех пор, пока величина функционала D не станет мала (в пределах заданной точности).

Так как требуется построить кривую, следовательно, q = 1 при любых значениях p. Поэтому функционалы D1, D2, Dи определение для Kij  запишем в виде:

Непосредственное дифференцирование по  фиксированному i -му узлу дает:

Следовательно,

 –условие минимизации, δ(i,j) – символ Кронекера. Множители, содержащие δ(i,j), введены для того, чтобы при расчетах не выйти за размеры сетки.

Перенося слагаемое  в правую часть, мы получим систему линейных уравнений с трехдиагональной матрицей. Матрица системы на протяжении работы алгоритма меняться не будет. Будет меняться лишь правая часть, которая зависит от разбиения точек данных на таксоны.

Данные. В настоящей работе были исследованы первые 100 банков, действующих на территории Российской Федерации  (Табл. 1).

Таблица 1. Перечень банков, показатели которых взяты для исследования

Название банка

Название банка

Название банка

ЮниКредит Банк

Московский Кредитный Банк

Авангард

Стройкредит

Пересвет

Нота-Банк

Инвестбанк

Транскредитбанк

Фондсервисбанк

ЦентроКредит

Национальный Резервный Банк

СБ Банк

Балтийский Банк

Мастер-Банк

Нордеа Банк

Международный Банк С.Петербурга

Открытие

Татфондбанк

Хоум Кредит Банк

НОМОС-Банк

Росгосстрах Банк

МДМ Банк

Транскапиталбанк

Национальный Торговый Банк

Россия

Интеза

РосЕвроБанк

Газпромбанк

Центр-Инвест

Балтинвестбанк

Уральский Банк Реконструкции

Московский Банк Реконструкции

ВестЛБ Восток

Банк «Санкт-Петербург»

Росбанк

Промсвязьбанк

Сургутнефтегазбанк

Уралсиб

Зенит

СКБ-Банк

Русский Стандарт

Внешпромбанк

Дальневосточный Банк

Абсолют Банк

Национальный Банк «Траст»

Металлургический Коммерческий Банк

Международный Финансовый Клуб

Всероссийский Банк Развития Регионов

Московский Индустриальный Банк

Российский Капитал

Эйч-Эс-Би-Си Банк (HSBC)

Запсибкомбанк

Еврофинанс Моснарбанк

Райффайзенбанк

Совкомбанк

Пробизнесбанк

Национальный Расчетный Депозитарий

ВТБ

Металлинвестбанк

Кредит Европа Банк

Собинбанк

Меткомбанк

Дойче Банк

Альфа-Банк

ИНГ Банк

Коммерцбанк (Евразия)

Возрождение

Новикомбанк

Расчетная Палата РТС

Восточный Экспресс Банк

Ситибанк

ДельтаКредит

Связь-Банк

Бинбанк

МСП Банк

Сбербанк России

Ак Барс

Россельхозбанк

ВТБ 24

Королевский Банк Шотландии

Ренессанс Кредит

Креди Агриколь КИБ

Союз

СМП Банк

Петрокоммерц

Локо-Банк

БНП Париба Банк

Русфинанс Банк

Банк Москвы

Национальный Стандарт

Азиатско-Тихоокеанский Банк

Инвестторгбанк

Первобанк

КИТ Финанс Инвестиционный Банк

ОТП Банк

Национальный Клиринговый Центр

Глобэкс

Юниаструм Банк

 

Ханты-Мансийский Банк

Москомприватбанк

 

Данные были взяты из отчетности, опубликованной на сайте Центрального Банка РФ [5] от 1 сентября 2011 года. Каждый банк представлен 74 значениями показателей. Показатели включают в себя кредиты, выданные как физическим лицам, так и различным коммерческим организациям, на различные периоды, депозиты коммерческих, некоммерческих организаций, физических лиц, основные средства и т.п.

Мы представили множество исследуемых банков как облако в 74-размерном пространстве показателей. Для того, чтобы понизить размерность данных, был применен метод главных компонент.

После понижения размерности данных с помощью метода главных компонент был осуществлен переход от пространства показателей размерности 74 к пространству двух главных компонент. Данные были спроецированы в это пространство.

С помощью метода упругих карт была получена аппроксимация облака точек (банков) с помощью кривой, на которую были спроецированы точки.

Результаты. После того как вектора главных компонент были найдены, данные были спроецированы на плоскость, образованную первыми двумя вектора главных компонент.

Таким образом, вектор данных Bi заменен на

После операции проецирования был получен рисунок облака данных на плоскости главных компонент (Рис. 1).

Рис.1: Проекция точек данных на плоскость главных компонент и кривая, аппроксимирующая облако данных.

После того как многообразие построено, для визуализации данных необходимо указать правило, с помощью которого данные из исходного пространства переносятся на упругую кривую. Длина вектора переноса не будет слишком велика, поскольку карта аппроксимирует данные и достаточно плотно к ним прилегает.

Идея, которая применяется при проецировании – сопоставление точке данных ближайшей точки отрезка, соединяющего два ближайших к точке узла на карте. Место объекта в рейтинге определятся координатой точки на кривой, аппроксимирующей облако данных.

Введем понятие расстояния от точки до отрезка.

Определение 3. Расстояние будем определять следующим образом: выполним ортогональное проецирование на прямую, содержащую отрезок. Если проекция принадлежит отрезку, то искомое расстояние – это расстояние до проекции. Иначе искомое расстояние – это расстояние до ближайшего конца отрезка. Тогда координатой точки на кривой будет либо координата этой точки на отрезке, либо координата ближайшего к ней узла.

Так как отрезок является линейной комбинацией координат двух точек, тогда условием принадлежности точки отрезку будет существование такого  что:

где (x, y)  – координаты точки данных, (x1,y1), (x1, x2) – координаты ближайших к ней узлов.

Рис.2: Проекции точек данных на кривой.

Рассмотрим рисунок 2. Точки на кривой – проекции точек-банков на линейное многообразие. Получили последовательность точек. Выпрямляя кривую, мы получим «естественный» рейтинг банков. В таблице 2 представлен рейтинг, полученный с помощью метода упругих карт.

Таблица 2: Рейтинг банков, полученный с помощью метода упругих карт.

Мес

то

Название банка

Мес-то

Название банка

Мес-то

Название банка

1

Сбербанк России

35

Запсибкомбанк

69

Азиатско-Тихоокеанский Банк

2

ВТБ

36

Возрождение

70

Центр-Инвест

3

Газпромбанк

37

ОТП Банк

71

РосЕвроБанк

4

ВТБ 24

38

Восточный Экспресс Банк

72

Мастер-Банк

5

Россельхозбанк

39

Русский Стандарт

73

Национальный Расчетный Депозитарий

6

Альфа-Банк

40

Росгосстрах Банк

74

Балтинвестбанк

7

Транскредитбанк

41

Юниаструм Банк

75

Собинбанк

8

ЮниКредит Банк

42

Внешпромбанк

76

Инвестбанк

9

Уралсиб

43

Международный Банк Санкт-Петербурга

77

Меткомбанк

10

Промсвязьбанк

44

Хоум Кредит Банк

78

СБ Банк

11

Райффайзенбанк

45

Нордеа Банк

79

Первобанк

12

Банк Москвы

46

ИНГ Банк

80

Татфондбанк

13

Росбанк

47

Русфинанс Банк

81

Металлинвестбанк

14

НОМОС-Банк

48

СКБ-Банк

82

Российский Капитал

15

Банк «Санкт-Петербург»

49

КИТ Финанс Инвестиционный Банк

83

Еврофинанс Моснарбанк

16

МДМ Банк

50

Всероссийский Банк Развития Регионов

84

Национальный Торговый Банк

17

Глобэкс

51

Пробизнесбанк

85

Национальный Клиринговый Центр

18

Ханты-Мансийский Банк

52

Абсолют Банк

86

БНП Париба Банк

19

Россия

53

Инвестторгбанк

87

Национальный Резервный Банк

20

Ситибанк

54

Новикомбанк

88

Национальный Стандарт

21

Связь-Банк

55

Авангард

89

Совкомбанк

22

Московский Кредитный Банк

56

Союз

90

Международный Финансовый Клуб

23

Зенит

57

СМП Банк

91

Креди Агриколь КИБ

24

Открытие

58

Пересвет

92

Металлургический Коммерческий Банк

25

Петрокоммерц

59

Дальневосточный Банк

93

Эйч-Эс-Би-Си Банк (HSBC)

26

Ак Барс

60

Фондсервисбанк

94

Стройкредит

27

Кредит Европа Банк

61

Дойче Банк

95

ЦентроКредит

28

Бинбанк

62

Ренессанс Кредит

96

Королевский Банк Шотландии

29

Транскапиталбанк

63

МСП Банк

97

Коммерцбанк (Евразия)

30

Московский Индустриальный Банк

64

Москомприватбанк

98

ВестЛБ Восток

31

Интеза

65

Нота-Банк

99

Расчетная Палата РТС

32

Московский Банк Реконструкции и Развития

66

Уральский Банк Реконструкции и Развития

100

ДельтаКредит

33

Сургутнефтегазбанк

67

Локо-Банк

   

34

Национальный Банк «Траст»

68

Балтийский Банк

   

Таким образом, применяя метод главных компонент и метод упругих карт, аппроксимируя облако данных кривой, можно получать независимый объективный рейтинг.

Заключение. Нелинейные расширения метода главных компонент, такие как главные многообразия, могут служить в качестве универсального инструмента, позволяющего приблизить сложные распределения точек данных, когда линейное приближение является недостаточным. Применение метода главных компонент, метода упругих карт, аппроксимация облака данных кривой дает возможность получить независимый объективный рейтинг исследуемых объектов системы.

Исследование выполнено при финансовой поддержке РФФИ в рамках научного проекта № НК 13-07-00814\13 а.

References