CLUSTER ANALYSIS AS A TOOL FOR GROUPING RESEARCHED VARIABLESE

Research article
DOI:
https://doi.org/10.18454/IRJ.2016.49.096
Issue: № 7 (49), 2016
Published:
2016/07/18
PDF

Егоренко М.В. 1, Боховко А.Г. 2

1Студент, 2Студент, Санкт-Петербургский государственный экономический университет

КЛАСТЕРНЫЙ АНАЛИЗ КАК СРЕДСТВО ГРУППИРОВКИ ИССЛЕДУЕМЫХ ПЕРЕМЕННЫХ

Аннотация

Предприятия нашей страны, зачастую, испытывают необходимость в качественной оценке параметров своей деятельности. Оценка параметров, прежде всего, необходима для того, чтобы увязать бизнес-процессы деятельности предприятия с его целями и стратегией. Помимо оценки, параметры следует правильно интерпретировать и группировать для эффективного использования. Авторами статьи предлагается исследование и группировка бизнес параметров на базе кластерного анализа, используя который, будет рассмотрен частный пример взаимодействия предприятия со своими контрагентами.

Ключевые слова: коммерческий банк, кластер, анализ, критерий, идентификатор.

 Egorenko M.V. 1, Bohovko A.G. 2

1 Student, 2Student, St. Petersburg State University of Economics

CLUSTER ANALYSIS AS A TOOL FOR GROUPING RESEARCHED VARIABLESE

Abstract

Enterprises of our country, often feel the need for a qualitative assessment of its performance. Parameter estimation, first of all, is necessary in order to align the business processes of the enterprise with its objectives and strategy. In addition to the assessment parameters should be correctly interpreted and grouped for efficient use. The authors proposed to study and group business parameters on the basis of cluster analysis, using which will be considered a particular example of enterprise with their counterparts interaction.

Keywords: commercial bank, cluster, analysis, criteria, identifier.

Характер экономической деятельности в современном мире все больше сводится к рациональным и более того, обоснованным методам ведения дел. Предприятия, как малые, так и крупные - испытывают острую необходимость в моделях оценки деятельности внешних и внутренних процессов их делопроизводства. Такие модели носят ни сколько вербальный характер их реализации (на основе дерева целей, мозгового штурма, метода Дельфи и так далее), сколько некий интегрированный способ организации вербальных методов и методов математического анализа. Подобные методики могу быть реализованы при помощи прикладных программных продуктов. В данной статье мы задались целью предложить один из способов  такой интегрированной оценки – кластерный анализ, при помощи прикладного программного пакета IBM Statistics.

Кластерный анализ, вообще – это анализ переменных в рамках одного конкретного объекта бизнес – деятельности, в результате которого, формируется несколько подгрупп выбранного для исследования объекта, сформированных по принципу схожести в разрезе определенных заранее критериев. IBM Statistics позволяет использовать эту немаловажную функцию применительно к данным, имеющим количественное содержание.

Для демонстрации этой методики и обоснования рациональности и эффективности ее использования, мы приведем пример анализа контрагентов банка – заемщиков, которых вообще говоря, можно отнести к разным группам риска, относительно их возможности возврата заемных денежных средств. Коммерческие банки, деятельность которых направлена на аккумулирование денежным средствами с целью получения прибылей и сверхприбылей, зачастую, особенно в Российских реалиях, недооценивают важность распределения своих контрагентов-заемщиков по разным рисковым группам. Проверка заемщика происходит в несколько этапов, однако исключительно важные этапы, такие как, собственно, присвоение определенного уровня надежности заемщику, либо отдаются на аутсорсинг, либо вовсе исключаются из процесса оценки допустимости или недопустимости кредитования заемщика. Что в таком случае предлагает нам пакет IBM Statistics и кластерный анализ в частности?

Прежде всего, банк должен создать возможность сбора данных по своим заемщикам внутриорганизационным способом. Требуется собрать пул данных достаточной величины, чтобы экономический эффект от использования кластерного анализа нес положительный характер. Если рассматривать практику европейских банков как каноническую в данном вопросе, то они накапливают такие данные и формируют из них пул для анализа и исследования. Временная протяженность пула должна быть от одного до трех лет. Что касается самих данных – то ими являются, прежде всего, однозначный идентификатор заемщика (обычно это паспортные данные + идентификационный номер в базе), как фактор, по которому будет вестись исследование,  и некоторые количественные переменные, такие как заработная плата, возраст, количество лет, проведенных на работе и так далее (здесь мы рассматриваем заемщиков в качестве физических лиц). Следует отметить, что в данном анализе не используются качественные переменные (к примеру, занимаемая объектом исследования должность внутри его компании – работодателя), так как подобные переменные могу известную долю субъективизма.

Далее, средствами кластерного анализа IBM Statistics выстраивается, так называемая, диаграмма рассеивания. Смысл такой диаграммы в том, чтобы постоянно перестраивать собираемый пул данных и обновлять базу кластеров по заемщикам, а так же исключать аномальные значения, которые в итоге будут определены либо в группу заемщиков с минимальными показателями надежности, либо вовсе исключены из списка потенциальных кредитуемых субъектов. Факторы из всего накопленного пула данных выстраиваются в диаграмму, на которой есть возможность выявить заемщика, вызывающего аномальный скачок. Такая диаграмма строится в разрезе нескольких переменных, количество которых банку имеет смысл определить самостоятельно. Однако, вышеописанной диаграммы недостаточно, чтобы сделать однозначные выводы о возможности или невозможности кредитования отдельного субъекта.

Таким образом, далее формируется так называемый порядок агломерации кластеров. Посредством агломерации, высчитывается количество значений определенного пула данных. Далее, посредством сокращенного факторного анализа, отбираются наиболее надежные переменные (факторный анализ, даже в его сокращенной форме, проводить необязательно – банки могут ограничиться выбором наиболее рациональных параметров на основе вербальных суждений или руководствоваться в отборе принципом наиболее частой встречаемости отдельных переменных, а также их надежности с точки зрения способности однозначно определить достоверность данных по переменным). В разрезе отобранных переменных по известной формуле высчитывается коэффициент, позволяющий определить несколько групп заемщиков. То есть искомые группы определяются посредством значения этого коэффициента. Однако, стоит обратить внимание и на то, что данный коэффициент позволяет не только выявить (следует отметить что выявить в неявном виде) группы заемщиков, но также исключить из исследования факторы(наши заемщики), которые формируют аномальные значения коэффициентов. В качестве примера рассмотрим следующие данные: в результате исследования пула данных, состоящего из сорока факторов, было выявлено, что фактор под номером двадцать восемь и тридцать девять имеют резкий скачковый выброс коэффициента, скажем порядка пятнадцати единиц (остальные тридцать восемь высчитанных коэффициентов блуждают в пределах нормы, от 0 до 3-4, что является применимым). Тем самым, скачок показывает, что у двух факторов имеются аномальные значения в пуле исследуемых переменных. Таки переменные либо исключаются из дальнейшего исследования, либо допускаются для дальнейшей обработки. Здесь имеет смысл провести параллель с первой частью анализа кластеров – диаграммой рассеивания. Дело в том, что диаграмма рассеивания явно указывает на то, что переменные отдельных объектов исследования несут губительный характер для кредитования, если допустить такого заемщика непосредственно до ссуды. В то же время, агломерация носит некий рекомендательный смысл, так как способы подсчета коэффициента сформированы сугубо математическими методами и не учитывают предпочтений банка касательно заемщиков, более того, подсчет коэффициента ведется в разрезе всего количество классов переменных, что может привести расчеты к некоторым усредненным цифрам – такие расчеты не полные и не должны подразумевать абсолютную  корреляцию с решением о возможности или невозможности кредитования контрагентов коммерческого банка.

Однако, коллектив авторов статьи предлагает сгладить данную проблему путем подсчета средних значений, в разрезе всех отобранных переменных, а также учесть размер стандартного отклонения. Такие подсчеты средних и отклонений позволяют скорректировать выводы по подсчету коэффициентов, путем агломерации данных и сделать однозначные выводы о включении или не включение заемщиков в определенную группу риска невозможности возврата кредита.

Литература

  1. Афанасьев М.Ю., Суворов Б.П. Исследование операций в экономике: Модели, задачи, решения. – М.: ИНФРА-М, 2003. – 444 с.
  2. Косоруков О.А, Мищенко А.В. Исследование операций: Учебник / Косоруков О.А., Мищенко А.В. // Под общ. ред. проф. Н.П. Тихомирова. - М: Экзамен, 2003. - 448 с.
  3. Баканов М.И., Шеремет А.Д. Теория экономического анализа. - М.: Финансы и статистика, 2003. - 125 с.
  4. Виханский О.С. Анализ данных: Учебник. – 2-е изд., перераб. и доп. – М.: Гардарики, 2000. – 296 с.
  5. Герасимов Б.И., Иода Ю.В. Введение в экономику: Основы экономического анализа. Учеб. пособие. - Тамбов: Изд-во ТГТУ, 2004. - 140 с.

References

  1. 1. Afanas'ev M.Ju., Suvorov B.P. Issledovanie operacij v jekonomike: Modeli, zadachi, reshenija. – M.: INFRA-M, 2003. – 444 s.
  2. Kosorukov O.A, Mishhenko A.V. Issledovanie operacij: Uchebnik / Kosorukov O.A., Mishhenko A.V. // Pod obshh. red. prof. N.P. Tihomirova. - M: Jekzamen, 2003. - 448 s.
  3. Bakanov M.I., Sheremet A.D. Teorija jekonomicheskogo analiza. - M.: Finansy i statistika, 2003. - 125 s.
  4. Vihanskij O.S. Analiz dannyh: Uchebnik. – 2-e izd., pererab. i dop. – M.: Gardariki, 2000. – 296 s.
  5. Gerasimov B.I., Ioda Ju.V. Vvedenie v jekonomiku: Osnovy jekonomicheskogo analiza. Ucheb. posobie. - Tambov: Izd-vo TGTU, 2004. - 140 s.