DL-МОДЕЛЬ RFR ДЛЯ ФИНАНСОВОГО МЕНЕДЖМЕНТА БИРЖЕВЫМ АКТИВОМ SIM3 НА MOEX

Шабанов Н. Т.; Рахманкулова Г. А.; Черная Е. Г.; Кузьмина Т. И.; Марамыгин М. С.; Ломакин Н. И.

doi:10.23670/IRJ.2023.132.57

DL-МОДЕЛЬ RFR ДЛЯ ФИНАНСОВОГО МЕНЕДЖМЕНТА БИРЖЕВЫМ АКТИВОМ SIM3 НА MOEX

Научная статья

DOI:

https://doi.org/10.23670/IRJ.2023.132.57

Выпуск: № 6 (132), 2023

Предложена:

10.04.2023

Принята:

18.05.2023

Опубликована:

16.06.2023

819

2

XML

PDF

Аннотация

В статье представлен алгоритм управления биржевым активом – фьючерсным контрактом на доллар SiM3 на Московской бирже (MoEx). В основу алгоритма положена модель глубокого обучения «Рандом Форест Регрессия» (DL RFR). Разработанная DL-модель позволяет получать прогноз цены закрытия фьючерсного контракта на следующий таймфрейм – час, что позволяет обеспечить поддержку принятия управленческого решения по поводу покупки/продажи биржевого актива SiM3. Научная новизна исследования состоит в том, что высокая точность прогнозирования достигается посредством комбинации настроек гиперпараметров: количество деревьев решений в ансамбле «случайного леса», глубина деревьев решений, метод оценки качества результата работы модели (MAE, MSE, RMSD).

Ключевые слова:

модель глубокого обучения, метод случайного леса, «Deep Learning Random Forest Regression».

1. Введение

Проблема совершенствования подходов в использовании цифровых решений в сфере финансового менеджмента приводит к необходимости применения моделей торговых советников (rob-эдвайзеров), биржевых роботов. Повышение точности прогнозирования остается актуальной проблемой, несмотря на широкомасштабное применение алгоритмической торговли в мире и на Московской бирже, в частности.

Научная новизна состоит в том, что в отличие от большинства алгоритмов, применяемых систем искусственного интеллекта, авторами предложено использование модели глубокого обучения «Случайный лес» в качестве биржевого торгового эдвайзера.

Как известно «Случайным лесом» называется метод ансамблевого обучения, который способен выполнять

1) классификацию,

2) регрессию с помощью ансамбля деревьев решений.

Известно, что если агрегируются прогнозы группы предикторов (классификаторы, регрессоры), то частым результатом будет получение лучших прогнозов, нежели с индивидуальным предиктором. Группа предикторов называется ансамблем; таким образом, этот метод называется ансамблевым обучением. К преимуществу «Случайного леса» относят тот факт, что он имеет меньшую ошибку обобщения, чем одиночные деревья решений, из-за его случайности, которая уменьшает дисперсию модели

.

По мнению ряда экспертов, существует определенная связь между алгоритмической торговлей, активностью частных инвесторов на бирже и стабильностью развития финансового сектора экономики. Проблемы, связанные с финансовой стабильностью, были предметом изучения значительного количества западных ученых. Среди них: Джон Чант. Эндрю Крокет, Внм Дуйзенберг, Роджер Фергюсон, Майкл Фут, Сэр Эндрю Лардж, Фредерик Мишкин. Гарри Шинаси и другие.

По мнению ученых Хенгхи (Hengxu), Донг (Dong), Вейквинг (Weiqing) и Джиан (Jiang), нет единой концепции финансовой стабильности ни в российской, ни в зарубежной науке

.

Представляется целесообразным для эффективной спекулятивной торговли использовать такой математический аппарат, как случайный лес, важнейшим элементом которого является дерево решений. Деревья решений (DT) основаны на непараметрическом методе обучения с учителем, который используется для классификации и регрессии.

Целью метода является создание модели, предсказывающей значение целевой переменной на основе изучения простых правил принятия решений, которые выводятся из характеристик данных. Дерево можно рассматривать как кусочно-постоянную аппроксимацию. Чем глубже дерево, тем сложнее правила принятия решений и тем точнее модель. Деревья решений используются как для задач классификации, так и для задач регрессии. Понимание важности переменных в лесах случайных деревьев представлено во многих работах, в том числе Louppe G. и других

.

Среди современных трендов применения систем искусственного следует отметить следующие тренды. Ритеш Кумар Дубей (Ritesh Kumar Dubey) c коллегами изучая вопросы эффективности алгоритмической торговли и ее влияние на качество рынка, пришел к выводу, что алгоритмическая торговля (АТ) была презираема розничными трейдерами и регуляторами рынка за ее скорость, поскольку приводит к непреднамеренной волатильности

.

Автор Мэтью Ф. Диксон (Matthew F. Dixon) с коллегами ввели фундаментальные концепции машинного обучения для канонического моделирования и рамок принятия решений в области финансов. Представили примеры, упражнения и коды Python для закрепления теоретических концепций и демонстрации применения машинного обучения к алгоритмической торговле, управлению инвестициями, управлению капиталом и управлению рисками

.

Любопытным направлением выступает управление таким инвестиционным активом, как NFT. Аббревиатура NFT образована от английского «non-fungible token», что в переводе означает «невзаимозаменяемый токен». По мнению Трубчаниновой К.А. и Коноваловой М.Е., он представляет собой особый вид криптографической учетного сертификата (токена), который является уникальным и не может быть уничтожен, обменен или замещен другим токеном

.

Колоссальные изменения наблюдаются в финансовой сфере, что, по мнению Ванцовской А.А., главным образом, связано с появлением технологии блокчейн и криптовалюты, поскольку эти технологии, помимо того, что открывают новые возможности для инвестирования, кардинально трансформируют разного рода договорные отношения

.

Исследованию роли систем управления инвестициями при соблюдении нормативных требований, в частности, исследование механизмов вытеснения после финансового кризиса посвятил свои труды Даниэль Гозман (Daniel Gozman) с коллегами

.

2. Методы и принципы исследования

В работе использованы такие методы исследования, как теоретический, аналитический, статистический и система искусственного интеллекта на основе глубокого обучения «метод случайного леса».

Метод случайного леса (англ. random forest) – алгоритм машинного обучения, предложенный Лео Брейманом (Breiman Leo)

и Адель Катлер (Adele Cutler) , суть которого заключается в использовании ансамбля решающих деревьев. Алгоритм позволяет сочетать в себе два основных подхода: метод бэггинга, предложенный Брейманом и метод случайных подпространств, который был предложен Тин Кам Хо (Tin Kam Ho) . Алгоритм применяется для задач классификации, регрессии и кластеризации. Основная идея заключается в использовании большого ансамбля решающих деревьев . Формирование DL-модели «случайный лес» производилось в «облаке» сервиса Collab на языке Python .

3. Основные результаты

В результате проведенного исследования:

1) сформирована DL-модель «случайный лес»;

2) получены прогнозные значения Pc;

3) исследована точность прогнозирования DL-модель «случайный лес» и качество работы модели;

4) выявлены определенные величины гиперпараметров при настройке DL-модели, которые обеспечивают наименьшие ошибки при прогнозировании цены закрытия (Pc) фьючерса SiM3 на следующий таймфрейм;

5) рассчитана средняя доходность при использовании сигналов модели для поддержки принятия управленческих решений инвестора при проведении спекулятивных операций с фьючерсом SiM3.

Во-первых, DL-модель «случайный лес» была успешно сформирована.

Датасет DL-модели «случайный лес» был получен путем экспорта свечей из торгового терминала QUIK (таблица 1).

Таблица 1 - Датасет DL-модели «случайный лес»

DOI:10.23670/IRJ.2023.132.57.1

Дата	Время	Цена открытия	Максимальная цена	Минимальная цена	Цена закрытия	Объем
20230407	230000	80919	81016	80919	80970	6057
20230407	220000	80856	80939	80838	80930	6154
20230407	210000	80893	80945	80847	80855	6460
20230407	200000	80931	80944	80833	80894	13079
20230407	190000	81048	81097	80932	80932	14068
20230407	180000	81080	81219	80951	80991	43826
20230407	170000	80984	81200	80801	81083	98025

Примечание: авторская разработка

Для формирования датасета была добавлена колонка «Target» – в которой представлена цена закрытия «close» на следующий тайм-фрейм. Опустим колонку «target» на 1 таймфрейм вниз, чтобы предсказательная цена получилась из последующей (t+1) «Close», заполним появившийся пропук, удалим не полную последнюю строку. Target = цена закрытия на завтра (close на следующий день)

Было сформировано обучающее X-множество и целевое у-множество, проведено обучение модели с использованием библиотеки DecisionTreeRegressor (рисунок 1).

Рисунок 1 - Скрипт для формирования обучающего «X», целевого «у»-множества и обучение модели

Примечание: авторская разработка

Последний шаг предварительной обработки – разделение данных на обучающие и тестовые наборы. Библиотека model_selection Scikit-Learn содержит метод train_test_split, который был использован для случайного разделения данных на наборы для обучения и тестирования. DL-модель была успешно сформирована (рисунок 2).

Рисунок 2 - Визуализация «решающего дерева» DL-модели, имеющего 28 уровней

Примечание: авторская разработка

Во-вторых, получены прогнозные значения Pc.

В результате использования DL-модели были сформированы прогнозы на тестовом наборе (таблица 2).

Таблица 2 - Прогнозы, сформированные на тестовом наборе

DOI:10.23670/IRJ.2023.132.57.4

№	Actual	Predicted	Delta
1884	60408,0	60330,0	78,0
1389	62080,0	61816,0	264,0
639	71114,0	71118,0	-4,0
965	72035,0	71932,0	103,0
1816	61182,0	61159,0	23,0

Примечание: авторская разработка

В-третьих, исследована точность прогнозирования DL-модели «случайный лес» и качество ее работы с помощью метрик.

Гистограмма распределения величин параметра «Дельта», рассчитанного как разность между фактическим значением цены «Actual» и прогнозным – «Predicted» показывает, что в более чем 250 случаях из 424 отклонение (ошибка прогноза) составляет от 0 до 500 рублей (рисунок 3).

Для оценки производительности алгоритма регрессии обычно используются метрики: средняя абсолютная ошибка, среднеквадратичная ошибка и среднеквадратичная ошибка. Библиотека Scikit-Learn содержит функции, которые обеспечивают вычисление этих значений. Для этого используется требуемый код из пакета метрик.

Рисунок 3 - Гистограмма распределения величин параметра «Дельта»

Примечание: авторская разработка

Для оценки производительности алгоритма регрессии обычно используются метрики: средняя абсолютная ошибка, среднеквадратичная ошибка и среднеквадратичная ошибка. Библиотека Scikit-Learn содержит функции, которые могут помочь с вычислением этих значений. Для этого используется необходимый код из пакета метрик.

Оценка алгоритма регрессии обычно используются метрики: средняя абсолютная ошибка, среднеквадратичная ошибка и среднеквадратичная ошибка. Библиотека Scikit-Learn содержит функции, которые могут помочь нам вычислить эти значения.

MAE – метрика, которая сообщает нам среднюю абсолютную разницу между прогнозируемыми значениями и фактическими значениями в наборе данных.

(1)

Где: Σ – это символ, который означает «сумма»;

- наблюдаемое значение для i -го наблюдения;

- прогнозируемое значение для i -го наблюдения;

n – размер выборки.

Чем ниже MAE, тем лучше модель соответствует набору данных.

Среднеквадратичная ошибка (Mean Squared Error) применяется в случаях, когда требуется подчеркнуть большие ошибки и выбрать модель, которая дает меньше именно больших ошибок. Большие значения ошибок становятся заметнее за счет квадратичной зависимости. MSE рассчитывается по формуле:

(2)

Где: n – количество наблюдений по которым строится модель и количество прогнозов,

- фактические значение зависимой переменной для i-го наблюдения,

- значение зависимой переменной, предсказанное моделью.

Среднеквадратичное отклонение (RMSD) или среднеквадратичная ошибка (RMSE) иначе R2 является часто используемой мерой различий между значениями (значениями выборки или совокупности), предсказанными моделью, и наблюдаемыми значениями. RMSD представляет собой квадратный корень из второго момента выборки различий между прогнозируемыми значениями и наблюдаемыми значениями. Корень из среднеквадратичной ошибки (Root Mean Squared Error) вычисляется просто как квадратный корень из MSE: (3)

(3)

В-четвертых, выявлены определенные величины гиперпараметров при настройке DL-модели, которые обеспечивают наименьшие ошибки при прогнозировании цены закрытия (Pc) фьючерса SiM3 на следующий таймфрейм.

Анализ данных позволяет сделать вывод о высокой точности прогноза, поскольку уровень средней абсолютной ошибки модели не превышает значения 133,52 руб., а уровень MSE при этом составляет 1729,27, при этом RMSE = 41,58 для варианта в котором доля тестовой выборки в датасете составляла 0,20 (таблица 3).

Таблица 3 - Результаты оценки качества модели

DOI:10.23670/IRJ.2023.132.57.6

Доля тестовой выборки в датасете, 0,30

Доля тестовой выборки в датасете, 0,20

Параметры качества модели

MAE = 182,6344

MSE = 76864,8

RMSE = 277,24

MAE = 133,52

MSE = 1729,27

RMSE = 41,58

Примечание: авторская разработка

Использование библиотеки GridSearchCV позволило выбрать DL-модель с лучшими параметрами: {'criterion': 'squared_error', 'max_depth': 10, 'n_estimators': 50}. То есть по критерию «'squared_error», с глубиной «'max_depth'» = 10, с количством решающих деревьев - 50.

В-пятых, рассчитана доходность инвестора при использовании сигналов DL-модели для поддержки принятия управленческих решений при проведении спекулятивных операций с одним фьючерсным контрактом SiM3 (таблица 4).

Таблица 4 - Доходность инвестора при использовании сигналов DL-модели

DOI:10.23670/IRJ.2023.132.57.7

Data	Pactual	Ppredicted	Delta	Order
06.04.23 11:00	80343	80364,610	21,61	Long
06.04.23 12:00	80860	80876,302	16,3	Long
06.04.23 13:00	80989	80876,302	112,7	Short
06.04.23 14:00	80989	80876,302	112,7	Short
…	…	…	…	…
min	57300,00	57689,00	-2893,00	-
max	80447,00	80447,00	1211,00	-
mean	67918,09	67917,73	0,36	-
std	6226,98	6237,63	332,93	-
N=424	-	-	141162,32	-

Примечание: авторская разработка

Как показывают исследования, за рассматриваемый период с 16 сентября 2022 г. 15:00 по 07 апреля 2023 г. 23:00 имели место 2124 наблюдений (часовых таймфреймов). Количество наблюдений, вошедших в тестовую выборки составило 424, при этом средняя величина Pactual составила 67918.09 рублей, а Ppredicted составила 67917,73 рублей. Поскольку известно, что среднеквадратическое значение параметра «Delta» – профита инвестора, то при общем количестве наблюдений N=424, расчетное значение совокупного профита составляет 141162,32 рублей = 424*332,93.

4. Обсуждение

Анализируя тенденции развития искусственного интеллекта в сфере финансового менеджмента, важно отметить некоторые аспекты, выявленные зарубежными учеными. Практика показывает, что важное значение имеет оценка финансового риска. В перспективе просматриваются следующие направления исследований.

Представляется целесообразным для эффективной спекулятивной торговли использовать такой математический аппарат, как случайный лес в современных интерпретациях. Ломакин Н.И. с коллегами, исследуя цифровизацию и будущее финансовых услуг, анализируя влияние технологических разработок на финансовый сектор, делает вывод о необходимости широкого применения инноваций в сфере цифровых финансов

. Ученый Рупали Багате (Rupali Bagate) с коллегами проанализировали текущие достижения в области обработки естественного языка (NLP) ими предпринята попытка использования анализа настроений в алгоритмической торговле .

Дерево бинарной классификации (соответственно регрессии), предложенное в работе Breiman, представляет собой модель ввода-вывода, представленную древовидной структурой T из случайного входного вектора (X1…Xp), принимающего свои значения в (X1*…*Xp)=X в случайную выходную переменную Y 𝜖 𝛶

. Практика показывает, что применение систем искусственного интеллекта позволяет решать широкий круг проблем. В перспективе нейронные сети могут быть использованы для оценки отклонений от намеченной траектории, цены актива.

5. Заключение

Таким образом, на основании вышесказанного можно сделать выводы:

1. Представлен алгоритм управления биржевым активом – фьючерсным контрактом на доллар SiM3 на Московской бирже (MoEx). В основу алгоритма положена модель глубокого обучения «Рандом Форест Регрессия» (DL RFR).

2. Разработанная DL-модель позволяет получать прогноз цены закрытия фьючерсного контракта на следующий таймфрейм – час, что позволяет обеспечить поддержку принятия управленческого решения по поводу покупки/продажи биржевого актива SiM3.

3. Расчеты свидетельствуют о том, что DL-модель показывает высокую точности прогноза, поскольку уровень средней абсолютной ошибки модели не превышает значения 133,52 руб., а уровень MSE при этом составляет 1729,27, при этом RMSE = 41,58 для варианта в котором доля тестовой выборки в датасете составляла 0,20.

4. Применение систем искусственного интеллекта позволяет решать широкий круг проблем, в алгоритмической торговле и обеспечить эффективное управление биржевым активом.

Дополнительные материалы

Не указаны

Финансирование

Авторы не получали финансовой поддержки для проведения исследования, написания и публикации статьи

Благодарности

Не указаны

Конфликт интересов

Не указаны

Список литературы

Ванцовская А.А. Цифровое искусство на блокчейне и NFT-рынок / А.А. Ванцовская // StudNet. — 2021. — 4. — с. 258-264.
Метод случайного леса. — 2021. — URL: https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0% . (дата обращения: 10.04.23)
Трубчанинова К.А. NFT-проекты как предмет инвестирования в цифровой экономике / К.А. Трубчанинова, М.Е. Коновалова // Международный научно-исследовательский журнал. — 2023. — 2. — с. 1-4. DOI: 10.23670/IRJ.2023.128.37.
Adele C. Utah State University Department of Mathematics and Statistics, retrieved / C. Adele. — 2019. — URL: https://en.wikipedia.org/wiki/Adele_Cutler. (accessed: 10.04.23)
Breiman L. Random Forests Machine Learning / L. Breiman // Journal of Biomedical Science and Engineering. — 2001. — 1. — с. 5-32. DOI: 10.1023/A:1010933404324.
Breiman L. Classification and Regression Trees / L. Breiman, J.H. Friedman, R.A. Olshen et al. — Trees, 1984. — 320 p.
Gozman D. The Role of Investment Management Systems in Regulatory Compliance: A Post-Financial Crisis Study of Displacement Mechanisms. / D. Gozman , W. Currie // Journal of Information Technology. — 2014. — 1. — URL: https://journals.sagepub.com/doi/abs/10.1057/jit.2013.16 (дата обращения: 10.04.2023) DOI: 10.1057/jit.2013.16.
Hengxu L. Deep Risk Model: A Deep Learning Solution for Mining Latent Risk Factors to Improve Covariance Matrix Estimation / L. Hengxu, Z. Dong, L. Weiqing et al. // ICAIF’21; — Virtual Event, 2021. — p. 3-5.
Ho T.K. Knowledge from Patterns: from the Mail Sorting Facility to a World of Connected Devices / T.K. Ho // IAPR Newsletter; — 2014. — Issue 36. — p. 5-7.
Lomakin N. Artificial Intelligence System for Processing Big Data to Determine the Value of Innovative Products in a Digital Economy / N. Lomakin , S. Sazonov, A. Polianskaia, G. Lukyanov , A. Gorbunova // Communications in Computer and Information Sciencethis link is disabled. — 2020. — 1273. — с. 19-37.
Lomakin I. Lomakin_2_Ivan_Model_RFRegressor.ipynb / I. Lomakin. — 2023. — URL: https://colab.research.google.com/drive/1eKSR4hWC6jpcPfQjTE9XDLPIXiZG2V0U#scrollTo=yJh7d14GxOrh. (accessed: 10.04.23)
Louppe G. Understanding Variable Importances in Forests of Randomized Trees / G. Louppe, L. Wehenkel, A. Sutera et al. — 2020. — URL: https://proceedings.neurips.cc/paper/2013/file/e3796ae838835da0b6f6ea37bcf8bcb7-Paper.pdf . (accessed: 10.04.23)
Matthew F.D. Machine Learning in Finance. From Theory to Practice. Digitalization and the Future of Financial Services / F.D. Matthew, I. Halperin, P. Bilokon // Innovation and Impact of Digital Finance. — 2023. — 10.1007. — URL: https://link.springer.com/book/10.1007/978-3-030-41068-1 (дата обращения: 10.04.2023)
Random Forest Regression. — 2023. — URL: https://medium.com/data-science-bridge/random-forest-regression-ddfc88c92689. (accessed: 18.03.23)
Ritesh K. Algorithmic Trading Efficiency and its Impact on Market-Quality / K. Ritesh, B. Sarath, R. Rajneesh, V. Urvashi // Asia-Pacific Financial Markets. — 2022. — 29. — с. 381–409 . — URL: https://link.springer.com/article/10.1007/s10690-021-09353-5 (дата обращения: 15.03.2023)
Rupali B. Survey on Algorithmic Trading Using Sentiment Analysis / B. Rupali , J. Aparna, T. Abhilash, P. Anand, T. Deepshikha // Conference paper. First Online: 22 September. — 2022. — 10.1007. — URL: https://link.springer.com/chapter/10.1007/978-981-19-2225-1_22 (дата обращения: 15.03.2023)

Рецензия

Все статьи проходят рецензирование. Но рецензент или автор статьи предпочли не публиковать рецензию к этой статье в открытом доступе. Рецензия может быть предоставлена компетентным органам по запросу.

Информация об авторах

Аффилиация:Волгоградский государственный технический университет, Волгоград, Российская Федерация

Роль:Автор, Концептуализация, Методология, Исследование

ORCID:0000-0001-6597-7195

ELIBRARY AUTHOR ID:369988

Аффилиация:Уральский государственный экономический университет, Екатеринбург, Российская Федерация

Роль:Концептуализация, Методология

ORCID:0000-0003-3416-775X

Аффилиация:Российский экономический университет им. Г.В.Плеханова, Москва, Российская Федерация

Роль:Концептуализация, Методология

ORCID:0000-0002-1757-5201

ELIBRARY AUTHOR ID:691954

RESEARCHER ID:AAS-2768-2020

Аффилиация:Волжский институт экономики, педагогики и права, Волжский, Российская Федерация

Роль:Концептуализация, Администратор проекта

ORCID:0000-0003-2039-7909

Аффилиация:Волжский политехнический институт, филиал Волгоградского государственного технического университета, Волжский, Российская Федерация

Роль:Курирование данных, Программное обеспечение, Визуализация, Анализ данных исследования

ORCID:0009-0006-9746-4072

ELIBRARY AUTHOR ID:614018

Аффилиация:Волгоградский государственный технический университет, Волгоград, Российская Федерация

Роль:Апробация, Визуализация, Анализ данных исследования, Исследование

ORCID:0000-0002-2240-5725

Метрика статьи

Скачиваний:2

ПросмотрыСкачивания

Просмотры

Всего: