СТРАТЕГИЯ БАЛАНСИРОВКИ НАГРУЗКИ И УПРАВЛЕНИЕ РАЗНОРОДНЫМИ ХРАНИЛИЩАМИ ДАННЫХ С ВЫСОКОЙ СТЕПЕНЬЮ ПАРАЛЛЕЛИЗМА

Багутдинов Р. А.

doi:10.60797/IRJ.2024.148.91

СТРАТЕГИЯ БАЛАНСИРОВКИ НАГРУЗКИ И УПРАВЛЕНИЕ РАЗНОРОДНЫМИ ХРАНИЛИЩАМИ ДАННЫХ С ВЫСОКОЙ СТЕПЕНЬЮ ПАРАЛЛЕЛИЗМА

Научная статья

DOI:

https://doi.org/10.60797/IRJ.2024.148.91

Выпуск: № 10 (148), 2024

Предложена:

31.08.2024

Принята:

18.09.2024

Опубликована:

17.10.2024

93

1

XML

PDF

Аннотация

В современном мире наблюдается экспоненциальный рост объёма данных и высокий уровень параллельного доступа в мощных Интернет вещах (PIoT), что требует эффективных стратегий балансировки нагрузки для равномерного распределения сетевого трафика между несколькими серверами. Это необходимо для повышения общей скорости отклика и доступности системы. Целью данного исследования является разработка стратегии балансировки нагрузки, основанной на четырёх и семи уровнях доступа IoT. Для достижения поставленной цели были использованы следующие материалы и методы: анализ существующих стратегий балансировки нагрузки; изучение протоколов транспортного и прикладного уровней; разработка новой стратегии балансировки нагрузки. В результате исследования была предложена новая стратегия балансировки нагрузки, основанная на сочетании четырёх- и семиуровневых подходов. Это позволит добиться более эффективного и гибкого распределения трафика в IoT, повысив производительность системы и удовлетворив требования к обработке сложных запросов.

Ключевые слова:

Интернет вещей, IoT, разнородные, хранилища, источники, большие, управление, данные, метаданные.

1. Введение

В мощном Интернете вещей (PIoT) используются сотни миллионов терминальных устройств. Даже если данные загружаются пакетами, в часы пик они будут достигать более десяти миллионов уровней параллелизма. Технология доступа с высокой степенью параллелизма основана на балансировке нагрузки, оптимизации трафика и других стратегиях для достижения оптимального выбора сетевых соединений и эффективного, сбалансированного использования облачных ресурсов

. Балансировка нагрузки необходима в системах с высокой степенью параллелизма и легкодоступности . Цель состоит в том, чтобы равномерно распределить сетевой трафик между несколькими серверами, чтобы повысить общую скорость отклика и доступность системы. Чтобы справиться с экспоненциальным ростом объема данных и высоким уровнем параллельного доступа, крупные центры обработки данных должны развёртывать модули балансировки нагрузки для обработки больших внешних или внутренних рабочих нагрузок и улучшения использования ресурсов .

В настоящее время стратегия балансировки нагрузки платформы управления IoT обычно заключается в развёртывании программного обеспечения для балансировки нагрузки, такого как NGINX (HTTP-сервер и обратный прокси-сервер, почтовый прокси-сервер, а также TCP/UDP прокси-сервер общего назначения. Nginx обслуживает серверы многих высоконагруженных российских сайтов, таких как Яндекс, Mail.Ru, ВКонтакте и Рамблер)

, на сервере доступа для достижения балансировки нагрузки на нескольких уровнях, а именно на уровне приложений. Этот метод может удовлетворить требования к параллельному доступу от 100000 до одного миллиона уровней; однако трудно поддерживать высокие требования к параллельному доступу более чем на 10 миллионах уровней.

Таким образом, предлагается стратегия балансировки нагрузки, основанная на четырёх и семи уровнях доступа IoT, для достижения высокого уровня параллелизма – более десяти миллионов уровней

. Четырёхуровневая балансировка нагрузки основана на протоколах транспортного уровня, таких как TCP и UDP. Он распределяет трафик между различными серверами на основе IP-адреса клиента и номера порта. Его основным преимуществом является высокая скорость обработки, поскольку он фокусируется только на сетевой информации более низкого уровня. Четырёхуровневая балансировка нагрузки подходит для сценариев со строгими требованиями к задержке.

Семиуровневая балансировка нагрузки основана на протоколах прикладного уровня, таких как HTTP и HTTPS. Она может распределять трафик между различными серверами на основе содержимого запроса, такого как URL-адреса, информация заголовка и самих сообщений. Поскольку он фокусируется на сетевой информации более высокого уровня, семиуровневая балансировка нагрузки позволяет реализовать более сложные стратегии распределения. Сочетание четырёх- и семиуровневых стратегий балансировки нагрузки позволяет добиться более эффективного и гибкого распределения трафика в IoT. Например, четырёхуровневый балансировщик нагрузки может обрабатывать несколько запросов с низкой задержкой, тогда как сложные запросы прикладного уровня могут направляться для обработки в семиуровневый балансировщик нагрузки. Это повышает производительность системы и удовлетворяет требованиям к обработке сложных запросов. В частности, коммутатор уровня 4 предоставляет единый IP-адрес доступа для внешнего мира. Терминальному устройству и пограничному IoT-агенту не нужно знать реальный IP-адрес, соответствующий каждому серверу на облачной платформе. Трафик внешних данных, получаемый облачной платформой, должен проходить через коммутатор уровня 4, который отвечает за пересылку запроса терминального устройства и пограничного агента Интернета вещей на сервер, а затем за установление TCP-соединения между терминальным устройством, пограничным агентом интернета вещей и сервером. В режиме NAT (от англ. Network Address Translation – «преобразование сетевых адресов») – это механизм в сетях TCP/IP, позволяющий преобразовывать IP-адреса транзитных пакетов

, когда уровень 4 обменивается данными и устройство планирует запросы на доступ, сначала преобразуется IP-адрес назначения, а затем запрос на доступ пересылается на каждый сервер внешнего доступа в серверной части. Таким образом, четырёхуровневая балансировка нагрузки позволяет объединить терминал доступа и оборудование пограничного агента Интернета вещей и передавать исходящую информацию об оборудовании программно-определяемому агенту доступа в соответствии с установленной стратегией балансировки нагрузки.

2. Основные результаты

2.1. Управление разнородными хранилищами данных с несколькими источниками

Объём данных мощных IoT (PIoT) достиг петабайтного масштаба, что означает, что система должна справляться с проблемами, связанными с большим объемом данных и различными форматами данных. Диапазон скоростей генерации данных обширен, включая миллисекундные измерения вектора в широком диапазоне, данные в режиме реального времени, данные мониторинга стационарного состояния второго уровня, микрометеорологические данные минутного уровня

, данные о циркуляции эксплуатационных характеристик часового уровня и экспериментальные данные оборудования с более длительным циклом . Существует множество источников данных и сложных методов взаимодействия, таких как веб-сервисы, специальные протоколы и специальные форматы файлов . Существует много типов данных, таких как данные в реальном времени, текстовые, мультимедийные, временные ряды, структурированные, полуструктурированные и неструктурированные данные и др. , . Отсутствие эффективного управления различными типами данных и трудности с формированием эффективной информации из изолированных данных значительно затрудняют управление, эксплуатацию и принятие быстрых решений .

В области хранения больших данных команда разработчиков Hadoop разработала файловую систему Google с открытым исходным кодом (GFS) и внедрила распределенную файловую систему Hadoop с открытым исходным кодом (HDFS) GFS. Программная библиотека Apache Hadoop – это платформа, которая позволяет распределять обработку больших наборов данных между кластерами компьютеров с использованием простых программных моделей

. Что касается управления данными, то наиболее известной является технология управления данными Bigtable, предложенная Google. Bigtable – это распределенная система хранения, предназначенная для управления структурированными данными , . Эти данные могут быть расширены до очень больших масштабов, таких как петабайты данных на тысячах коммерческих серверов. Основными источниками данных PIoT являются данные управления, данные мониторинга, социальные сети и метеорологические данные, которые характеризуются различными источниками, сложными типами, различными мощностями и высокими уровнями управления безопасностью и контроля , . Для управления большими и разнообразными данными и метаданными нужна надёжная техническая архитектура, которая обеспечит контроль над данными, их качеством, структурой, безопасностью , а также эффективное управление ими.

2.2. Управление основными данными и метаданными

Основные данные в основном разрабатываются внутри систем и извлекаются из неструктурированных данных, которые были проанализированы или не исследованы. Таким образом, необходимо обеспечить плавную интеграцию метаданных неструктурированного контента с традиционным управлением метаданными. Основное содержание управления основными данными и метаданными проиллюстрировано на рис. 1.

Рисунок 1 - Распределение контента для управления основными данными и метаданными

Архитектуры управления метаданными и основными данными нуждаются в корректировке в связи с внедрением технологии больших данных. Для предлагаемой сводной архитектуры управления основными данными и метаданными в среде больших данных PIoT приложения для сбора, хранения и управления метаданными и основными данными основаны на архитектуре данных, технической архитектуре и архитектуре приложений больших данных. Поток данных представлен на рис. 2.

Рисунок 2 - Организация потока данных

Управление жизненным циклом данных относится к управлению информационными активами. Управление охватывает правила, политики, процессы, роли и обязанности, которые используются для руководства общим управлением, данные являются точными, непротиворечивыми, полными, доступными и безопасными. Стратегия и стандарты обработки данных должны быть обновлены в связи с внедрением неструктурированных и разнообразных источников данных. На всех этапах жизненного цикла данных данные должны храниться, защищаться и получать доступ к ним в полном соответствии с бизнес-требованиями. Данные являются активами предприятия, и их жизненные циклы часто длиннее, чем у аппаратного обеспечения и приложений. Управление жизненным циклом данных должно осуществляться с точки зрения контроля затрат, управления информацией и отслеживания, а также безопасности данных.

Качество данных относится к способности данных удовлетворять бизнес, системным и техническим требованиям организации. Качество данных обычно описывается в соответствии с целостностью, своевременностью, точностью, непротиворечивостью и актуальностью. Качество данных в средах больших данных определяется случаями использования. Приложения предъявляют разные требования к качеству данных. Например, анализ потока кликов и обнаружение вторжений требуют разных уровней точности. В этой среде необходимо пересмотреть правила, политики и стандарты очистки качества данных.

Структура данных описывает внутреннюю организацию данных. Она включает в себя множество уровней данных, начиная от междисциплинарных моделей данных и заканчивая независимыми системами. Влияние структуры данных в среде больших данных в первую очередь обусловлено разнообразием данных. Стандарты классификации данных и логические модели данных должны адаптироваться к содержанию неструктурированных данных и процессу извлечения структурированной информации из неструктурированных данных.

Безопасность данных – это процесс и технология, которые гарантируют, что к данным нельзя получить доступ, просмотреть, отредактировать или удалить их без разрешения. При интеграции различных источников данных необходимо проанализировать и стандартизировать соответствующие политики безопасности и требования в соответствии с местными, национальными и международными правилами. Это включает в себя:

1 – безопасность доступа к данным: авторизацию доступа к хост-системе, хранение базы данных на разных уровнях безопасности и разделение пользователей для различных приложений;

2 – безопасность хранения данных: регулярное полное резервное копирование и инкрементное резервное копирование в режиме реального времени, которые могут поддерживать быстрое восстановление данных;

3 – аудит безопасности данных: записи журнала доступа к файлам, сети и другим данным, независимо хранящиеся журналы и регулярно проверяемые операции с конфиденциальными данными.

Управление службами данных обеспечивает унифицированный доступ к различным службам данных через сервисные интерфейсы. Благодаря внедрению стандартизированного протокола доступа к интерфейсу и унифицированного контроля доступа пользователей и данных для обеспечения безопасности данных, сервис может быть расширен и настроен в соответствии с будущими требованиями к доступу к данным.

Информация, хранящаяся в PIoT, является массивной, распределенной, разнообразной, действующей в режиме реального времени, динамичной и интерактивной

. Границы сети на стороне терминала станут нечёткими и сложными. Индивидуальный доступ между данными и пользователями в рамках обычной схемы шифрования с открытым ключом не может соответствовать требованиям сложной системы PIoT. Механизм нулевого доверия был впервые предложен Kindervag. Его основная идея заключается в том, что по умолчанию не следует доверять человеку, устройству или системе внутри сети или за её пределами. Она должна основываться на доверительной основе аутентификации и авторизации с жёстким контролем доступа. После многолетней практики Google в 2014 году выпустила BeyondCorp, архитектуру с нулевым доверием, которая постепенно получила признание в отрасли. Нулевое доверие подрывает парадигму контроля доступа и направляет архитектуру безопасности от сети к идентификации, ориентированной на личность. Его основным требованием является управление доступом, ориентированное на личность .

Построение PIoT основано на построении унифицированной идентификации с использованием архитектуры сетевой безопасности с нулевым доверием в качестве эталона для проведения унифицированного управления идентификацией и обеспечения аутентификации между устройствами и службами PIoT. Надежное соединение, взаимодействие в области безопасности, интеллектуальная защита, а также динамическое предотвращение и контроль достигаются благодаря защите архитектуры PIoT «облачный интерфейс управления». Архитектура защиты PIoT, основанная на механизме нулевого доверия, проиллюстрирована на рис. 3.

Рисунок 3 - Поток доступа к данным PIoT основан на многоуровневой балансировке нагрузки

Создание единой идентификационной библиотеки PIoT в конце и на стороне обеспечивает базовую идентификацию ключей для бизнеса и обеспечивает стандартизацию субъектов бизнес-системы. После реализации комплексной идентификации пользователь, устройство и приложение полностью идентифицируются для завершения централизованного управления идентификацией. Аутентификация осуществляется непрерывно через службу списка устройств. Благодаря динамическому расчёту риска и доверия доступ к приложениям блокируется и проверяется, состояние терминала PIoT постоянно отслеживается, и корректируется соответствующая стратегия контроля доступа. Доступ приложения к центру политик постоянно контролируется, а выходные данные журнала доступа отправляются на аналитическую платформу для оценки рисков. Анализ больших данных и технологии искусственного интеллекта используются для анализа рисков, поддержки количественной оценки рисков, осуществления мониторинга и аудита доступа приложения к центру стратегии, реализации динамического восприятия и интеллектуального анализа сценариев безопасности PIoT, своевременного реагирования на атаки и обеспечения безопасной и стабильной работы системы PIoT.

3. Заключение

В заключении можно отметить, что предложенная стратегия балансировки нагрузки, основанная на сочетании четырёх- и семиуровневых подходов, позволяет эффективно и гибко распределять трафик в IoT, повышая производительность системы и удовлетворяя требования к обработке сложных запросов. Это особенно актуально в условиях экспоненциального роста объёма данных и высокого уровня параллельного доступа в мощный Интернет вещей (PIoT), где требуется балансировка нагрузки для равномерного распределения сетевого трафика между несколькими серверами. С увеличением объёма данных и разнообразием их типов, становится критически важным наличие эффективных инструментов и методов для управления этими данными.

Однако, несмотря на существующие технологии, управление данными в PIoT остается сложной задачей из-за разнообразия источников данных, их сложности и высоких требований к безопасности и контролю. Для успешного управления данными необходима надёжная техническая архитектура, обеспечивающая контроль над данными, их качеством, структурой, безопасностью, а также эффективное управление ими.

Исследование подчёркивает важность разработки и внедрения новых технологий и методов балансировки нагрузки для обеспечения стабильной и эффективной работы систем IoT в условиях растущих требований к объёму обрабатываемых данных и уровню параллелизма.

Дополнительные материалы

Не указаны

Финансирование

Авторы не получали финансовой поддержки для проведения исследования, написания и публикации статьи

Благодарности

Не указаны

Конфликт интересов

Не указаны

Список литературы

Gao Z. B. Improved load balancing algorithm based on weighted least-connections / Z.B. Gao, Y.C. Pan, Z. Hua [et al.] // Science Technology and Engineering. — 2016. — Vol. 16. — № 6. — P. 81–85.
Zhang C.K. State-of-the-Art survey on software-defined networking (SDN) / C.K. Zhang, Y. Cui, H.H.Tang [et al.] // Ruan Jian Xue Bao Journal of Software. — 2015. — Vol. 26. — №1. — P. 62–81.
Irteza S.M. Efficient load balancing over asymmetric datacenter topologies / S.M. Irteza, H.M.Bashir, T. Anwar [et al.] // Computer Communications. — 2018. — Vol. 127. — P. 1–12.
Сысоев И.В. HTTP-сервер и обратный прокси-сервер, почтовый прокси-сервер, а также TCP/UDP прокси-сервер общего назначения / И.В. Сысоев // Nginx. — 2022 — URL: https://nginx.org/ru/ (дата обращения: 31.08.2024)
Itsekson A. What Are the 7 Layers of IoT Architecture? / A. Itsekson // Head of Technology. — 2024 — URL: https://jelvix.com/blog/iot-architecture-layers (дата обращения: 30.04.2024)
What Is Network Address Translation (NAT)? — 2024. — URL: https://www.cisco.com/c/en/us/products/routers/network-address-translation.html (accessed: 31.07.2024)
Багутдинов Р.А. Проектирование модульной мультисенсорной системы для задач мониторинга окружающей среды на базе Arduino / Р.А. Багутдинов // Научные ведомости Белгородского государственного университета. Серия: Экономика. Информатика. — 2019. — Т. 46. — № 1. — С. 173–180.
Jiang X.T. Research and design on general communication protocol analysis system for power information collecting / X.T. Jiang, J.B. He, N. Li // Power System Protection and Control. — 2012. — Vol. — 40. — № 9. — P. 118–122.
Багутдинов Р.А. Разработка единой централизованной системы управления транспортными потоками / Р.А. Багутдинов, Д.В. Бежуашвили // Техник транспорта: образование и практика. — 2021. — Т. 2. — № 1. — С. 71–77.
Багутдинов Р.А. Алгоритм обнаружения пожара для мультисенсорной системы / Р.А. Багутдинов, М.Ф. Степанов // Вестник Дагестанского государственного технического университета. Технические науки. — 2021. — Т. 48. — № 3. — С. 59–67.
Багутдинов Р.А. Методы интеграции, уменьшение размеров и нормализация обработки разнородных и разномасштабных данных / Р.А. Багутдинов, М.Ф. Степанов // International Journal of Open Information Technologies. — 2021. — Т. 9. — № 2. — С. 39–44.
Pan K.J. Research on multi-source heterogeneous data fusion technology for the big data of power / K.J. Pan, X. Wang, F. Yang [et al.] // Machinery & Electronics. — 2017. — Vol. 35. — № 9. — P. 7–11.
Apache Hadoop Software Library. — 2024. — URL: https://hadoop.apache.org (accessed: 28.08.2024)
Scale your latency-sensitive applications with the NoSQL pioneer. — 2024. — URL: https://cloud.google.com/bigtable (accessed: 20.08.2024)
Apache Hadoop Programming Mode MapReduce Tutorial. — 2024. — URL: https://hadoop.apache.org/docs/current/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html (accessed: 20.08.2024)
Островский О.А. Вопросы развития компьютерно-технической экспертизы и их взаимосвязь с телекоммуникациями / О.А. Островский // Право и государство: теория и практика. — 2020. — № 1 (181). — С. 312–314.
Островский О.А. Меры уголовного правосудия в отношении киберпреступности согласно модели общего права через призму профессиональных компетенций следователя и его навыков интеллектуального анализа криминалистической цифровой информации / О.А. Островский, Ю.П. Гармаев // Транспортное право и безопасность. — 2020. — № 4 (36). — C. 84–92.
Островский О.А. Значение цифровых доказательств при расследовании уголовных преступлений / О.А. Островский // Вестник Российского университета дружбы народов. Серия: Политология. — 2019. — № 1. — С. 123.
Zhou F. Development ideas of key technologies for intelligent perception of ubiquitous power Internet of things [J] / F. Zhou, H. Zhou, Y. Gao // Proceedings of the Chinese Electrical Engineering. — 2020. — Vol. 40. — № 1. — P. 70–82.
Zhang Y.Y. Electric Internet of Things security framework and technologies for energy interconnection / Y.Y. Zhang, B.X. Zhoum H.Y. Pang [et al.] // Telecommunications Science. — 2021. — Vol. 37. — № 2. — P. 115–124.

Рецензия

Рецензент:Сообщество рецензентов Международного научно-исследовательского журнала

1 раунд рецензирования

Информация об авторах

Аффилиация:Институт транспорта и сервиса, Сочи, Российская Федерация

Роль:Автор

ORCID:0000-0002-9645-8707

ELIBRARY AUTHOR ID:801032

RESEARCHER ID:B-4310-2017

Метрика статьи

Скачиваний:1

ПросмотрыСкачивания

Просмотры

Всего: