СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ ОБНАРУЖЕНИЙ АНОМАЛИЙ C ИСПОЛЬЗОВАНИЕМ ПОТОКА СЕТЕВОГО ТРАФИКА И ПРОТОКОЛА NETFLOW
СРАВНИТЕЛЬНЫЙ АНАЛИЗ СИСТЕМ ОБНАРУЖЕНИЙ АНОМАЛИЙ C ИСПОЛЬЗОВАНИЕМ ПОТОКА СЕТЕВОГО ТРАФИКА И ПРОТОКОЛА NETFLOW
Аннотация
Обнаружение аномалий в потоке сетевого трафика является важнейшей задачей в современной сетевой безопасности, где основной целью является выявление любого ненормального поведения трафика и подача сигналов тревоги для предотвращения потенциальных угроз безопасности. Существуют различные методы, доступные для обнаружения аномалий в потоке сетевого трафика, включая обнаружение на основе сигнатур, статистическое обнаружение и обнаружение на основе машинного обучения. В последние годы системы обнаружения аномалий на основе протокола NETFLOW приобрели значительную популярность благодаря своей способности предоставлять подробную информацию о поведении сетевого трафика.
В данной статье рассматриваются и сравниваются две системы определения аномалий в сетевом трафике с использованием искусственных нейронных сетей. Мы использовали общедоступные наборы данных для обучения систем. Затем мы сравнили результаты и проанализировали преимущества и недостатки каждой системы. Каждая система использует различный тип нейронных сетей: многослойная нейронная сеть и рекуррентная нейронная сеть. Основными критериями оценки качества системы были выбраны ROC метрика и площадь под кривой ROC, которые позволили определить эффективность используемых методов в определении аномалий.
1. Введение
Объемы интернет-трафика и количество пользователей сети интернет продолжает неуклонно расти во всем мире. По данным сервиса Telegeography, отслеживающего изменения во всемирной сети Интернет, сделано заключение, что средний международный интернет-трафик увеличился примерно со 120 Тбит/с до 170 Тбит/с с 2019 по 2020 год, также за 2021 год увеличилась пропускная способность мировой сети на 29%, тем самым достигнув отметки в 786 Тбит/с . Приведенные данные говорят о все увеличивающемся объеме данных, проходящих через сетевую инфраструктуру, а значит и об увеличении сетевых аномалий в проходящем трафике. Огромной задачей для всей сетевой инфраструктуры является определение сетевых аномалий, оповещение и ее ликвидация. Поставленную задачу решают системы обнаружения аномалий (СОА), чаще построенные на сигнатурном методе определения, однако, в связи с развитием вычислительных мощностей, все чаще используется нейросетевой метод , , . Инструменты, использующиеся в анализе больших данных, могут помочь в создании системы обнаружения аномалий, но в данном случае время обработки данных будет увеличиваться пропорционально объему сетевого трафика, проходящего за единицу времени. В работе проведено исследование различных подходов к построению системы обнаружения аномалий на основе нейронных сетей. В первом случае система на вход использует «сырые данные», то есть необработанный сетевой трафик. Во втором случае используется протокол Netflow, позволяющий получить потоки данных из трафика уже в обработанном виде и передать их на вход в систему.
Цель исследования заключается в сравнении двух СОА на идентичных данных сетевого трафика и выявлении лучшей системы в способе определении аномалии таких типов атак: DDoS, Bruteforce, PortScan.
Мы предполагаем, что каждая из систем имеет свои преимущества и недостатки, и задачей является анализ этих систем и проведение эксперимента по выявлению преимуществ и недостатков в каждой из них. Входные данные будут пропущены через разные модули предобработки данных и переданы двум основным компонентам СОА: модулям обнаружения аномалий и модулям классификации аномалий Нами определяются критерии оценки систем и анализируется результат работы каждой системы.
2. Обзор информационной системы определения сетевых атак на основе рекуррентных нейронных сетей
Первая система использует архитектуру рекуррентной сети LSTM (Long short-term memory). Преимуществом нейронных сетей LSTM является преодоление проблемы долговременной зависимости, при которой сеть теряет способность связывать информацию . С такой проблемой сталкиваются рекуррентые нейронные сети (RNN) , . LSTM сети используют фильтры, которые позволяют пропускать информацию на основе некоторых условий и изменять внутреннее состояние блоков называемыми ячейками памяти. Фильтры состоят из слоя сигмоидальной нейронной сети и операции поточечного умножения. Выделяют 3 основных фильтра: фильтры ввода (input gates), фильтры вывода (output gates) и фильтры забывания (forget gates) (Рисунок 1).
Рисунок 1 - Структура LSTM сети
– модуль коллектора потока трафика – собирается сетевой трафик и сохраняет дампы трафика;
– модуль подготовки данных – обрабатывает сырые дампы трафика и подготавливает данные для модуля обнаружения аномалий;
– модуль обнаружения аномалий – функция, разделяющая данные на нормальный поток трафика и аномальный поток (сетевая атака);
– модуль классификации аномалий – дополнительный модуль, состоящий из 3 функций классифицирующий аномальный поток;
– модуль оповещения – оповещает администратора системы о наличии аномалии в потоке данных.
Модель обучалась на наборе данных CICIDS2017 и CICIDS2018 (CIC) , , который подвергался предварительной обработке: масштабирование и нормализация набора данных, разделение набора на обучающий и тестируемый, преобразования типов данных.
Рисунок 2 - Архитектура модуля обнаружения (а) и модуля классификации аномалии (б)
– Обучение с 32 гиперпараметрами, имеющими ненулевое влияние на целевую переменную;
– Обучение с 20 гиперпараметрами, имеющими 93% влияния на целевую переменную.
Модуль классификатора аномалий обучился с точностью 82%, а модуль обнаружения аномалий обучился с точностью определения 72%.
3. Обзор информационной системы обнаружения аномалий IP-трафика по протоколу Net-Flow v9 с использованием глубокого обучения
Вторая система использует классическую многослойную искусственную сеть. Архитектура системы обнаружения аномалий с использованием протокола Netflow похожа на архитектуру вышеописанной системы, в ее состав входит:
– роутер BRAS с сенсером Netflow – обеспечивает детерминирования абонентской сессии и передачи потоков Netflow;
– коллектор Netflow – виртуальная машина с установленным коллектором nfdump для сбора Netflow потоков;
– конвертор – скрипт на языке bash преобразующий данные из формата nfcapd в csv формат;
– анализатор – модуль нейронной сети, занимающийся обработкой и классификацией данных;
– модуль оповещения – производит оповещение администратора.
Для обучения нейронной сети использовался набор данных UGR16, он также разделен на обучающий набор – 7 млн. строк, тестовый набор – 1.5 млн. строк и контрольный набор – 1.5 млн. строк. В качестве архитектуры использовалась многослойная сеть размерностью (64, 32, 32, 2) и размерностью (64, 32, 32 3).
Рисунок 3 - Архитектура модуля обнаружения (б) и модуля классификации аномалии (а)
4. Подготовка эксперимента
Описанные СОА имеют между собой много общего: количество модулей, одинаковые выполняемые функции каждого модуля, главным отличием между ними является модуль классификации, в которой расположена искусственная нейронная сеть.
Для проверки поставленной цели, разработана новая архитектура системы обнаружения аномалий, включающая в себя две архитектуры из вышеуказанных исследований (Рисунок 4). В обновленной архитектуре системы разбиты на 2 контура, в которые будут поступать данные.
Рисунок 4 - Обновленная архитектура СОА
В системе будут определяться аномальный и нормальный трафик, а аномальный трафик классифицироваться на следующие группы: DoS, Bruteforce, Port Scan.
В качестве компонентов тестового стенда использовались:
– 3 ПК генерирующие нормальный и аномальный трафик;
– роутер Cisco ASR920 в качестве BRAS и сенсора Netflow;
– сервер СОА с характеристиками 64 ГБ оперативной памяти, – Intel Core i7-11700KF, GPU – GeForce RTX 3070 Ti 8ГБ.
5. Проведение эксперимента
В качестве критериев оценки результата эксперимента будут использоваться:
– истинно положительные результаты (TP);
– истинно отрицательны результаты (TN);
– ложноположительные результаты (FP);
– ложноотрицательные результаты (FN);
– True Positive Rate – метрика, показывающая процент среди всех истинно положительных результатов верно предсказанных моделью;
– False Positive Rate – метрика, показывающая процент среди всех ложноположительных результатов неверно предсказанных моделью
– Receiver operating characteristic (ROC) – метрика, показывающая соотношение TPR и FPR;
– Area Under Curve (AUC) – площадь под кривой ROC, показывающая, что случайно выбранный экземпляр негативного класса будет иметь меньшую вероятность быть распознанным как позитивный класс, чем случайно выбранный позитивный класс. Значение AUC ограничено от 0 до 1, чем выше значение AUC, тем модель более предсказательна;
– суммарное время обработки данных и получение оповещения от систем.
Целевым критерием оценки нейросетевой модели мы берем метрику AUC, остальные метрики являются вспомогательными для ее вычисления.
В ходе проведения эксперимента с хостов 192.168.1.2/25, 192.168.1.3/25, генерировались атаки типа DoS, Bruteforce, Port scan в сторону хоста 192.168.1.124/25 каждый 10 минут в течение 24 часов, в остальное время генерировался нормальный трафик (Рисунок 4).
Результатом эксперимента стали следующие значения по заявленным критериям, представленные в Таблице 1. Дополнительно ROC кривые показаны на рисунках 5-8.
Рисунок 5 - Кривые ROC алгоритма DDoS
Рисунок 6 - Кривые ROC алгоритма Port scan
Рисунок 7 - Кривые ROC алгоритма Bruteforce
Рисунок 8 - Кривые ROC алгоритма All attacks
Таблица 1 - Критерии AUC
СОА | Все атаки, % | DDoS, % | Bruteforce, % | Port scan, % | |
AUC | С использованием потока трафика | 82,80 | 84,68 | 91,92 | 79,78 |
С использованием протокола Netflow | 72,00 | 88,66 | 64,22 | 67,03 |
По результатам проведенного исследования имеются следующие выводы:
- при определении атаки DDoS метрика AUC в методе с использованием протокола Netflow выше на 5%, чем при использовании метода с потоком трафика;
- при определении атак Bruteforce и Port Scan значение AUC больше у метода с использованием потока трафика на 30% и 16% соответственно, чем у метода с использованием протокола Netflow. Также при определении всех типов атак метод с использованием потока трафика показал лучшие значения.
Использование СОА с потоком трафика позволяет получить лучшие результаты в атаках Bruteforce и port scan, это вероятно связано с тем, что сеть может иметь больше входных данных, поступающих с сетевого трафика и различных уровней модели OSI. Однако для лучшего определения DDoS оказалась СОА с использованием протокола Netlfow.
6. Заключение
Использование СОА на основе нейронных сетей показывают хорошие результаты в определении различных аномалий в сетевом трафике. В ходе исследования проведено сравнение системы обнаружения аномалий с использованием рекуррентной LSTM сети и системы обнаружения аномалий с использованием глубокого обучения и протокола Netflow, которое позволило проверить работу систем на реальных данных, а также выявить достоинства и недостатки каждой из систем в поиске аномалий в потоке сетевого трафика:
– для атак, более сложных в определении и требующих глубоко анализа пакетов, подходит СОА с рекуррентной нейронной сетью и использованием потока трафика;
– для атак типа DDoS, имеющие огромную скорость и объем трафика, подходит СОА с глубоким обучением и использованием протокола Netflow.