Identification of Leaks of Confidential Information in Information Systems

Research article
DOI:
https://doi.org/10.23670/IRJ.2023.133.112
Issue: № 7 (133), 2023
Suggested:
16.05.2023
Accepted:
10.07.2023
Published:
17.07.2023
764
4
XML
PDF

Abstract

The aim of the work was to analyse various technical approaches for solving the problems of detecting confidential information leaks, allowing to create a more secure information environment. Some problems of confidential information protection using modern security tools are outlined and possible directions of their solution are presented.

This article discusses technical solutions such as DLP, UEBA, and SIEM systems. It analyses the use of machine learning methods and artificial intelligence algorithms and describes the problem faced by most projects using machine learning methods.

The ways of solving the problems of machine learning methods in dealing with the problems of detecting leaks of confidential information are proposed.

1. Введение

Возможные утечки конфиденциальной информации, обрабатываемой в информационных системах, являются актуальной проблемой в настоящее время, несмотря на активное развитие систем защиты информации, направленных на противодействие этому.

Под утечкой конфиденциальной информации понимается такое негативное событие, при котором информация, содержащая ценные сведения, без согласия владельца становится доступной лицу или группе лиц, не имеющих разрешения на доступ к этой информации.

2. Методы и принципы исследования

Согласно данным аналитического центра InfoWatch
, всего в базу утечек за 2022г. было внесено 6856 случаев преднамеренной и случайной компрометации конфиденциальных данных в госсекторе и коммерческих организациях по всему миру, что в свою очередь 3,57 раза больше, чем за 2021 год (см. рис. 1).
Число зарегистрированных утечек информации, Мир за 2017-2022

Рисунок 1 - Число зарегистрированных утечек информации, Мир за 2017-2022

Согласно исследованию
в 2022 году в открытый доступ попало свыше 2 млрд записей, содержащих конфиденциальную информацию. Пользовательских данных 300 млн записей, из которых 16% около 48 млн строк содержали пароли. Большую часть данных (64%) скомпрометировали вследствие атак на крупный бизнес.
Аналитиками из InfoWatch тоже был зафиксирован тренд смещения причин утечек конфиденциальной информации от внутренних нарушителей, в сторону внешних нарушителей. Отдельно стоит отметить рекордный рост доли утечек, в которых на момент публикации факта утечки данных не были известны причины, тип нарушителя и методы совершения компрометации данных (см. рис. 2).
Распределение утечек информации по вектору воздействия (внешний/внутренний): Мир, 2017–2022 гг.

Рисунок 2 - Распределение утечек информации по вектору воздействия (внешний/внутренний): Мир, 2017–2022 гг.

Как правило, причины утечек могут быть различными: кибератаки, ошибки в системах безопасности или действия внутренних сотрудников. Независимо от причин утечки информации, последствия этого могут быть катастрофическими. Утечки конфиденциальной информации приводят к потере конкурентного преимущества, нарушению репутации и утрате доверия клиентов и/или партнеров, штрафам, судебным разбирательствам, что в итоге приводит к финансовым потерям.

С целью минимизации последствий от утечек конфиденциальной информации применяются различные методы и средства защиты информации: организационно-правовые и технические. Наиболее полно эти методы приводятся в работе

, в данной работе нас будут интересовать только технические меры защиты информации.

3. Основные результаты

Одним из основных технических средств, используемых для борьбы с утечкой конфиденциальной информации, являются системы выявления таких утечек (Data Leakage Prevention DLP). Данный класс средств предназначен для выявления и блокирования попыток несанкционированной передачи данных за пределы корпоративной сети

. Большинство DLP систем используют лингвистические методы выявления утечек информации. Среди основных их недостатков можно выделить следующие:

- проблема классификации и категорирования конфиденциальной информации;

- отсутствие возможности прогнозирования негативного сценария для принятия своевременных действий для недопущения утечки конфиденциальной информации, как следствие реагирование на утечки происходит постфактум;

- ограничение в создании сложных корреляций, как следствие неспособность противодействовать методам обхода систем контроля утечек конфиденциальной информации со стороны высококвалифицированных нарушителей;

- отсутствие возможности противодействия внешним нарушителям.

В организациях обрабатывается большое количество различной информации. Проблема классификации и категорирования конфиденциальной информации связана с трудоёмкостью процесса определения полного и точного перечня конфиденциальной информации в конкретной организации. Для решения данной проблемы организациями используются автоматизированные системы маркирования конфиденциальной информации, которые помогают организовать процесс создания документов таким образом, что пользователь информационной системы, который создает электронный файл, на этапе сохранения ее определил ее уровень конфиденциальности самостоятельно. В результате определения уровня конфиденциальности в электронном файле проставляется графический объект, обозначающий уровень конфиденциальности, и добавляется невидимый для пользователя набор символов, позволяющие DLP системе в момент передачи документа определить критичность нарушения. Данный подход значительно позволяет упростить задачу категорирования информации, но он не защищает от преднамеренного занижения уровня конфиденциальности документа с чувствительной информацией.

Для борьбы с проблемой совершения преднамеренных нарушений пользователями информационной системы правил информационной безопасности, организациями применяются системы выявления аномального поведения пользователя (UEBA)

. Среди основных недостатков применения технологий поведенческого анализа выделяют:

- наличие ошибок первого и второго рода, т.е. событие может детектироваться системой обнаружения как угроза (угрозой не являясь) или, наоборот, аномальная активность может быть воспринята как легитимная;

- отсутствие в прозрачности в принятии решения о выявлении аномалии самой моделью;

- необходимость постоянной корректировки профиля поведения пользователей;

- низкая эффективность противодействия против отложенных сложных атак и угроз злоупотреблений со стороны инсайдеров, в том числе и против внешнего нарушителя.

Высокую актуальность в организациях в настоящее время приобретает создание ситуационных центров мониторинга событий информационной безопасности (Security Operations Center SOC). Основной целью таких центров является своевременное выявление и предотвращение инцидентов, связанных с внешними нарушителями. В основе SOC используется cистема анализа событий информационной безопасности (Security Information and Event Management – SIEM), которая агрегирует события информационной безопасности от различных источников (межсетевые экраны, антивирусы, системы противодействия сетевым вторжениям, DLP системы, UEBA системы и т.д.) и на основании правил корреляций выявляет подозрительные события в информационных системах. Основной парадигмой в работе SOC является выявление несанкционированных действий злоумышленника на объектах информатизации до момента совершения им негативного события, в том числе компрометации конфиденциальной информации. Проблема данного подхода заключается в том, что в центре внимания сотрудников ситуационного центра находятся информационное объекты и события их возможной компрометации, а не события компрометации конфиденциальной информации. В итоге при недостаточном полном наборе правил корреляций в организациях происходят события утечки конфиденциальной информации до момента выявления компрометации информационного объекта, который эту информацию обрабатывал.

Особую актуальность проблеме утечек информации придает тот факт, что в большинстве случаев конфиденциальность, как свойство информации, крайне сложно, а порой невозможно, восстановить. Например, если пользовательские логины и пароли в информационных системах можно сменить с использованием средств автоматизации за короткий временной период, то информация, содержащая персональные данные, секреты производства или секретные сведения государства, не теряют свою актуальность и ценность на протяжении долгого времени с момента их компрометации. В связи с этим, в задачах выявления утечек конфиденциальной информации необходимо применять проактивные меры, включающие в себя этапы корректного категорирования информации, выявления предпосылок для утечек конфиденциальной информации (изменения в поведении пользователя информационной системы, контексте пользователя, появлении уязвимостей публичных приложений), прогнозирования совершения несанкционированных действий и применения оперативных действий для недопущения негативного события. Для решения ряда из перечисленных задач могут быть использованы методы машинного обучения, которые дополняют корреляционную логику SIEM систем.

4. Обсуждение

В последнее время известно о широком использовании следующих подходов при решении задач выявления утечек конфиденциальной информации с использованием методов машинного обучения:

- анализ потока данных: алгоритмы машинного обучения применяются для анализа потока данных, например, сетевого трафика или журналов системных событий и позволяют обнаруживать аномальные паттерны и поведения, которые могут свидетельствовать о возможной утечке конфиденциальной информации

,
,
;

- анализ поведения пользователей: алгоритмы машинного обучения и искусственного интеллекта используются для анализа поведения пользователей в системе, с целью определения, какие действия могут свидетельствовать о возможной утечке конфиденциальной информации

,
,
;

- моделирование угроз: алгоритмы машинного обучения позволяют моделировать различные угрозы и определять, какие данные могут быть наиболее уязвимыми. Это позволяет компаниям и организациям принимать предупредительные меры и улучшать свои системы безопасности

,
,
;

- анализ содержания данных: алгоритмы машинного обучения помогают производить анализ содержания данных, например, текстовых документов или электронных писем, для обнаружения утечек конфиденциальной информации

,
,
;

- анализ социальных сетей: алгоритмы машинного обучения могут использоваться для анализа социальных сетей и других источников информации

,
;

- мониторинг устройств: алгоритмы машинного обучения успешно применяют для мониторинга устройств, например, мобильных устройств и ноутбуков, что позволяет обнаруживать утечки конфиденциальной информации

,
;

Одним из основных недостатков применения методов машинного обучения при решении задач выявления утечек конфиденциальной информации является неустойчивость применяемых алгоритмов. Данная проблема описана в работе

. Неустойчивость алгоритмов возникает, когда на этапе обучения были достигнуты требуемые показатели работы (включая тестовую и валидационную выборку), а на этапе практической эксплуатации требуемые показатели не достигаются. Согласно результатам работы
процент неудачных проектов в области машинного обучения равен 87%. Применительно к противодействию утечкам конфиденциальной информации, это происходит по следующим причинам:

- отсутствие репрезентативных наборов данных для обучения разрабатываемых алгоритмов;

- репрезентативный набор данных для одной организации, может полностью отличаться от репрезентативного набора другой организации, что затрудняет распространение применения успешных разработок с использованием машинного обучения;

- различающиеся наборы источников данных, т.е. в различных организациях могут быть использованы различные SIEM, DLP системы, что затрудняет разработку универсальных алгоритмов.

Следует отметить, что для противодействия утечкам конфиденциальной информации необходимо ориентироваться в первую очередь не на создание принципиально новых алгоритмов машинного обучения, а на создании универсальной методологии использования существующих алгоритмов применительно к различным источникам данных. В рамках такой методологии необходима:

- разработка единого подхода к представлению данных о событиях информационной безопасности для последующего применения методов машинного обучения;

- создание универсального подхода к применению методов машинного обучения, решающего проблему неустойчивости;

- реализация датацентрического подхода, ставящего конфиденциальную информацию в основу дальнейшего анализа.

5. Заключение

Несмотря на развитие современных методов анализа информации, для специалистов по информационной безопасности остается актуальной проблема выявления утечек конфиденциальной информации. Решение этой проблемы ставит амбициозные цели, направленные на дальнейшее совершенствование подходов к использованию методов машинного обучения в данной проблемной области.

Article metrics

Views:764
Downloads:4
Views
Total:
Views:764