Выявление утечек конфиденциальной информации в информационных системах
Выявление утечек конфиденциальной информации в информационных системах
Аннотация
Целью работы стал аналитический обзор различных технических подходов для решения задач выявления утечек конфиденциальной информации, позволяющих создать более защищенную информационную среду. Обозначены некоторые проблемы защиты конфиденциальной информации с использованием современных средств обеспечения безопасности и представлены возможные направления их решения.
В данной работе рассматриваются такие технические решения, как DLP, UEBA, SIEM системы. Проводится анализ использования методов машинного обучения и алгоритмов искусственного интеллекта, а также описывается проблема, с которой сталкивается большинство проектов, использующие методы машинного обучения.
Предлагаются способы решения проблем методов машинного обучения в решении задач выявления утечек конфиденциальной информации.
1. Введение
Возможные утечки конфиденциальной информации, обрабатываемой в информационных системах, являются актуальной проблемой в настоящее время, несмотря на активное развитие систем защиты информации, направленных на противодействие этому.
Под утечкой конфиденциальной информации понимается такое негативное событие, при котором информация, содержащая ценные сведения, без согласия владельца становится доступной лицу или группе лиц, не имеющих разрешения на доступ к этой информации.
2. Методы и принципы исследования
Рисунок 1 - Число зарегистрированных утечек информации, Мир за 2017-2022
Рисунок 2 - Распределение утечек информации по вектору воздействия (внешний/внутренний): Мир, 2017–2022 гг.
Как правило, причины утечек могут быть различными: кибератаки, ошибки в системах безопасности или действия внутренних сотрудников. Независимо от причин утечки информации, последствия этого могут быть катастрофическими. Утечки конфиденциальной информации приводят к потере конкурентного преимущества, нарушению репутации и утрате доверия клиентов и/или партнеров, штрафам, судебным разбирательствам, что в итоге приводит к финансовым потерям.
С целью минимизации последствий от утечек конфиденциальной информации применяются различные методы и средства защиты информации: организационно-правовые и технические. Наиболее полно эти методы приводятся в работе , в данной работе нас будут интересовать только технические меры защиты информации.
3. Основные результаты
Одним из основных технических средств, используемых для борьбы с утечкой конфиденциальной информации, являются системы выявления таких утечек (Data Leakage Prevention – DLP). Данный класс средств предназначен для выявления и блокирования попыток несанкционированной передачи данных за пределы корпоративной сети . Большинство DLP систем используют лингвистические методы выявления утечек информации. Среди основных их недостатков можно выделить следующие:
- проблема классификации и категорирования конфиденциальной информации;
- отсутствие возможности прогнозирования негативного сценария для принятия своевременных действий для недопущения утечки конфиденциальной информации, как следствие реагирование на утечки происходит постфактум;
- ограничение в создании сложных корреляций, как следствие неспособность противодействовать методам обхода систем контроля утечек конфиденциальной информации со стороны высококвалифицированных нарушителей;
- отсутствие возможности противодействия внешним нарушителям.
В организациях обрабатывается большое количество различной информации. Проблема классификации и категорирования конфиденциальной информации связана с трудоёмкостью процесса определения полного и точного перечня конфиденциальной информации в конкретной организации. Для решения данной проблемы организациями используются автоматизированные системы маркирования конфиденциальной информации, которые помогают организовать процесс создания документов таким образом, что пользователь информационной системы, который создает электронный файл, на этапе сохранения ее определил ее уровень конфиденциальности самостоятельно. В результате определения уровня конфиденциальности в электронном файле проставляется графический объект, обозначающий уровень конфиденциальности, и добавляется невидимый для пользователя набор символов, позволяющие DLP системе в момент передачи документа определить критичность нарушения. Данный подход значительно позволяет упростить задачу категорирования информации, но он не защищает от преднамеренного занижения уровня конфиденциальности документа с чувствительной информацией.
Для борьбы с проблемой совершения преднамеренных нарушений пользователями информационной системы правил информационной безопасности, организациями применяются системы выявления аномального поведения пользователя (UEBA) . Среди основных недостатков применения технологий поведенческого анализа выделяют:
- наличие ошибок первого и второго рода, т.е. событие может детектироваться системой обнаружения как угроза (угрозой не являясь) или, наоборот, аномальная активность может быть воспринята как легитимная;
- отсутствие в прозрачности в принятии решения о выявлении аномалии самой моделью;
- необходимость постоянной корректировки профиля поведения пользователей;
- низкая эффективность противодействия против отложенных сложных атак и угроз злоупотреблений со стороны инсайдеров, в том числе и против внешнего нарушителя.
Высокую актуальность в организациях в настоящее время приобретает создание ситуационных центров мониторинга событий информационной безопасности (Security Operations Center – SOC). Основной целью таких центров является своевременное выявление и предотвращение инцидентов, связанных с внешними нарушителями. В основе SOC используется cистема анализа событий информационной безопасности (Security Information and Event Management – SIEM), которая агрегирует события информационной безопасности от различных источников (межсетевые экраны, антивирусы, системы противодействия сетевым вторжениям, DLP системы, UEBA системы и т.д.) и на основании правил корреляций выявляет подозрительные события в информационных системах. Основной парадигмой в работе SOC является выявление несанкционированных действий злоумышленника на объектах информатизации до момента совершения им негативного события, в том числе компрометации конфиденциальной информации. Проблема данного подхода заключается в том, что в центре внимания сотрудников ситуационного центра находятся информационное объекты и события их возможной компрометации, а не события компрометации конфиденциальной информации. В итоге при недостаточном полном наборе правил корреляций в организациях происходят события утечки конфиденциальной информации до момента выявления компрометации информационного объекта, который эту информацию обрабатывал.
Особую актуальность проблеме утечек информации придает тот факт, что в большинстве случаев конфиденциальность, как свойство информации, крайне сложно, а порой невозможно, восстановить. Например, если пользовательские логины и пароли в информационных системах можно сменить с использованием средств автоматизации за короткий временной период, то информация, содержащая персональные данные, секреты производства или секретные сведения государства, не теряют свою актуальность и ценность на протяжении долгого времени с момента их компрометации. В связи с этим, в задачах выявления утечек конфиденциальной информации необходимо применять проактивные меры, включающие в себя этапы корректного категорирования информации, выявления предпосылок для утечек конфиденциальной информации (изменения в поведении пользователя информационной системы, контексте пользователя, появлении уязвимостей публичных приложений), прогнозирования совершения несанкционированных действий и применения оперативных действий для недопущения негативного события. Для решения ряда из перечисленных задач могут быть использованы методы машинного обучения, которые дополняют корреляционную логику SIEM систем.
4. Обсуждение
В последнее время известно о широком использовании следующих подходов при решении задач выявления утечек конфиденциальной информации с использованием методов машинного обучения:
- анализ потока данных: алгоритмы машинного обучения применяются для анализа потока данных, например, сетевого трафика или журналов системных событий и позволяют обнаруживать аномальные паттерны и поведения, которые могут свидетельствовать о возможной утечке конфиденциальной информации , , ;
- анализ поведения пользователей: алгоритмы машинного обучения и искусственного интеллекта используются для анализа поведения пользователей в системе, с целью определения, какие действия могут свидетельствовать о возможной утечке конфиденциальной информации , , ;
- моделирование угроз: алгоритмы машинного обучения позволяют моделировать различные угрозы и определять, какие данные могут быть наиболее уязвимыми. Это позволяет компаниям и организациям принимать предупредительные меры и улучшать свои системы безопасности , , ;
- анализ содержания данных: алгоритмы машинного обучения помогают производить анализ содержания данных, например, текстовых документов или электронных писем, для обнаружения утечек конфиденциальной информации , , ;
- анализ социальных сетей: алгоритмы машинного обучения могут использоваться для анализа социальных сетей и других источников информации , ;
- мониторинг устройств: алгоритмы машинного обучения успешно применяют для мониторинга устройств, например, мобильных устройств и ноутбуков, что позволяет обнаруживать утечки конфиденциальной информации , ;
Одним из основных недостатков применения методов машинного обучения при решении задач выявления утечек конфиденциальной информации является неустойчивость применяемых алгоритмов. Данная проблема описана в работе . Неустойчивость алгоритмов возникает, когда на этапе обучения были достигнуты требуемые показатели работы (включая тестовую и валидационную выборку), а на этапе практической эксплуатации требуемые показатели не достигаются. Согласно результатам работы процент неудачных проектов в области машинного обучения равен 87%. Применительно к противодействию утечкам конфиденциальной информации, это происходит по следующим причинам:
- отсутствие репрезентативных наборов данных для обучения разрабатываемых алгоритмов;
- репрезентативный набор данных для одной организации, может полностью отличаться от репрезентативного набора другой организации, что затрудняет распространение применения успешных разработок с использованием машинного обучения;
- различающиеся наборы источников данных, т.е. в различных организациях могут быть использованы различные SIEM, DLP системы, что затрудняет разработку универсальных алгоритмов.
Следует отметить, что для противодействия утечкам конфиденциальной информации необходимо ориентироваться в первую очередь не на создание принципиально новых алгоритмов машинного обучения, а на создании универсальной методологии использования существующих алгоритмов применительно к различным источникам данных. В рамках такой методологии необходима:
- разработка единого подхода к представлению данных о событиях информационной безопасности для последующего применения методов машинного обучения;
- создание универсального подхода к применению методов машинного обучения, решающего проблему неустойчивости;
- реализация датацентрического подхода, ставящего конфиденциальную информацию в основу дальнейшего анализа.
5. Заключение
Несмотря на развитие современных методов анализа информации, для специалистов по информационной безопасности остается актуальной проблема выявления утечек конфиденциальной информации. Решение этой проблемы ставит амбициозные цели, направленные на дальнейшее совершенствование подходов к использованию методов машинного обучения в данной проблемной области.