Что такое длп. Как заставить DLP-систему работать. Система защиты от утечек конфиденциальных данных

В наши дни можно часто услышать о такой технологии, как DLP-системы. Что это такое, и где это используется? Это программное обеспечение, предназначенное для предотвращения потери данных путем обнаружения возможных нарушений при их отправке и фильтрации. Кроме того, такие сервисы осуществляют мониторинг, обнаружение и блокирование при ее использовании, движении (сетевом трафике), а также хранении.

Как правило, утечка конфиденциальных данных происходит по причине работы с техникой неопытных пользователей либо является результатом злонамеренных действий. Такая информация в виде частных или корпоративных сведений, объектов интеллектуальной собственности (ИС), финансовой или медицинской информации, сведений кредитных карт и тому подобное нуждается в усиленных мерах защиты, которые могут предложить современные информационные технологии.

Термины «потеря данных» и «утечка данных» связаны между собой и часто используются как синонимы, хотя они несколько отличаются. Случаи утери информации превращаются в ее утечку тогда, когда источник, содержащий конфиденциальные сведения, пропадает и впоследствии оказывается у несанкционированной стороны. Тем не менее утечка данных возможна без их потери.

Категории DLP

Технологические средства, используемые для борьбы с утечкой данных, можно разделить на следующие категории: стандартные меры безопасности, интеллектуальные (продвинутые) меры, контроль доступа и шифрование, а также специализированные DLP-системы (что это такое - подробно описано ниже).

Стандартные меры

Такие стандартные меры безопасности, как системы обнаружения вторжений (IDS) и антивирусное программное обеспечение, представляют собой обычные доступные механизмы, которые охраняют компьютеры от аутсайдера, а также инсайдерских атак. Подключение брандмауэра, к примеру, исключает доступ к внутренней сети посторонних лиц, а система обнаружения вторжений обнаруживает попытки проникновения. Внутренние атаки возможно предотвратить путем проверки антивирусом, обнаруживающих установленных на ПК, которые отправляют конфиденциальную информацию, а также за счет использования сервисов, которые работают в архитектуре клиент-сервер без каких-либо личных или конфиденциальных данных, хранящихся на компьютере.

Дополнительные меры безопасности

Дополнительные меры безопасности используют узкоспециализированные сервисы и временные алгоритмы для обнаружения ненормального доступа к данным (т. е. к базам данных либо информационно-поисковых системам) или ненормального обмена электронной почтой. Кроме того, такие современные информационные технологии выявляют программы и запросы, поступающие с вредоносными намерениями, и осуществляют глубокие проверки компьютерных систем (например, распознавание нажатий клавиш или звуков динамика). Некоторые такие сервисы способны даже проводить мониторинг активности пользователей для обнаружения необычного доступа к данным.

Специально разработанные DLP-системы - что это такое?

Разработанные для защиты информации DLP-решения служат для обнаружения и предотвращения несанкционированных попыток копировать или передавать конфиденциальные данные (преднамеренно или непреднамеренно) без разрешения или доступа, как правило, со стороны пользователей, которые имеют право доступа к конфиденциальным данным.

Для того чтобы классифицировать определенную информацию и регулировать доступ к ней, эти системы используют такие механизмы, как точное соответствие данных, структурированная дактилоскопия, прием правил и регулярных выражений, опубликований кодовых фраз, концептуальных определений и ключевых слов. Типы и сравнение DLP-систем можно представить следующим образом.

Network DLP (также известная как анализ данных в движении или DiM)

Как правило, она представляет собой аппаратное решение либо программное обеспечение, которое устанавливается в точках сети, исходящих вблизи периметра. Она анализирует сетевой трафик для обнаружения конфиденциальных данных, отправляемых в нарушение

Endpoint DLP (данные при использовании )

Такие системы функционируют на рабочих станциях конечных пользователей или серверов в различных организациях.

Как и в других сетевых системах, конечная точка может быть обращена как к внутренним, так и к внешним связям и, следовательно, может быть использована для контроля потока информации между типами либо группами пользователей (например, «файерволы»). Они также способны осуществлять контроль за электронной почтой и обменом мгновенными сообщениями. Это происходит следующим образом - прежде, чем сообщения будут загружены на устройство, они проверяются сервисом, и при содержании в них неблагоприятного запроса они блокируются. В результате они становятся неоправленными и не подпадают под действие правил хранения данных на устройстве.

DLP-система (технология) имеет преимущество в том, что она может контролировать и управлять доступом к устройствам физического типа (к примеру, мобильные устройства с возможностями хранения данных), а также иногда получать доступ к информации до ее шифрования.

Некоторые системы, функционирующие на основе конечных точек, также могут обеспечить контроль приложений, чтобы блокировать попытки передачи конфиденциальной информации, а также обеспечить незамедлительную обратную связь с пользователем. Вместе с тем они имеют недостаток в том, что они должны быть установлены на каждой рабочей станции в сети, и не могут быть использованы на мобильных устройствах (например, на сотовых телефонах и КПК) или там, где они не могут быть практически установлены (например, на рабочей станции в интернет-кафе). Это обстоятельство необходимо учитывать, делая выбор DLP-системы для каких-либо целей.

Идентификация данных

DLP-системы включают в себя несколько методов, направленных на выявление секретной либо конфиденциальной информации. Иногда этот процесс путают с расшифровкой. Однако идентификация данных представляет собой процесс, посредством которого организации используют технологию DLP, чтобы определить, что искать (в движении, в состоянии покоя или в использовании).

Данные при этом классифицируются как структурированные или неструктурированные. Первый тип хранится в фиксированных полях внутри файла (например, в виде электронных таблиц), в то время как неструктурированный относится к свободной форме текста (в форме текстовых документов или PDF-файлов).

По оценкам специалистов, 80% всех данных - неструктурированные. Соответственно, 20% - структурированные. основывается на контент-анализе, ориентированном на структурированную информацию и контекстный анализ. Он делается по месту создания приложения или системы, в которой возникли данные. Таким образом, ответом на вопрос «DLP-системы - что это такое?» послужит определение алгоритма анализа информации.

Используемые методы

Методы описания конфиденциального содержимого на сегодняшний день многочисленны. Их можно разделить на две категории: точные и неточные.

Точные методы - это те, которые связаны с анализом контента и практически сводят к нулю ложные положительные ответы на запросы.

Все остальные являются неточными и могут включать в себя: словари, ключевые слова, регулярные выражения, расширенные регулярные выражения, мета-теги данных, байесовский анализ, статистический анализ и т. д.

Эффективность анализа напрямую зависит от его точности. DLP-система, рейтинг которой высок, имеет высокие показатели по данному параметру. Точность идентификации DLP имеет важное значение для избегания ложных срабатываний и негативных последствий. Точность может зависеть от многих факторов, некоторые из которых могут быть ситуативными или технологическими. Тестирование точности может обеспечить надежность работы DLP-системы - практически нулевое количество ложных срабатываний.

Обнаружение и предотвращение утечек информации

Иногда источник распределения данных делает конфиденциальную информацию доступной для третьих лиц. Через некоторое время часть ее, вероятнее всего, обнаружится в несанкционированном месте (например, в интернете или на ноутбуке другого пользователя). DLP-системы, цена которых предоставляется разработчиками по запросу и может составлять от нескольких десятков до нескольких тысяч рублей, должны затем исследовать, как просочились данные - от одного или нескольких третьих лиц, было ли это независимо друг от друга, не обеспечивалась ли утечка какими-то другими средствами и т. д.

Данные в покое

«Данные в состоянии покоя» относятся к старой архивной информации, хранящейся на любом из жестких дисков клиентского ПК, на удаленном файловом сервере, на диске Также это определение относится к данным, хранящимся в системе резервного копирования (на флешках или компакт-дисках). Эти сведения представляют большой интерес для предприятий и государственных учреждений просто потому, что большой объем данных содержится неиспользованным в устройствах памяти, и более вероятно, что доступ к ним может быть получен неуполномоченными лицами за пределами сети.

Если быть достаточно последовательным в определениях, то можно сказать, что информационная безопасность началась именно с появления DLP-систем. До этого все продукты, которые занимались "информационной безопасностью", на самом деле защищали не информацию, а инфраструктуру - места хранения, передачи и обработки данных. Компьютер, приложение или канал, в которых находится, обрабатывается или передается конфиденциальная информация, защищаются этими продуктами точно так же, как и инфраструктура, в которой обращается совершенно безобидная информация. То есть именно с появлением DLP-продуктов информационные системы научились наконец-то отличать конфиденциальную информацию от неконфиденциальной. Возможно, с встраиванием DLP-технологий в информационную инфраструктуру компании смогут сильно сэкономить на защите информации - например, использовать шифрование только в тех случаях, когда хранится или передается конфиденциальная информация, и не шифровать информацию в других случаях.

Однако это дело будущего, а в настоящем данные технологии используются в основном для защиты информации от утечек. Технологии категоризации информации составляют ядро DLP-систем. Каждый производитель считает свои методы детектирования конфиденциальной информации уникальными, защищает их патентами и придумывает для них специальные торговые марки. Ведь остальные, отличные от этих технологий, элементы архитектуры (перехватчики протоколов, парсеры форматов, управление инцидентами и хранилища данных) у большинства производителей идентичны, а у крупных компаний даже интегрированы с другими продуктами безопасности информационной инфраструктуры. В основном для категоризации данных в продуктах по защите корпоративной информации от утечек используются две основных группы технологий - лингвистический (морфологический, семантический) анализ и статистические методы (Digital Fingerprints, Document DNA, антиплагиат). Каждая технология имеет свои сильные и слабые стороны, которые определяют область их применения.

Лингвистический анализ

Использование стоп-слов ("секретно", "конфиденциально" и тому подобных) для блокировки исходящих электронных сообщений в почтовых серверах можно считать прародителем современных DLPсистем. Конечно, от злоумышленников это не защищает - удалить стоп-слово, чаще всего вынесенное в отдельный гриф документа, не составляет труда, при этом смысл текста нисколько не изменится.

Толчок в разработке лингвистических технологий был сделан в начале этого века создателями email-фильтров. Прежде всего, для защиты электронной почты от спама. Это сейчас в антиспамовских технологиях преобладают репутационные методы, а в начале века шла настоящая лингвистическая война между снарядом и броней - спамерами и антиспамерами. Помните простейшие методы для обмана фильтров, базирующихся на стоп-словах? Замена букв на похожие буквы из других кодировок или цифры, транслит, случайным образом расставленные пробелы, подчеркивания или переходы строк в тексте. Антиспамеры довольно быстро научились бороться с такими хитростями, но тогда появился графический спам и прочие хитрые разновидности нежелательной корреспонденции.

Однако использовать антиспамерские технологии в DLP-продуктах без серьезной доработки невозможно. Ведь для борьбы со спамом достаточно делить информационный поток на две категории: спам и не спам. Метод Байеса, который используется при детектировании спама, дает только бинарный результат: "да" или "нет". Для защиты корпоративных данных от утечек этого недостаточно - нельзя просто делить информацию на конфиденциальную и неконфиденциальную. Нужно уметь классифицировать информацию по функциональной принадлежности (финансовая, производственная, технологическая, коммерческая, маркетинговая), а внутри классов - категоризировать ее по уровню доступа (для свободного распространения, для ограниченного доступа, для служебного использования, секретная, совершенно секретная и так далее).

Большинство современных систем лингвистического анализа используют не только контекстный анализ (то есть в каком контексте, в сочетании с какими другими словами используется конкретный термин), но и семантический анализ текста. Эти технологии работают тем эффективнее, чем больше анализируемый фрагмент. На большом фрагменте текста точнее проводится анализ, с большей вероятностью определяется категория и класс документа. При анализе же коротких сообщений (SMS, интернет-пейджеры) ничего лучшего, чем стоп-слова, до сих пор не придумано. Автор столкнулся с такой задачей осенью 2008 года, когда с рабочих мест многих банков через мессенджеры пошли в Сеть тысячи сообщений типа "нас сокращают", "отберут лицензию", "отток вкладчиков", которые нужно было немедленно заблокировать у своих клиентов.

Достоинства технологии

Достоинства лингвистических технологий в том, что они работают напрямую с содержанием документов, то есть им не важно, где и как был создан документ, какой на нем гриф и как называется файл - документы защищаются немедленно. Это важно, например, при обработке черновиков конфиденциальных документов или для защиты входящей документации. Если документы, созданные и использующиеся внутри компании, еще как-то можно специфическим образом именовать, грифовать или метить, то входящие документы могут иметь не принятые в организации грифы и метки. Черновики (если они, конечно, не создаются в системе защищенного документооборота) тоже могут уже содержать конфиденциальную информацию, но еще не содержать необходимых грифов и меток.

Еще одно достоинство лингвистических технологий - их обучаемость. Если ты хоть раз в жизни нажимал в почтовом клиенте кнопку "Не спам", то уже представляешь клиентскую часть системы обучения лингвистического движка. Замечу, что тебе совершенно не нужно быть дипломированным лингвистом и знать, что именно изменится в базе категорий - достаточно указать системе ложное срабатывание, все остальное она сделает сама.

Третьим достоинством лингвистических технологий является их масштабируемость. Скорость обработки информации пропорциональна ее количеству и абсолютно не зависит от количества категорий. До недавнего времени построение иерархической базы категорий (исторически ее называют БКФ - база контентной фильтрации, но это название уже не отражает настоящего смысла) выглядело неким шаманством профессиональных лингвистов, поэтому настройку БКФ можно было смело отнести к недостаткам. Но с выходом в 2010 сразу нескольких продуктов-"автолингвистов" построение первичной базы категорий стало предельно простым - системе указываются места, где хранятся документы определенной категории, и она сама определяет лингвистические признаки этой категории, а при ложных срабатываниях - самостоятельно обучается. Так что теперь к достоинствам лингвистических технологий добавилась простота настройки.

И еще одно достоинство лингвистических технологий, которое хочется отметить в статье - возможность детектировать в информационных потоках категории, не связанные с документами, находящимися внутри компании. Инструмент для контроля содержимого информационных потоков может определять такие категории, как противоправная деятельность (пиратство, распространение запрещенных товаров), использование инфраструктуры компании в собственных целях, нанесение вреда имиджу компании (например, распространение порочащих слухов) и так далее.

Недостатки технологий

Основным недостатком лингвистических технологий является их зависимость от языка. Невозможно использовать лингвистический движок, разработанный для одного языка, в целях анализа другого. Это было особенно заметно при выходе на российский рынок американских производителей - они были не готовы столкнуться с российским словообразованием и наличием шести кодировок. Недостаточно было перевести на русский язык категории и ключевые слова - в английском языке словообразование довольно простое, а падежи выносятся в предлоги, то есть при изменении падежа меняется предлог, а не само слово. Большинство существительных в английском языке становятся глаголами без изменений слова. И так далее. В русском все не так - один корень может породить десятки слов в разных частях речи.

В Германии американских производителей лингвистических технологий встретила другая проблема - так называемые "компаунды", составные слова. В немецком языке принято присоединять определения к главному слову, в результате чего получаются слова, иногда состоящие из десятка корней. В английском языке такого нет, там слово - последовательность букв между двумя пробелами, соответственно английский лингвистический движок оказался неспособен обработать незнакомые длинные слова.

Справедливости ради следует сказать, что сейчас эти проблемы во многом американскими производителями решены. Пришлось довольно сильно переделать (а иногда и писать заново) языковой движок, но большие рынки России и Германии наверняка того стоят. Также сложно обрабатывать лингвистическими технологиями мультиязычные тексты. Однако с двумя языками большинство движков все-таки справляются, обычно это национальный язык + английский - для большинства бизнес-задач этого вполне достаточно. Хотя автору встречались конфиденциальные тексты, содержащие, например, одновременно казахский, русский и английский, но это скорее исключение, чем правило.

Еще одним недостатком лингвистических технологий для контроля всего спектра корпоративной конфиденциальной информации является то, что не вся конфиденциальная информация находится в виде связных текстов. Хотя в базах данных информация и хранится в текстовом виде, и нет никаких проблем извлечь текст из СУБД, полученная информация чаще всего содержит имена собственные - ФИО, адреса, названия компаний, а также цифровую информацию - номера счетов, кредитных карт, их баланс и прочее. Обработка подобных данных с помощью лингвистики много пользы не принесет. То же самое можно сказать о форматах CAD/CAM, то есть чертежах, в которых зачастую содержится интеллектуальная собственность, программных кодах и медийных (видео/аудио) форматах - какие-то тексты из них можно извлечь, но их обработка также неэффективна. Еще года три назад это касалось и отсканированных текстов, но лидирующие производители DLP-систем оперативно добавили оптическое распознавание и справились с этой проблемой.

Но самым большим и наиболее часто критикуемым недостатком лингвистических технологий является все-таки вероятностный подход к категоризации. Если ты когда-нибудь читал письмо с категорией "Probably SPAM", то поймешь, о чем я. Если такое творится со спамом, где всего две категории (спам/не спам), можно себе представить, что будет, когда в систему загрузят несколько десятков категорий и классов конфиденциальности. Хотя обучением системы можно достигнуть 92-95% точности, для большинства пользователей это означает, что каждое десятое или двадцатое перемещение информации будет ошибочно причислено не к тому классу со всеми вытекающими для бизнеса последствиями (утечка или прерывание легитимного процесса).

Обычно не принято относить к недостаткам сложность разработки технологии, но не упомянуть о ней нельзя. Разработка серьезного лингвистического движка с категоризацией текстов более чем по двум категориям - наукоемкий и довольно сложный технологически процесс. Прикладная лингвистика - быстро развивающаяся наука, получившая сильный толчок в развитии с распространением интернет-поиска, но сегодня на рынке присутствуют единицы работоспособных движков категоризации: для русского языка их всего два, а для некоторых языков их просто еще не разработали. Поэтому на DLP-рынке существует лишь пара компаний, которые способны в полной мере категоризировать информацию "на лету". Можно предположить, что когда рынок DLP увеличится до многомиллиардных размеров, на него с легкостью выйдет Google. С собственным лингвистическим движком, оттестированным на триллионах поисковых запросов по тысячам категорий, ему не составит труда сразу отхватить серьезный кусок этого рынка.

Статистические методы

Задача компьютерного поиска значимых цитат (почему именно "значимых" - немного позже) заинтересовала лингвистов еще в 70-х годах прошлого века, если не раньше. Текст разбивался на куски определенного размера, с каждого из которых снимался хеш. Если некоторая последовательность хешей встречалась в двух текстах одновременно, то с большой вероятностью тексты в этих областях совпадали.

Побочным продуктом исследований в этой области является, например, "альтернативная хронология" Анатолия Фоменко, уважаемого ученого, который занимался "корреляциями текстов" и однажды сравнил русские летописи разных исторических периодов. Удивившись, насколько совпадают летописи разных веков (более чем на 60%), в конце 70-х он выдвинул теорию, что наша хронология на несколько веков короче. Поэтому, когда какая-то выходящая на рынок DLP-компания предлагает "революционную технологию поиска цитат", можно с большой вероятностью утверждать, что ничего, кроме новой торговой марки, компания не создала.

Статистические технологии относятся к текстам не как к связной последовательности слов, а как к произвольной последовательности символов, поэтому одинаково хорошо работают с текстами на любых языках. Поскольку любой цифровой объект - хоть картинка, хоть программа - тоже последовательность символов, то те же методы могут применяться для анализа не только текстовой информации, но и любых цифровых объектов. И если совпадают хеши в двух аудиофайлах - наверняка в одном из них содержится цитата из другого, поэтому статистические методы являются эффективными средствами защиты от утечки аудио и видео, активно применяющиеся в музыкальных студиях и кинокомпаниях.

Самое время вернуться к понятию "значимая цитата". Ключевой характеристикой сложного хеша, снимаемого с защищаемого объекта (который в разных продуктах называется то Digital Fingerprint, то Document DNA), является шаг, с которым снимается хеш. Как можно понять из описания, такой "отпечаток" является уникальной характеристикой объекта и при этом имеет свой размер. Это важно, поскольку если снять отпечатки с миллионов документов (а это объем хранилища среднего банка), то для хранения всех отпечатков понадобится достаточное количество дискового пространства. От шага хеша зависит размер такого отпечатка - чем меньше шаг, тем больше отпечаток. Если снимать хеш с шагом в один символ, то размер отпечатка превысит размер самого образца. Если для уменьшения "веса" отпечатка увеличить шаг (например, 10 000 символов), то вместе с этим увеличивается вероятность того, что документ, содержащий цитату из образца длиной в 9 900 символов, будет конфиденциальным, но при этом проскочит незаметно.

С другой стороны, если для увеличения точности детекта брать очень мелкий шаг, несколько символов, то можно увеличить количество ложных срабатываний до неприемлемой величины. В терминах текста это означает, что не стоит снимать хеш с каждой буквы - все слова состоят из букв, и система будет принимать наличие букв в тексте за содержание цитаты из текста-образца. Обычно производители сами рекомендуют некоторый оптимальный шаг снятия хешей, чтобы размер цитаты был достаточный и при этом вес самого отпечатка был небольшой - от 3% (текст) до 15% (сжатое видео). В некоторых продуктах производители позволяют менять размер значимости цитаты, то есть увеличивать или уменьшать шаг хеша.

Достоинства технологии

Как можно понять из описания, для детектирования цитаты нужен объект-образец. И статистические методы могут с хорошей точностью (до 100%) сказать, есть в проверяемом файле значимая цитата из образца или нет. То есть система не берет на себя ответственность за категоризацию документов - такая работа полностью лежит на совести того, кто категоризировал файлы перед снятием отпечатков. Это сильно облегчает защиту информации в случае, если на предприятии в некотором месте (местах) хранятся нечасто изменяющиеся и уже категоризированные файлы. Тогда достаточно с каждого из этих файлов снять отпечаток, и система будет, в соответствии с настройками, блокировать пересылку или копирование файлов, содержащих значимые цитаты из образцов.

Независимость статистических методов от языка текста и нетекстовой информации - тоже неоспоримое преимущество. Они хороши при защите статических цифровых объектов любого типа - картинок, аудио/видео, баз данных. Про защиту динамических объектов я расскажу в разделе "недостатки".

Недостатки технологии

Как и в случае с лингвистикой, недостатки технологии - обратная сторона достоинств. Простота обучения системы (указал системе файл, и он уже защищен) перекладывает на пользователя ответственность за обучение системы. Если вдруг конфиденциальный файл оказался не в том месте либо не был проиндексирован по халатности или злому умыслу, то система его защищать не будет. Соответственно, компании, заботящиеся о защите конфиденциальной информации от утечки, должны предусмотреть процедуру контроля того, как индексируются DLP-системой конфиденциальные файлы.

Еще один недостаток - физический размер отпечатка. Автор неоднократно видел впечатляющие пилотные проекты на отпечатках, когда DLP-система со 100% вероятностью блокирует пересылку документов, содержащих значимые цитаты из трехсот документов-образцов. Однако через год эксплуатации системы в боевом режиме отпечаток каждого исходящего письма сравнивается уже не с тремя сотнями, а с миллионами отпечатков-образцов, что существенно замедляет работу почтовой системы, вызывая задержки в десятки минут.

Как я и обещал выше, опишу свой опыт по защите динамических объектов с помощью статистических методов. Время снятия отпечатка напрямую зависит от размера файла и его формата. Для текстового документа типа этой статьи это занимает доли секунды, для полуторачасового MP4-фильма - десятки секунд. Для редкоизменяемых файлов это не критично, но если объект меняется каждую минуту или даже секунду, то возникает проблема: после каждого изменения объекта с него нужно снять новый отпечаток... Код, над которым работает программист, еще не самая большая сложность, гораздо хуже с базами данных, используемыми в биллинге, АБС или call-центрах. Если время снятия отпечатка больше, чем время неизменности объекта, то задача решения не имеет. Это не такой уж и экзотический случай - например, отпечаток базы данных, хранящей номера телефонов клиентов федерального сотового оператора, снимается несколько дней, а меняется ежесекундно. Поэтому, когда DLP-вендор утверждает, что его продукт может защитить вашу базу данных, мысленно добавляйте слово "квазистатическую".

Единство и борьба противоположностей

Как видно из предыдущего раздела статьи, сила одной технологии проявляется там, где слаба другая. Лингвистике не нужны образцы, она категоризирует данные на лету и может защищать информацию, с которой случайно или умышленно не был снят отпечаток. Отпечаток дает лучшую точность и поэтому предпочтительнее для использования в автоматическом режиме. Лингвистика отлично работает с текстами, отпечатки - с другими форматами хранения информации.

Поэтому большинство компаний-лидеров используют в своих разработках обе технологии, при этом одна из них является основной, а другая - дополнительной. Это связано с тем, что изначально продукты компании использовали только одну технологию, в которой компания продвинулась дальше, а затем, по требованию рынка, была подключена вторая. Так, например, ранее InfoWatch использовал только лицензированную лингвистическую технологию Morph-OLogic, а Websense - технологию PreciseID, относящуюся к категории Digital Fingerprint, но сейчас компании используют оба метода. В идеале использовать две эти технологии нужно не параллельно, а последовательно. Например, отпечатки лучше справятся с определением типа документа - договор это или балансовая ведомость, например. Затем можно подключать уже лингвистическую базу, созданную специально для этой категории. Это сильно экономит вычислительные ресурсы.

За пределами статьи остались еще несколько типов технологий, используемых в DLP-продуктах. К таким относятся, например, анализатор структур, позволяющий находить в объектах формальные структуры (номера кредитных карт, паспортов, ИНН и так далее), которые невозможно детектировать ни с помощью лингвистики, ни с помощью отпечатков. Также не раскрыта тема разного типа меток - от записей в атрибутных полях файла или просто специального наименования файлов до специальных криптоконтейнеров. Последняя технология отживает свое, поскольку большинство производителей предпочитает не изобретать велосипед самостоятельно, а интегрироваться с производителями DRM-систем, такими как Oracle IRM или Microsoft RMS.

DLP-продукты - быстроразвивающаяся отрасль информационной безопасности, у некоторых производителей новые версии выходят очень часто, более одного раза в год. С нетерпением ждем появления новых технологий анализа корпоративного информационного поля для увеличения эффективности защиты конфиденциальной информации.

Предлагаем ряд маркеров, которые помогут выжать максимум из любой системы DLP.

DLP -системы: что это такое

Напомним, что DLP-системы (Data Loss/Leak Prevention) позволяют контролировать все каналы сетевой коммуникации компании (почта, интернет, системы мгновенных сообщений, флешки, принтеры и т д.). Защита от утечки информации достигается за счет того, что на все компьютеры сотрудников ставятся агенты, которые собирают информацию и передают ее на сервер. Порой информация собирается через шлюз, с использованием SPAN-технологий. Информация анализируется, после чего системой или офицером безопасности принимаются решения по инциденту.

Итак, в вашей компании прошло внедрение DLP-системы. Какие шаги необходимо предпринять, чтобы система заработала эффективно?

1. Корректно настроить правила безопасности

Представим, что в системе, обслуживающей 100 компьютеров, создано правило «Фиксировать все переписки со словом «договор"». Такое правило спровоцирует огромное число инцидентов, в котором может затеряться настоящая утечка.

Кроме того, не каждая компания может позволить себе содержать целый штат сотрудников, отслеживающих инциденты.

Повысить коэффициент полезности правил поможет инструментарий по созданию эффективных правил и отслеживанию результатов их работы. В каждой DLP-системе есть функционал, который позволяет это сделать.

В целом методология предполагает анализ накопленной базы инцидентов и создание различных комбинаций правил, которые в идеале приводят к появлению 5-6 действительно неотложных инцидентов в день.

2. Актуализировать правила безопасности с определенной периодичностью

Резкое снижение или увеличение числа инцидентов — показатель того, что требуется корректировка правил. Причины могут быть в том, что правило потеряло актуальность (пользователи перестали обращаться к определенным файлам) либо сотрудники усвоили правило и больше не совершают действий, запрещенных системой (DLP — обучающая система). Однако практика показывает, что если одно правило усвоено, то в соседнем месте потенциальные риски утечки возросли.

Также следует обращать внимание на сезонность в работе предприятия. В течение года ключевые параметры, связанные со спецификой работы компании, могут меняться. Например, для оптового поставщика малой техники весной будут актуальны велосипеды, а осенью — снегокаты.

3. Продумать алгоритм реагирования на инциденты

Есть несколько подходов к реагированию на инциденты. При тестировании и обкатке DLP-систем чаще всего людей не оповещают об изменениях. За участниками инцидентов лишь наблюдают. При накоплении критической массы с ними общается представитель отдела безопасности или отдела кадров. В дальнейшем часто работу с пользователями отдают на откуп представителям отдела безопасности. Возникают мини-конфликты, в коллективе накапливается негатив. Он может выплеснуться в намеренном вредительстве сотрудников по отношению к компании. Важно соблюдать баланс между требованием дисциплины и поддержанием здоровой атмосферы в коллективе.

4. Проверить работу режима блокировки

Существует два режима реагирования на инцидент в системе — фиксация и блокировка. Если каждый факт пересылки письма или прикрепления вложенного файла на флэшку блокируется, это создает проблемы для пользователя. Часто сотрудники атакуют системного администратора просьбами разблокировать часть функций, руководство также может быть недовольно такими настройками. В итоге система DLP и компания получают негатив, система дискредитируется и демаскируется.

5. Проверить, введен ли режим коммерческой тайны

Дает возможность сделать определенную информацию конфиденциальной, а также обязует любое лицо, знающее об этом, нести полную юридическую ответственность за ее разглашение. В случае серьезной утечки информации при действующем на предприятии режиме коммерческой тайны с нарушителя можно взыскать сумму фактического и морального ущерба через суд в соответствии с 98-ФЗ «О коммерческой тайне».

Надеемся, что данные советы помогут снизить число непреднамеренных утечек в компаниях, ведь именно с ними призваны успешно бороться системы DLP. Однако не стоит забывать о комплексной системе информационной безопасности и о том, что намеренные утечки информации требуют отдельного пристального внимания. Существуют современные решения, которые позволяют дополнить функционал систем DLP и значительно снизить риск намеренных утечек. Например, один из разработчиков предлагает интересную технологию — при подозрительно частом обращении к конфиденциальным файлам автоматически включается веб-камера и начинает вести запись. Именно эта система позволила зафиксировать, как незадачливый похититель активно делал снимки экрана с помощью мобильной фотокамеры.

Олег Нечеухин , эксперт по защите информационных систем, «Контур.Безопасность»

28.01.2014 Сергей Кораблев

Выбор любого продукта корпоративного уровня является для технических специалистов и сотрудников, принимающих решения, задачей нетривиальной. Выбор системы предотвращения утечек данных Data Leak Protection (DLP) – еще сложнее. Отсутствие единой понятийной системы, регулярных независимых сравнительных исследований и сложность самих продуктов вынуждают потребителей заказывать у производителей пилотные проекты и самостоятельно проводить многочисленные тестирования, определяя круг собственных потребностей и соотнося их с возможностями проверяемых систем

Подобный поход, безусловно, правильный. Взвешенное, а в некоторых случаях даже выстраданное решение упрощает дальнейшее внедрение и позволяет избежать разочарования при эксплуатации конкретного продукта. Однако процесс принятия решений в данном случае может затягиваться если не на годы, то на многие месяцы. Кроме того, постоянное расширение рынка, появление новых решений и производителей еще более усложняют задачу не только выбора продукта для внедрения, но и создание предварительного шорт-листа подходящих DLP-систем. В таких условиях актуальные обзоры DLP-систем имеют несомненную практическую ценность для технических специалистов. Стоит ли включать конкретное решение в список для тестирования или оно будет слишком сложным для внедрения в небольшой организации? Может ли решение быть масштабировано на компанию из 10 тыс. сотрудников? Сможет ли DLP-система контролировать важные для бизнеса CAD-файлы? Открытое сравнение не заменит тщательного тестирования, но поможет ответить на базовые вопросы, возникающие на начальном этапе работ по выбору DLP.

Участники

В качестве участников были выбраны наиболее популярные (по версии аналитического центра Anti-Malware.ru на середину 2013 года) на российском рынке информационной безопасности DLP-системы компаний InfoWatch, McAfee, Symantec, Websense, Zecurion и «Инфосистем Джет».

Для анализа использовались коммерчески доступные на момент подготовки обзора версии DLP-систем, а также документация и открытые обзоры продуктов.

Критерии сравнения DLP-систем выбирались, исходя из потребностей компаний различного размера и разных отраслей. Под основной задачей DLP-систем подразумевается предотвращение утечек конфиденциальной информации по различным каналам.

Примеры продуктов этих компаний представлены на рисунках 1–6.


Рисунок 3. Продукт компании Symantec

Рисунок 4. Продукт компании InfoWatch

Рисунок 5. Продукт компании Websense

Рисунок 6. Продукт компании McAfee

Режимы работы

Два основных режима работы DLP-систем – активный и пассивный. Активный – обычно основной режим работы, при котором происходит блокировка действий, нарушающих политики безопасности, например отправка конфиденциальной информации на внешний почтовый ящик. Пассивный режим чаще всего используется на этапе настройки системы для проверки и корректировки настроек, когда высока доля ложных срабатываний. В этом случае нарушения политик фиксируются, но ограничения на перемещение информации не налагаются (таблица 1).


В данном аспекте все рассматриваемые системы оказались равнозначны. Каждая из DLP умеет работать как в активном, так и в пассивном режимах, что дает заказчику определенную свободу. Не все компании готовы начать эксплуатацию DLP сразу в режиме блокировки – это чревато нарушением бизнес-процессов, недовольством со стороны сотрудников контролируемых отделов и претензиями (в том числе обоснованными) со стороны руководства.

Технологии

Технологии детектирования позволяют классифицировать информацию, которая передается по электронным каналам и выявлять конфиденциальные сведения. На сегодня существует несколько базовых технологий и их разновидностей, сходных по сути, но различных по реализации. Каждая из технологий имеет как преимущества, так и недостатки. Кроме того, разные типы технологий подходят для анализа информации различных классов. Поэтому производители DLP-решений стараются интегрировать в свои продукты максимальное количество технологий (см. таблицу 2).

В целом, продукты предоставляют большое количество технологий, позволяющих при должной настройке обеспечить высокий процент распознавания конфиденциальной информации. DLP McAfee, Symantec и Websense довольно слабо адаптированы для российского рынка и не могут предложить пользователям поддержку «языковых» технологий – морфологии, анализа транслита и замаскированного текста.

Контролируемые каналы

Каждый канал передачи данных – это потенциальный канал утечек. Даже один открытый канал может свести на нет все усилия службы информационной безопасности, контролирующей информационные потоки. Именно поэтому так важно блокировать неиспользуемые сотрудниками для работы каналы, а оставшиеся контролировать с помощью систем предотвращения утечек.

Несмотря на то, что лучшие современные DLP-системы способны контролировать большое количество сетевых каналов (см. таблицу 3), ненужные каналы целесообразно блокировать. К примеру, если сотрудник работает на компьютере только с внутренней базой данных, имеет смысл вообще отключить ему доступ в Интернет.

Аналогичные выводы справедливы и для локальных каналов утечки. Правда, в этом случае бывает сложнее заблокировать отдельные каналы, поскольку порты часто используются и для подключения периферии, устройств ввода-вывода и т. д.

Особую роль для предотвращения утечек через локальные порты, мобильные накопители и устройства играет шифрование. Средства шифрования достаточно просты в эксплуатации, их использование может быть прозрачным для пользователя. Но в то же время шифрование позволяет исключить целый класс утечек, связанных с несанкционированным доступом к информации и утерей мобильных накопителей.

Ситуация с контролем локальных агентов в целом хуже, чем с сетевыми каналами (см. таблицу 4). Успешно контролируются всеми продуктами только USB-устройства и локальные принтеры. Также, несмотря на отмеченную выше важность шифрования, такая возможность присутствует только в отдельных продуктах, а функция принудительного шифрования на основе контентного анализа присутствует только в Zecurion DLP.

Для предотвращения утечек важно не только распознавание конфиденциальных данных в процессе передачи, но и ограничение распространения информации в корпоративной среде. Для этого в состав DLP-систем производители включают инструменты, способные выявлять и классифицировать информацию, хранящуюся на серверах и рабочих станциях в сети (см. таблицу 5). Данные, которые нарушают политики информационной безопасности, должны быть удалены или перемещены в безопасное хранилище.

Для выявления конфиденциальной информации на узлах корпоративной сети используются те же самые технологии, что и для контроля утечек по электронным каналам. Главное отличие – архитектурное. Если для предотвращения утечки анализируется сетевой трафик или файловые операции, то для обнаружения несанкционированных копий конфиденциальных данных исследуется хранимая информация – содержимое рабочих станций и серверов сети.

Из рассматриваемых DLP-систем только InfoWatch и «Дозор-Джет» игнорируют использование средств выявления мест хранения информации. Это не является критичной функцией для предотвращения утечки по электронным каналам, но существенно ограничивает возможности DLP-систем в отношении проактивного предотвращения утечек. К примеру, когда конфиденциальный документ находится в пределах корпоративной сети, это не является утечкой информации. Однако если место хранения этого документа не регламентировано, если о местонахождении этого документа не знают владельцы информации и офицеры безопасности, это может привести к утечке. Возможен несанкционированный доступ к информации или к документу не будут применены соответствующие правила безопасности.

Удобство управления

Такие характеристики как удобство использования и управления могут быть не менее важными, чем технические возможности решений. Ведь действительно сложный продукт будет трудно внедрить, проект отнимет больше времени, сил и, соответственно, финансов. Уже внедренная DLP-система требует к себе внимания со стороны технических специалистов. Без должного обслуживания, регулярного аудита и корректировки настроек качество распознавания конфиденциальной информации будет со временем сильно падать.

Интерфейс управления на родном для сотрудника службы безопасности языке – первый шаг для упрощения работы с DLP-системой. Он позволит не только облегчить понимание, за что отвечает та или иная настройка, но и значительно ускорит процесс конфигурирования большого количества параметров, которые необходимо настроить для корректной работы системы. Английский язык может быть полезен даже для русскоговорящих администраторов для однозначной трактовки специфических технических понятий (см. таблицу 6).

Большинство решений предусматривают вполне удобное управление из единой (для всех компонентов) консоли c веб-интерфейсом (см. таблицу 7). Исключение составляют российские InfoWatch (отсутствует единая консоль) и Zecurion (нет веб-интерфейса). При этом оба производителя уже анонсировали появление веб-консоли в своих будущих продуктах. Отсутствие же единой консоли у InfoWatch обусловлено различной технологической основой продуктов. Разработка собственного агентского решения была на несколько лет прекращена, а нынешний EndPoint Security является преемником продукта EgoSecure (ранее известного как cynapspro) стороннего разработчика, приобретенного компанией в 2012 году.

Еще один момент, который можно отнести к недостаткам решения InfoWatch, состоит в том, что для настройки и управления флагманским DLP-продуктом InfoWatch TrafficMonitor необходимо знание специального скриптового языка LUA, что усложняет эксплуатацию системы. Тем не менее, для большинства технических специалистов перспектива повышения собственного профессионального уровня и изучение дополнительного, пусть и не слишком ходового языка должна быть воспринята позитивно.

Разделение ролей администратора системы необходимо для минимизации рисков предотвращения появления суперпользователя с неограниченными правами и других махинаций с использованием DLP.

Журналирование и отчеты

Архив DLP – это база данных, в которой аккумулируются и хранятся события и объекты (файлы, письма, http-запросы и т. д.), фиксируемые датчиками системы в процессе ее работы. Собранная в базе информация может применяться для различных целей, в том числе для анализа действий пользователей, для сохранения копий критически важных документов, в качестве основы для расследования инцидентов ИБ. Кроме того, база всех событий чрезвычайно полезна на этапе внедрения DLP-системы, поскольку помогает проанализировать поведение компонентов DLP-системы (к примеру, выяснить, почему блокируются те или иные операции) и осуществить корректировку настроек безопасности (см. таблицу 8).


В данном случае мы видим принципиальное архитектурное различие между российскими и западными DLP. Последние вообще не ведут архив. В этом случае сама DLP становится более простой для обслуживания (отсутствует необходимость вести, хранить, резервировать и изучать огромный массив данных), но никак не для эксплуатации. Ведь архив событий помогает настраивать систему. Архив помогает понять, почему произошла блокировка передачи информации, проверить, сработало ли правило корректно, внести в настройки системы необходимые исправления. Также следует заметить, что DLP-системы нуждаются не только в первичной настройке при внедрении, но и в регулярном «тюнинге» в процессе эксплуатации. Система, которая не поддерживается должным образом, не доводится техническими специалистами, будет много терять в качестве распознавания информации. В результате возрастет и количество инцидентов, и количество ложных срабатываний.

Отчетность – немаловажная часть любой деятельности. Информационная безопасность – не исключение. Отчеты в DLP-системах выполняют сразу несколько функций. Во-первых, краткие и понятные отчеты позволяют руководителям служб ИБ оперативно контролировать состояние защищенности информации, не вдаваясь в детали. Во-вторых, подробные отчеты помогают офицерам безопасности корректировать политики безопасности и настройки систем. В-третьих, наглядные отчеты всегда можно показать топ-менеджерам компании для демонстрации результатов работы DLP-системы и самих специалистов по ИБ (см. таблицу 9).

Почти все конкурирующие решения, рассмотренные в обзоре, предлагают и графические, удобные топ-менеджерам и руководителям служб ИБ, и табличные, более подходящие техническим специалистам, отчеты. Графические отчеты отсутствуют только в DLP InfoWatch, за что им и была снижена оценка.

Сертификация

Вопрос о необходимости сертификации для средств обеспечения информационной безопасности и DLP в частности является открытым, и в рамках профессиональных сообществ эксперты часто спорят на эту тему. Обобщая мнения сторон, следует признать, что сама по себе сертификация не дает серьезных конкурентных преимуществ. В то же время, существует некоторое количество заказчиков, прежде всего, госорганизаций, для которых наличие того или иного сертификата является обязательным.

Кроме того, существующий порядок сертификации плохо соотносится с циклом разработки программных продуктов. В результате потребители оказываются перед выбором: купить уже устаревшую, но сертифицированную версию продукта или актуальную, но не прошедшую сертификацию. Стандартный выход в этой ситуации – приобретение сертифицированного продукта «на полку» и использование нового продукта в реальной среде (см. таблицу 10).

Результаты сравнения

Обобщим впечатления от рассмотренных DLP-решений. В целом, все участники произвели благоприятное впечатление и могут использоваться для предотвращения утечек информации. Различия продуктов позволяют конкретизировать область их применения.

DLP-система InfoWatch может быть рекомендована организациям, для которых принципиально важно наличие сертификата ФСТЭК. Впрочем, последняя сертифицированная версия InfoWatch Traffic Monitor проходила испытания еще в конце 2010 года, а срок действия сертификата истекает в конце 2013 года. Агентские решения на базе InfoWatch EndPoint Security (известного также как EgoSecure) больше подходят предприятиям малого бизнеса и могут использоваться отдельно от Traffic Monitor. Совместное использование Traffic Monitor и EndPoint Security может вызвать проблемы с масштабированием в условиях крупных компаний.

Продукты западных производителей (McAfee, Symantec, Websense), по данным независимых аналитических агентств, значительно менее популярны, нежели российские. Причина - в низком уровне локализации. Причем дело даже не в сложности интерфейса или отсутствии документации на русском языке. Особенности технологий распознавания конфиденциальной информации, преднастроенные шаблоны и правила «заточены» под использование DLP в западных странах и нацелены на выполнение западных же нормативных требований. В результате в России качество распознавания информации оказывается заметно хуже, а выполнение требований иностранных стандартов зачастую неактуально. При этом сами по себе продукты вовсе не плохие, но специфика применения DLP-систем на российском рынке вряд ли позволит им в обозримом будущем стать более популярными, чем отечественные разработки.

Zecurion DLP отличается хорошей масштабируемостью (единственная российская DLP-система с подтвержденным внедрением на более чем 10 тыс. рабочих мест) и высокой технологической зрелостью. Однако удивляет отсутствие веб-консоли, что помогло бы упростить управление корпоративным решением, нацеленным на различные сегменты рынка. Среди сильных сторон Zecurion DLP – высокое качество распознавания конфиденциальной информации и полная линейка продуктов для предотвращения утечек, включая защиту на шлюзе, рабочих станциях и серверах, выявление мест хранения информации и инструменты для шифрования данных.

DLP-система «Дозор-Джет», один из пионеров отечественного рынка DLP, широко распространена среди российских компаний и продолжает наращивать клиентскую базу за счет обширных связей системного интегратора «Инфосистемы Джет», по совместительству и разработчика DLP. Хотя технологически DLP несколько отстает от более мощных собратьев, ее использование может быть оправдано во многих компаниях. Кроме того, в отличие от иностранных решений, «Дозор Джет» позволяет вести архив всех событий и файлов.


Эффективность бизнеса во многих случаях зависит от сохранения конфиденциальности, целостности и доступности информации. В настоящее время одной из наиболее актуальных угроз в области информационной безопасности (ИБ) является защита конфиденциальных данных от несанкционированных действий пользователей.
Это обусловлено тем, что большая часть традиционных средств защиты таких как антивирусы, межсетевые экраны (Firewall) и системы предотвращения вторжений (IPS) не способны обеспечить эффективную защиту от внутренних нарушителей (инсайдеров), целью которых может являться передача информации за пределы компании для последующего использования – продажи, передачи третьим лицам, опубликования в открытом доступе и т.д. Решить проблему случайных и умышленных утечек конфиденциальных данных, призваны системы предотвращения утечек данных (DLP — Data Loss Prevention) .
Подобного рода системы создают защищенный «цифровой периметр» вокруг организации, анализируя всю исходящую, а в ряде случаев и входящую информацию. Контролируемой информацией выступает не только интернет-трафик, но и ряд других информационных потоков: документы, которые выносятся за пределы защищаемого контура безопасности на внешних носителях, распечатываемые на принтере, отправляемые на мобильные носители через Bluetooth, WiFi и т.д.
DLP-системы осуществляют анализ потоков данных, пересекающих периметр защищаемой информационной системы. При обнаружении в этом потоке конфиденциальной информации срабатывает активная компонента системы и передача сообщения (пакета, потока, сессии) блокируется. Выявление конфиденциальной информации в потоках данных осуществляется путем анализа содержания и выявления специальных признаков: грифа документа, специально введённых меток, значений хэш-функции из определенного множества и т.д.
Современные DLP-системы обладают огромным количеством параметров и характеристик, которые обязательно необходимо учитывать при выборе решения для организации защиты конфиденциальной информации от утечек. Пожалуй, самым важным из них является используемая сетевая архитектура. Согласно этому параметру продукты рассматриваемого класса подразделяются на две большие группы: шлюзовые (рис. 1) и хостовые (рис. 2).
В первой группе используется единый сервер, на который направляется весь исходящий сетевой трафик корпоративной информационной системы. Этот шлюз занимается его обработкой в целях выявления возможных утечек конфиденциальных данных.

Рис. 1. Функциональная схема шлюзового DLP-решения

Второй вариант основан на использовании специальных программ – агентов, которые устанавливаются на конечных узлах сети – рабочих станциях, серверах приложений и пр.

Рис. 2. Функциональная схема хостового DLP решения

В последнее время наблюдается стойкая тенденция к универсализации DLP-систем. На рынке уже не осталось или почти не осталось решений, которые можно было бы назвать сугубо хостовыми или шлюзовыми. Даже те разработчики, которые долгое время развивали исключительно какое-то одно направление, добавляют к своим решениям модули второго типа.
Причины перехода к универсализации DLP-решений две. Первая из них – разные области применения у систем разных типов. Как было сказано выше, хостовые DLP-решения позволяют контролировать всевозможные локальные, а сетевые – интернет-каналы утечки конфиденциальной информации. Основываясь на том, что в подавляющем большинстве случаев организация нуждается в полной защите, то ей нужно и то, и другое. Второй причиной универсализации являются некоторые технологические особенности и ограничения, которые не позволяют сугубо шлюзовым DLP-системам полностью контролировать все необходимые интернет-каналы.
Поскольку полностью запретить использование потенциально опасных каналов передачи данных не представляется возможным, то можно поставить их под контроль. Суть контроля заключается в мониторинге всей передаваемой информации, выявлении среди нее конфиденциальной и выполнение тех или иных операций, заданных политикой безопасности организации. Очевидно, что основной, наиболее важной и трудоемкой задачей является анализ данных. Именно от его качества зависит эффективность работы всей DLP-системы.

Методы анализа потоков данных для DLP

Задачу анализа потока данных с целью выявления конфиденциальной информации можно смело назвать нетривиальной. Поскольку поиск нужных данных осложнен множеством факторов, требующих учета. Поэтому, на сегодняшний день разработано несколько технологий для детектирования попыток передачи конфиденциальных данных. Каждая из них отличается от других своим принципом работы.
Условно все способы обнаружения утечек можно разделить на две группы. К первой относятся те технологии, которые основаны на анализе непосредственно самих текстов передаваемых сообщений или документов (морфологический и статистический анализы, шаблоны). По аналогии с антивирусной защитой их можно назвать проактивными. Вторую группу составляют реактивные способы (цифровые отпечатки и метки). Они определяют утечки по свойствам документов или наличию в них специальных меток.

Морфологический анализ

Морфологический анализ является одним из самых распространенных контентных способов обнаружения утечек конфиденциальной информации. Суть этого метода заключается в поиске в передаваемом тексте определенных слов и/или словосочетаний.
Главным преимуществом рассматриваемого метода является его универсальность. С одной стороны, морфологический анализ может использоваться для контроля любых каналов связи, начиная с файлов, копируемых на съемные накопители, и заканчивая сообщениями в ICQ, Skype, социальных сетях, а с другой – с его помощью могут анализироваться любые тексты и отслеживаться любая информация. При этом конфиденциальные документы не нуждаются в какой-либо предварительной обработке. А защита начинает действовать сразу после включения правил обработки и распространяется на все заданные каналы связи.
Основным недостатком морфологического анализа является относительно низкая эффективность определения конфиденциальной информации. Причем зависит она как от используемых в системе защиты алгоритмов, так и от качества семантического ядра, применяющегося для описания защищаемых данных.

Статистический анализ

Принцип работы статистических методов заключается в вероятностном анализе текста, который позволяет предположить его конфиденциальность или открытость. Для их работы обычно требуется предварительное обучение алгоритма. В ходе него вычисляется вероятность нахождения тех или иных слов, а также словосочетаний в конфиденциальных документах.
Преимуществом статистического анализа является его универсальность. При этом стоит отметить, что данная технология работает в штатном режиме только в рамках поддержания постоянного обучения алгоритма. Так, например, если в процессе обучения системе было предложено недостаточное количество договоров, то она не сможет определять факт их передачи. То есть качество работы статистического анализа зависит от корректности его настройки. При этом необходимо учитывать вероятностный характер данной технологии.

Регулярные выражения (шаблоны)

Суть метода такова: администратор безопасности определяет строковый шаблон конфиденциальных данных: количество символов и их тип (буква или цифра). После этого система начинает искать в анализируемых текстах сочетания, удовлетворяющие ему, и применять к найденным файлам или сообщениям указанные в правилах действия.
Главным преимуществом шаблонов является высокая эффективность обнаружения передачи конфиденциальной информации. Применительно к инцидентам случайных утечек она стремится к 100%. Случаи с преднамеренными пересылками сложнее. Зная о возможностях используемой DLP-системы, злоумышленник может противодействовать ей, в частности, разделяя символы различными символами. Поэтому используемые методы защиты конфиденциальной информации должны держаться в секрете.
К недостаткам шаблонов относится, в первую очередь, ограниченная сфера их применения. Они могут использоваться только для стандартизованной информации, например, для защиты персональных данных. Ещё одним минусом рассматриваемого метода является относительно высокая частота ложных срабатываний. Например, номер паспорта состоит из шести цифр. Но, если задать такой шаблон, то он будет срабатывать каждый раз, когда встретится 6 цифр подряд. А это может быть номер договора, отсылаемый клиенту, сумма и т.п.

Цифровые отпечатки

Под цифровым отпечатком в данном случае понимается целый набор характерных элементов документа, по которому его можно с высокой достоверностью определить в будущем. Современные DLP-решения способны детектировать не только целые файлы, но и их фрагменты. При этом можно даже рассчитать степень соответствия. Такие решения позволяют создавать дифференцированные правила, в которых описаны разные действия для разных процентов совпадения.
Важной особенностью цифровых отпечатков является то, что они могут использоваться не только для текстовых, но и для табличных документов, а также для изображений. Это открывает широкое поле для применения рассматриваемой технологии.

Цифровые метки

Принцип данного метода следующий: на выбранные документы накладываются специальные метки, которые видны только клиентским модулям используемого DLP-решения. В зависимости от их наличия система разрешает или запрещает те или иные действия с файлами. Это позволяет не только предотвратить утечку конфиденциальных документов, но и ограничить работу с ними пользователей, что является несомненным преимуществом данной технологии.
К недостаткам данной технологии относится, в первую очередь, ограниченность сферы её применения. Защитить с ее помощью можно только текстовые документы, причем уже существующие. На вновь создаваемые документы это не распространяется. Частично этот недостаток нивелируется способами автоматического создания меток, например, на основе набора ключевых слов. Однако данный аспект сводит технологию цифровых меток к технологии морфологического анализа, то есть, по сути, к дублированию технологий.
Другим недостатком технологии цифровых меток является легкость ее обхода. Достаточно вручную набрать текст документа в письме (не скопировать через буфер обмена, а именно набрать), и данный способ будет бессилен. Поэтому он хорош только в сочетании с другими методами защиты.

Основные функции DLP-систем:

Основный функции DLP-систем визуализированы на рисунке ниже (рис. 3)

  • контроль передачи информации через Интернет с использованием E-Mail, HTTP, HTTPS, FTP, Skype, ICQ и других приложений и протоколов;
  • контроль сохранения информации на внешние носители — CD, DVD, flash, мобильные телефоны и т.п.;
  • защита информации от утечки путем контроля вывода данных на печать;
  • блокирование попыток пересылки/сохранения конфиденциальных данных, информирование администраторов ИБ об инцидентах, создание теневых копий, использование карантинной папки;
  • поиск конфиденциальной информации на рабочих станциях и файловых серверах по ключевым словам, меткам документов, атрибутам файлов и цифровым отпечаткам;
  • предотвращение утечек информации путем контроля жизненного цикла и движения конфиденциальных сведений.

Рис. 3. Основные функции DLP систем

Защита конфиденциальной информации в DLP-системе осуществляется на трех уровнях:

1 уровень — Data-in-Motion – данные, передаваемые по сетевым каналам:

  • web (HTTP/HTTPS протоколы);
  • службы мгновенного обмена сообщениями (ICQ, QIP, Skype, MSN и т.д.);
  • корпоративная и личная почта (POP, SMTP, IMAP и т.д.);
  • беспроводные системы (WiFi, Bluetooth, 3G и т.д.);
  • ftp – соединения.

2 уровень — Data-at-Rest – данные, статично хранящиеся на:

  • серверах;
  • рабочих станциях;
  • ноутбуках;
  • системах хранения данных (СХД).

3 уровень — Data-in-Use – данные, используемые на рабочих станциях.

Система класса DLP включает в себя следующие компоненты:

  • центр управления и мониторинга;
  • агенты на рабочих станциях пользователей;
  • сетевой шлюз DLP, устанавливаемый на Интернет-периметр.

В DLP-системах конфиденциальная информация может определяться по ряду различных признаков, а также различными способами, основными из них являются:

  • морфологический анализ информации;
  • статистический анализ информации;
  • регулярные выражения (шаблоны);
  • метод цифровых отпечатков;
  • метод цифровых меток.

Внедрение DLP-систем давно стало уже не просто модой, а необходимостью, ведь утечка конфиденциальных данных может привести к огромному ущербу для компании, а главное оказать не одномоментное, а длительное влияние на бизнес компании. При этом ущерб может носить не только прямой, но и косвенный характер. Потому что помимо основного ущерба, особенно в случае разглашения сведений об инциденте, Ваша компания «теряет лицо». Ущерб от потери репутации оценить в деньгах весьма и весьма сложно! А ведь конечной целью создания системы обеспечения безопасности информационных технологий, является предотвращение или минимизация ущерба (прямого или косвенного, материального, морального или иного), наносимого субъектам информационных отношений посредством нежелательного воздействия на информацию, ее носители и процессы обработки.