|
|
Обзор подготовлен
При поддержке
Растущая обеспокоенность компаний, а также постоянное внимание СМИ к проблеме утечек информации, ставят перед отраслью серьезный вопрос – а как же все-таки необходимо защищаться от утечек информации? Очевидно, нужны новые технологии.
В конце 2007 и начале 2008 гг. году стало окончательно ясно, что все используемые до сих пори технологии защиты данных от утечек (DLP – Data Leak Prevention) не могут обеспечить должного уровня безопасности. Индустрия остро нуждается в новой инъекции современных методов, которая обязательно произойдет в течение ближайших нескольких лет.
Но чтобы понять, какие именно технологии будут востребованы рынком в ближайшем будущем, необходимо провести тщательный ретроспективный анализ продуктов DLP. Тут на самом деле довольно уже много чего сделано, однако неспособность защитить бизнес заказчиков каждым решение по отдельности сохраняется.
Поскольку любая технология сама по себе практически бесполезна, ее необходимо рассматривать только в привязке к определенной задаче. В данном случае задача может быть четко определена – компаниям необходимо обеспечить защиту от всевозможных утечек информации. Проблема только в том, что эти утечки могут быть очень разнообразными, и универсального метода борьбы с ними попросту не существует.
Итак, какими же бывают утечки информации? В классификации компании Perimetrix, каждая утечка характеризуется тремя параметрами: она происходит по определенному каналу, имеет некую причину и приводит к компрометации какой-то информации. Несмотря на очевидную важность последнего параметра утечки, тип исходящих сведений практически не влияет на механизмы защиты – значительно важнее, как происходит движение информации, и какие причины это движение обеспечивают.
Концептуально, существует всего лишь три канала утечки – информация может покинуть корпоративную сеть через интернет, с помощью локальных (мобильных) носителей (цифровых или бумажных), а также каким-то другим способом. Под «другим способом» подразумеваются «мысленные» или «словесные» утечки, когда сотрудник компании выносит информацию в собственной памяти, а потом передает ее кому-то на словах. Понятно, что бороться с подобными проблемами путем установки каких-то автоматизированных систем совершенно бессмысленно.
А вот с утечками по первым двум каналам справиться очень даже возможно. Конечно, информационная система не сможет защитить вас от инсайдера, который выносит информацию на бумажном листе. Однако она вполне способна зафиксировать печать этой информации и даже заблокировать это действие.
Локальные и интернет-каналы утечки, в свою очередь, разбиваются на несколько подканалов. Информация может утекать в сеть посредством электронной почты, веб-хостингов, приложений IM, P2P и массой других разнообразных способов. Локальных каналов утечки сегодня существует ровно столько же, сколько и всевозможных носителей информации – начиная ноутбуками и заканчивая флешками, фотопаппаратами, плеерами и телефонами. В общем случае, чем больше каналов контролирует та или иная система защиты – тем эта система лучше.
Вся суть DLP в этом и заключается – система берет канал, «смотрит» на идущую по нему информацию и на основании каких-то своих внутренних алгоритмов выносит определенное суждение на то, можно ли признать эту информацию конфиденциальной. А после, на основе предварительно настроенных политик и полученного суждения, принимается решение о том, что делать дальше с этой информацией. В частности, система может разрешить ее передачу, заблокировать ее или сообщить об этом факте офицеру безопасности.
Таким образом, ключевым параметром любой DLP-системы является алгоритм фильтрации трафика, который позволяет вынести суждение о конфиденциальности тех или иных данных. Конечно, поддержка каналов, удобство управления и централизованных архив событий также интересуют заказчиков, однако «движком» DLP является именно фильтрующий алгоритм. О том, каким образом этот алгоритм может быть реализован, мы и поговорим в дальнейшем.
Первые комплексные DLP-системы появились в начале нынешнего века. В то время уже сформировался сравнительно зрелый рынок других решений по безопасности, таких как антивирусные системы или системы для фильтрации спама. И потому совсем неудивительно, что первые технологии DLP были позаимствованы из смежных классов продуктов.
Действительно, фильтрация трафика на предмет секретности близка к фильтрации электронной почты от спама. В обоих случаях, на вход алгоритма подается некий файл, на основе содержания (контента) которого, система должна вынести определенное суждение. Кроме контента, фильтрация может использовать метаданные (контекст) файла, будь-то его размер, адрес отправителя или формат.
Первые появившиеся на рынке DLP-системы применяли именно такой, контентно-контекстный механизм фильтрации трафика на предмет конфиденциальных сведений. Более того, этот подход настолько прочно укоренился в сознании заказчиков и производителей, что он является доминирующим до сих пор, имея, при этом, целый комплекс определенных недостатков.
Сравнительный анализ основных методов контентной фильтрации
Метод | Описание | Pro | Contra | Типы данных |
Поиск регулярных выражений | Самая простая техника контентной фильтрации. Система ищет заранее определенные куски текста. Например, номера кредитных карт | Простая, понятная и легко настраиваемая технология. | Большое количество ошибок второго типа (ложных срабатываний). Технология почти бесполезна для анализа неструктурированной информации (например, интеллектуальной собственности) | Структурированная конфиденциальная информация |
Цифровые отпечатки (digital fingerprints) | Одна из наиболее распространенных технологий. С конфиденциальной информация снимается "отпечаток" (хеш-функция), который сравнивается с идущим трафиком | Практически полное отсутствие ложных срабатываний, простота внедрения и настройки | Метод непригоден для анализа неструктурированной информации (например, интеллектуальной собственности). При больших объемах конфиденциальных сведений могут возникнуть проблемы с нагрузкой на систему. Технология работает только на точные совпадения - при изменении даже одного символа, система может не сработать. Как следствие, возникают сложности в случае морфологически богатых языков (в том числе, и русского языка). Для работы необходимо заранее задать конфиденциальную информацию. | Структурированная информация в базах или хранилищах данных |
Частичное сравнение документов | Этот метод предполагает сравнение частей заранее заданных конфиденциальных документов и информации, покидающей корпоративную сеть | Метод подходит для неструктурированных данных. Сравнительно небольшое число ложных срабатываний | Очень большие требования к производительности. Для работы необходимо заранее задать конфиденциальную информацию. Метод очень легко обходится с помощью замены символов. | Неструктурированный контент с большим количествам текста. Например, исходный код |
Лингвистический/морфологический анализ | Технология предполагает анализ информации на основе заранее заданных словарей или ключевых фраз | Подходит для морфологически богатых языков. Сравнительно низкие требования к производительности при наличии словарной базы | Максимальное количество ошибок, как первого, так и второго типа. Требуется огромная подготовительная работа для создания базы контентной фильтрации. | Полностью неструктурированный контент, такой как список идей, концепции проектов и т.д. |
Источник: Perimetrix, 2008
Нетрудно заметить, что ни один из доступных инструментов не способен обеспечить полную защиту всех типов исходящих данных – каждый подход имеет жестко ограниченную область применения, в рамках которой достигается хотя бы какая-то эффективность. При этом, интеграция всех методов в единых комплекс совсем не означает объединению их областей применения, поскольку проверяющая система должна самостоятельно понять, какой алгоритм необходимо применять в случае каждого конкретного файла. А эта задача сама по себе является достаточно сложной.
Сравнительный анализ основных методов контекстной фильтрации
Метод | Описание | Pro | Contra | Типы данных |
Точное сравнение документов | Бинарное сравнение документов | Минимальное количество ложных срабатываний. Низкие требования к производительности. | Ограниченная сфера применения. Метод тривиально обходится. Для работы необходимо заранее задать конфиденциальную информацию. | Мультимедийные файлы, исполняемые файлы программ и прочие файлы в бинарном коде |
Статистический анализ | Анализ статистических показателей документов (объема, метаданных, путь к источнику) на основе заранее заданных политик | Низкие требования к производительности. Легкая настройка при условии понимания работы политик | Большое количество ошибок, как первого, так и второго типа. Метод легко обходится. Необходима подготовительная работа для разработки политик. | Неструктурированный контент, для которого остальные методы неэффективны |
Источник: Perimetrix, 2008
Но даже если методы контентно-контекстной фильтрации применяются по своему прямому назначению, их эффективность оставляет желать лучшего. По мнению аналитиков компании Gartner («Hype Cycle for Information Security, 2007»), даже самые совершенные механизмы способны «засечь» только 80% конфиденциальных документов, покидающих корпоративную сеть. Кроме того, большинство из алгоритмов фильтрации легко обходятся «знающими» мошенниками, и потому их эффективность для противодействия злонамеренным инсайдерам весьма сомнительна.
Проблемы контентной фильтрации на этом, впрочем, не заканчиваются. Низкая точность алгоритмов приводит не только к попаданию секретных документов наружу, но и существенно усложняет жизнь офицеров информационной безопасности. Происходит так называемая «ошибка второго типа», когда абсолютно легальные или публичные документы запросто могут быть признаны секретными. Тем самым, растет нагрузка на штатного офицера безопасности, а заодно снижается производительность труда сотрудников, выполнявших абсолютно законные действия.
Но и это еще не все. На практике контентная фильтрация эффективна лишь для контроля трафика, идущего по сетевым каналам утечки и практически бесполезна для защиты локальных каналов. Причина такого положения дел заключается в требованиях, которые предъявляет фильтрующий движок. Как правило, они весьма велики и практически нереализуемы в рамках локальных агентов.
Фактически, существует всего лишь один способ контентной фильтрации трафика по локальным каналам. На каждом корпоративном компьютере должен быть установлен специальный агент, дублирующий локальный трафик на сервер контентной фильтрации. Затем, сервер фильтрует контент и отдает полученный результат агенту, который выполняет дальнейшие действия. Такая архитектура, конечно, имеет право на существование. Однако ее трудно реализовать и обслуживать технически. Поэтому, разработчики систем предпочитают «не влезать» в эти проблемы и просто блокируют локальные порты. А это в свою очередь, снижает эффективность работы сотрудников.
«В общем и целом, механизмы контентной фильтрации, применявшиеся для создания антиспамовых систем, не сумели справиться с задачей контроля конфиденциальной информации, - резюмирует директор по развитию бизнеса компании Perimetrix Алексей Доля. – Причина провала очевидна: задача проверки контента на секретность оказалась значительно труднее задачи его проверки на спам»
Контентные DLP-системы гадают, являются ли информация секретной или нет, и потому не возможно добиться высокой степени точности. По мере развития технологий, недостатки контентной фильтрации становились все более очевидными, и многие производители стали задумываться, а стоит ли такая овчинка выделки?
И ведь действительно, существует элементарный способ избежать гаданий, который использовался еще во времена бумажного документооборота. Наверное, многие помнят толстые советские папки с грифами «секретно» или «совершенно секретно». Так почему же не использовать тот же метод для контроля над цифровыми документами?
Эта, казалось бы, тривиальная идея долгое время оставалась нереализованной. Разработчиков отпугивала сама постановка задачи – пометить все конфиденциальные документы грифами, и поддерживать актуальность разметки в течение длительного времени. Они резонно полагали, что такого рода меры окажутся неподъемными для большинства потенциальных заказчиков.
Со временем ситуация стала меняться – в продуктах появились реализации нескольких основных идей, облегчавших жизнь компаниям, решившихся провести учет всех конфиденциальных документов. Во-первых, благодаря интеграции с поисковыми технологиями существенно упростился процесс начальной разметки файлов. И, во-вторых, в системах появился механизм переноса меток со старых документов на новые, который существенно упрощает процесс поддержки системы.
«Но даже эти технологии на деле не решают всех проблем. Во-первых, совершенно неясно, что делать с абсолютно новыми документами, создающимися «с чистого листа». В процессе редактирования уровень его секретности может меняться. На практике, впрочем, таких документов не так много – по нашим оценкам, их количество не превышает 1%, - рассказывает Фарит Музипов, заместитель начальника службы безопасности по информационной безопасности АйСиАйСиАй Банк Евразия. - Более серьезная трудность возникает в процессе контроля входящей корреспонденции, которая по умолчанию, естественно, никак не размечена. И, к сожалению, решить эту проблему в рамках ограничений «грифовой» технологии невозможно – постановка меток на все входящие и вновь создаваемые документы процесс очень трудоемкий, и вы должны быть уверенны, что он выполняется очень скрупулезно. Иначе через некоторое время вам придется все начинать с начала».
Теперь представим, что все недостатки DLP (будь-то контентных или детерминистских) вдруг исчезли, и наша система научилась искать все конфиденциальные документы, которые покидают корпоративную сеть. Будет ли такая система решать изначальную задачу и обеспечивать абсолютную защиту от цифровых утечек?
Несмотря на огромное желание сказать да, необходимо признать, что лазейки для утечек информации все же остаются. Дело здесь в том, что задача контроля каналов утечки не эквивалентна задаче их предотвращения. Вы можете знать, где и когда хранилась ваша конфиденциальная информация, но, тем не менее, не суметь ее защитить.
Поясним последний тезис на примере. Вспомним, что кроме каналов утечки существует еще одна характеристика инцидента – а именно, его причина. Так вот, ни контентные, ни грифовые DLP не могут ничего поделать, когда причиной утечки является кража или потеря носителя информации, будь-то флешка, сервер или ноутбук. Единственный способ избежать подобных проблем – шифровать все имеющиеся носители.
Между прочим, проблема «украденного носителя» является сегодня чрезвычайно актуальной. По данным Ponemon Institute, на нее приходятся почти половина (49%) всех современных утечек. По мнению компании Perimetrix эта цифра может быть чуть меньше, однако все равно велика.
Получается, что все представленные на рынке DLP-системы не решают поставленную перед ними задачу - даже в теории, они не могут справиться почти с половиной утечек информации.
Именно эта проблема и привела к появлению новой концепции информационно-аналитических систем режима секретности конфиденциальных данных (ИАС РСКД). Такие системы объединяют лучшие черты разработанных ранее методов фильтрации с криптографическим функционалом. Система, которая относится к классу ИАС РСКД, должна обладать следующими свойствами.
Во-первых, фильтрация большинства документов происходит на основе детерминистских (грифовых) технологий. Поэтому, в начале внедрения ИАС РСКД происходит классификация конфиденциальных сведений.
Далее, все помеченные документы определенной степени секретности должны храниться в защищенных криптоконтейнерах, доступ к которым будет невозможен даже в случае кражи носителя. А ИАС РСКД должна поддерживать технологию автоматической разметки на основе заранее заданных правил и политик, а также технологию переноса меток.
Затем, ИАС РСКД должна обеспечивать контентную фильтрацию документов в том случае, если на этих документах отсутствуют метки (грифы)
И, наконец, ИАС РСКД на основе анализа собираемых сведений должна выстраивать цепочки событий, маршруты перемещения конфиденциальных данных, анализировать действия пользователей и самостоятельно выявлять их аномальное поведение.
Таким образом, в теории системы класса ИАС РСКД способны совместить в себе точность детерминистских методов с гибкостью контентной фильтрации и криптографической защищенностью. По данным автора, фильтрация на основе комбинации методов способна обеспечить 100% защиту для классифицированных документов и 99% защиту в целом. Эти показатели намного выше тех 80%, которые способна дать контентная фильтрация при самых благоприятных условиях.
Отметим, что использование детерминистских методов позволяет зашифровать почти все конфиденциальные документы, не прибегая при этом к тотальному шифрованию носителей. А интеграция процессов шифрования и расстановки меток поддерживает «зашифрованность» во времени.
На бумаге концепция ИАС РСКД выглядит очень привлекательно, однако окажется ли эта идея жизнеспособной покажет только время. На момент создания этого материала, на рынке отсутствовали решения ИАС РСКД; первое из них (Perimetrix) должно быть представлено на выставке InfoSecurity в сентябре 2008 года. Пока же нам остается только ждать и внимательно следить за развитием событий.
Владимир Ульянов