Работа в модуле экспертиз от EveryTag: как мы определяем источник утечки конфиденциальных документов

Глобальная цифровая трансформация вносит свои коррективы и в конфиденциальный документооборот. Использование различных СЭД и CRM систем позволило удобным образом упорядочивать и управлять большим объёмом документов. В то же время любые документы, которые находятся в цифровом контуре организации, и к которым предоставлен доступ большому количеству сотрудников, стало проще скомпрометировать и передать третьей заинтересованной стороне. Сотрудник фотографирует на свой личный смартфон конфиденциальный документ, отображаемый на экране монитора, передаёт его или даже продает, и практически всегда остаётся безнаказанным.

Даже в случае использования современной и правильно настроенной DLP системы, предотвратить такой тип утечки информации невозможно, т. к. фактически она происходит уже за периметром действия любой программной системы защиты. По найденным фрагментам документов невозможно определить, какой именно сотрудник и когда произвел утечку.

Ключевая задача, которая встает перед компаниями – придумать, как лишить скомпрометированные документы анонимности. В частности, один из вариантов – использование технологии невидимой маркировки, которая применяется к документам заблаговременно и может быть использована для гарантированного определения источника утечки документа или фото экранной формы в случае их обнаружения в соц. сетях или мессенджерах.

В этом посте мы расскажем и покажем симуляцию утечки и проведения экспертизы с использованием модуля экспертиз от компании EveryTag.

Конечно, мы не осуществляем автоматизированный поиск и сканирование всего интернета на предмет утекших документов. На это есть ряд технических ограничений, и в целом это мало осуществимо. Мы выступаем как постфактумное решение, и в том случае, когда фрагмент скомпрометированного документа найден и передан в отдел ИБ, офицер безопасности способен самостоятельно провести расследование в сжатые сроки. Итогом проведения экспертизы является установление того источника, кому принадлежала персонифицированная копия документа, чей фрагмент и оказался в общем доступе.

Для начала необходимо упомянуть, какие типы утечек документов мы для себя выделяем, — это: скриншоты, сканы/ксерокопии, а также два типа фотографии документов — отображенные на экране монитора и распечатанные копии. В наше время имеют место быть все перечисленные типы утечек, но всё же чаще всего приходится сталкиваться с утечками в формате фотографий.

Предполагается, что служба безопасности обнаруживает фрагмент документа, который потенциально может принадлежать организации, при этом весь конфиденциальный документооборот предварительно маркировался одним из продуктов EveryTag.

Далее рассмотрим процесс проведения экспертизы.

Сотрудник информационной безопасности создает новую экспертизу, присваивает ей название и при необходимости описание.

После чего производит загрузку того фрагмента, который был найден на просторах интернета.

Визуализация загрузки фрагмента в систему для проведения экспертизы.

Фрагмент документа может быть загружен в одном из трех форматов растровой графики: *. png, *. jpg, *. tiff. В нашем случае это фото распечатанного документа.

Пример скомпрометированного документа, на основе которого будет проводиться экспертиза.

В зависимости от сложности имеющегося образца, офицер безопасности, проводящий расследование, должен определиться, по какому сценарию осуществлять последующие действия. Дело в том, что в случае со скриншотами, сканами или ксерокопиями документов, предварительно подготавливать образец как правило не требуется. На таких фрагментах утечек не изменен масштаб текста, отсутствует угол фотографирования, и в целом ориентация текста и его перспектива не нарушены. В нашем же случае необходимо, некоторым образом, доработать фрагмент, т. к. если оставить его в оригинальном виде и провести экспертизу, мы не сможем добиться желаемого результата.

Принцип следующий — нам необходимо подготовить фрагмент документа до такого вида, чтобы он был максимально походил на оригинал. До такой степени, чтобы система могла правильно осуществить сопоставление нашего фрагмента со всеми промаркированными в базе копиями. В 80% случаев всё это можно сделать, не выходя из экспертизы, т. к. в ней присутствует встроенный редактор изображений. В нем часто приходится использовать регулировку параметров яркости, контрастности, а также осуществлять поворот и отражение по горизонтальной/вертикальной перспективам.

Пример редактирования документа во встроенном в систему редакторе.

Для более сложных фрагментов, где, например, присутствует документ, сфотографированный под большим углом, мы обращаемся к внешним средствам редактирования графики. Вполне удобен GIMP, в нем практически всегда нужен только один инструмент — «Perspective». Данный инструмент позволяет удобным образом трансформировать изображение таким образом, чтобы имеющийся в нем текст оказался максимально выровненным.

Данный процесс весьма творческий, поэтому может занять некоторое кол-во времени. У подготовленного сотрудника данные манипуляции занимают в среднем ~10-15 минут. Учитывая то, что утечки не происходят каждый день и даже каждые неделю/месяц, большого кол-во ресурсов и времени это не отнимает.

Использование GIMP для улучшения качества образца для экспертизы.

Когда подготовка образца завершена, можно переходить к следующему шагу. Кстати, нет необходимости работать со всем текстом, представленным на имеющемся фрагменте утечки. Достаточно будет выделить небольшой и максимально ровный блок текста. Алгоритм технологии EveryTag работает таким образом, что в каждой строке присутствуют слова, подвергающиеся преобразованиям и маркированию. Если у нас есть небольшой фрагмент текста, он читаем, то с ним в полной мере можно работать.

Подготовленный фрагмент для проведения экспертизы.

После вышеописанных шагов по подготовке фрагмента, можно двигаться дальше.

Каждый найденный фрагмент утечки принадлежит какому-то своему оригиналу документа и относится к одной из его страниц. Чтобы продолжить экспертизу, нам необходимо выбрать такой документ. Для того, чтобы офицеру безопасности не пришлось заниматься сопоставлением вручную (хотя, и такая возможность присутствует) , мы осуществляем полнотекстовый поиск (используя компонент Open Distro for Elasticsearch) , который на первой строчке поисковой выдачи показывает наилучшее совпадение. На скриншоте снизу наблюдаем, что по мнению системы, наш фрагмент принадлежит к документу «Защита о персональных данных» и относится ко второй странице.

Визуализация инструмента по поиску оригинала документа по образцу.

После того, как наш фрагмент сопоставлен с тем документом, к которому он относится, можно переходить дальше.

Для поиска наилучшей совпадающей копии, которая была ранее выдана какому-либо сотруднику, системе необходимо буквально просканировать все имеющиеся в базе копии, сгенерированные за всё время и относящиеся к выбранному на предыдущем шаге оригинальному документу.

Здесь важно отметить, что копии как таковые не хранятся на дисковом хранилище и не дублируются каждый раз при новом обращении пользователей к документам. Продукты EveryTag лишь единожды снимают копию документа, а все последующие преобразования (хеш-суммы) записываются в базу данных (MongoDB) . Это позволяет нам весьма серьезно экономить дисковое пространство и быстро осуществлять сканирование всех преобразований. Если оригинальная копия документа будет удалена с дискового хранилища, то мы и её сможем воссоздать, т. к. идентичный слепок тоже сохраняем у себя в базе.

Скорость процесса сравнения напрямую зависит от серверных мощностей, в частности от количества процессорных ядер и быстродействия СХД. Этот процесс является полностью автоматическим. Масштабирование при наложении также происходит в автоматическом режиме. При этом, чтобы у компонента, который отвечает за процесс сопоставления, было понимание, на какие точки при этом опираться, мы просим сотрудника ИБ, проводящего экспертизу, выбрать координаты на найденном фрагменте и на оригинале документа.

Для этого требуется выделить два слова, расположенные по диагонали. Это некое напутствие компоненту, осуществляющему сопоставление, и это также гарантируют более точные итоговые результаты, нежели полностью автоматическая экспертиза без указания данные координат.

Для более точного проведения экспертизы необходима калибровка при помощи сопоставления слов.

На этом шаге всё готово к проведению экспертизы. Осталось выполнить всего лишь простое нажатие кнопки «провести экспертизу», а после чего оценить итоговые результаты всех наших действий.

Финальной точкой всех вышеописанных действия являются те результаты, которые мы получаем при проведении экспертизы. Первое, что мы получаем — это программный результат. После того, как модуль экспертизы сопоставил все копии, выданные на конкретный документ, осуществляется вывод наилучших совпадений.

Так, по мнению системы, источником утечки в данном случае является сотрудник «Aleksandrov_VI».

Пример программного результата экспертизы.

Именно копия, выданная указанному сотруднику в конкретные время и дату, максимально схожа с тем фрагментом, по которому мы проводили экспертизу. Для еще большего подтверждения можно провести несколько экспертиз по разным фрагментам скомпрометированного документа, сравнив полученные результаты, которые должны будут указывать на один и тот же источник (как на примере выше) .

В зависимости от используемого продукта EveryTag источник утечки может быть представлен в виде учетных записей в СЭД, CRM, VDR, и любой другой информационной системе, где происходит документооборот. Если интеграция была на уровне почтового сервера и маркируются все документы, отправляемые конкретным получателям, то источником при утечке будет являться адрес электронной почты получателя. Если маркируются документы, отправляемые на печать, то источником будет идентификатор пользователя на принт-сервере или учетная запись, под которой пользователь работает в домене.

После получения программных результатов офицеру безопасности, проводящему экспертизу, необходимо визуально оценить, как осуществилось сопоставление фрагмента скомпрометированного документа с той копией, которая была выдана сотруднику. Это можно сделать, зайдя в каждый программный результат экспертизы.

Пример визуального сравнения, на котором можно наблюдать разницу в совпадении строк и слов.

На изображении представлены примеры вывода результатов сопоставления, где с левой стороны расположена копия сотрудника «Aleksandrov_VI», который по мнению системы является источником утечки, а с правой — любая другая копия, выданная другим сотрудникам. Именно визуальная оценка является подтверждением программного результата. Так, например, мы видим (см. «Совпадение»), что на совпадающей копии отсутствуют так называемые «нелинейные смещения», т.е. сильные сдвиги и расхождения. Красным цветом обозначается текст, расположенный на имеющемся у нас фрагменте, а синим тот, что присутствует на каждой отдельной копии. Незначительные расхождения в варианте являются некой погрешностью, связанной с тем, что мы имеем дело именно с утечкой в формате фото, которое в свою очередь было произведено под углом. Тем не менее, такой результат более чем удовлетворительный, чего не скажешь, если сравнить нашу копию с копиями других сотрудников, где видны сильные смещения (см. «Расхождение»).

Приведенный пример экспертизы является подтверждением того, что найти источник утечки конфиденциального документа, даже если она сделана в формате фото экрана или печатной копии, – возможно. Созданный модуль в совокупности с технологией маркировки от компании EveryTag может стать отличным инструментом для любой компании, которая сталкивается с утечками и ищет способы борьбы с ними.

Работа в модуле экспертиз от EveryTag: как мы определяем источник утечки конфиденциальных документов

Обнаружение фрагмента документа

Создание новой экспертизы и подготовка фрагмента документа

Сопоставление образца с оригиналом документа

Калибровка

Два фактора оценки результатов — программный и визуальный

Вывод