Государство как пират: сколько госорганов используют нелегальные офисные приложения

Расследование сооснователя АНО «Информационная культура» Ивана Бегтина.

Пиратское ПО в России всегда было популярно. В 90-е годы мало кто не покупал диски с Windows или Office с рук, а позже мало кто не скачивал бесплатный софт с «варезных» сайтов. Результаты этого исследования — попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.

Кратко

Для тех, кто поленится дочитать до конца, сразу итоги сжато и тезисами:

  • 23 федеральных органа власти в России публикуют документы на своих сайтах, сделанные в пиратском MS Office;
  • среди них у пяти федеральных органов исполнительной власти более 20% подобных документов, сделанных в пиратском MS Office;
  • это результаты анализа 22 318 документов в формате MS Word, скачанных с сайтов органов власти в 2018 году и проверенных на наличие меток в свойствах документов, которые оставляют пиратские пакеты MS Office.

Является ли это целевой госполитикой органов власти, или это последствия отсутствия какой-либо госполитики ещё в 90-е годы — это отдельный большой разговор о том, как работает ИТ в России в госсфере.

Подробнее

Измерить использование пиратского ПО в России всегда было сложно. В самом деле, как это сделать, если нельзя взглянуть на компьютер каждого пользователя?

Много лет я занимаюсь тем, что архивирую сайты органов власти. Это помогает не только сохранить данные, которые там публиковались или публикуются, это даёт огромные объёмы данных для анализа и последующего использования.

Примером таких данных являются документы, создаваемые в офисных пакетах, например, MS Office. В этих файлах есть много интересного: от данных, которые можно извлечь из Excel-файлов и таблиц в документах .DOC, до свойств документов.

И вот тут начинается самое интересное. Те, кто когда-либо сталкивался с документами, сделанными на пиратских версиях MS Office, знают, что команды пиратов, которые выкладывают взломанные версии ПО, вносят изменения таким образом, что при установке в качестве организации указывается их хакерская команда,. Иногда подменяют и имя пользователя.

Это можно увидеть на отдельных файлах: например, в этом файле на сайте Минспорта России в названии организации используется Reanimator Extreme Edition.

Это один из брендов команд, распространяющих пиратское ПО. Кроме них ещё существуют: Krokoz, WareZ Provider, RePack by SPecialiST, NhT, MoBIL GROUP и многие другие.

Отдельные документы, впрочем, могут встречаться где угодно. Как решить задачу проверки использования пиратского ПО системно?

  1. Были использованы архивы сайтов органов власти из национального цифрового архива, все они также доступны через хаб открытых данных.
  2. Из архивов сайтов были извлечены все документы в формате .DOC (формат MS Word), их вышло чуть менее 23 тысяч.
  3. Из каждого документа с помощью библиотеки hachoir были извлечены его метаданные: название, дата создания, дата последнего изменения, автор, компания.
  4. Для пяти органов власти в архиве нашлось менее 100 документов, поэтому они были убраны из итоговой выборки из-за возможной неточности оценки.
  5. Для всех остальных документов на основе их метаданных в поле comments.Company было идентифицировано, сделан ли документ в пиратском ПО MS Office или же нет.
  6. Алгоритм распознавания использовал следующие значения в этом поле для идентификации ПО: RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net.
  7. Этот список на самом деле шире, эти метки выявлялись ранее поиском по документам в «дикой природе», базе в несколько миллионов документов, собранной ранее и полуавтоматически размеченной по наиболее часто встречающимся отметкам того, от каких организаций они собраны.
  8. В результате из 22318 документов у 1483 документов (6.64%) найдены пометки того, что они сделаны с помощью пиратского ПО.

Итоговая таблица распределения доли документов, созданных в пиратском MS Office выглядит вот так.

А вот так выглядит распределение по долям документов, созданных в пиратском MS Office, по органам власти.

Лидеры по числу документов с такими признаками:

  • Минтруд России;
  • Минспорт России;
  • Росморречфлот;
  • Росавтодор;
  • Росгидромет.

Орган власти, на сайте которого не было найдено ни одного такого документа —это Правительство РФ — government.ru.

Выводы

Самый очевидный вывод — пиратское ПО в органах власти в России используется. Масштаб опубликованных документов с метками пиратского MS Office — это, на текущий момент, 6,64%, что относительно немного, но достаточно, чтобы быть непреднамеренной случайностью.

Можно ли получить более полную картину? Да, аналогичный анализ всех сайтов органов власти и региональных администраций почти наверняка подтвердит эти цифры.

Как воспроизвести эти результаты?

Все ссылки на собранные документы опубликованы в репозитории government-piracy на data.world. Можно проверить их вручную, можно автоматизировано, скачав каждый.

Каждый документ можно скачать и открыть его свойства в Explorer в Windows, например, документ управления делами президента.

Ограничения

Документы .DOC, созданные в основном в MS Word — одни из самых распространенных, но не единственные, содержащие метаданные. Свойства документов сохраняются в файлах с такими расширениями, как .ppt, .xls, .docx, .xlsx, .pptx и многих других.

Каждый сайт органа власти по объёму часто вести более 10 ГБ, а кое-где и до 150 ГБ. А некоторые сайты сделаны так, что вообще не поддаются выгрузке. Поэтому не все органы власти охвачены этим исследованием. Если охватить всё, то вполне возможно что пятёрка лидеров сменится.

Ссылки

0
52 комментария
Написать комментарий...
Сергей Я

Как тебе такое, Александр Жаров?

Ответить
Развернуть ветку
Aleks B

он вам не Илон!

Ответить
Развернуть ветку
49 комментариев
Раскрывать всегда