Государство как пират: сколько госорганов используют нелегальные офисные приложения
Расследование сооснователя АНО «Информационная культура» Ивана Бегтина.
Пиратское ПО в России всегда было популярно. В 90-е годы мало кто не покупал диски с Windows или Office с рук, а позже мало кто не скачивал бесплатный софт с «варезных» сайтов. Результаты этого исследования — попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.
Кратко
Для тех, кто поленится дочитать до конца, сразу итоги сжато и тезисами:
- 23 федеральных органа власти в России публикуют документы на своих сайтах, сделанные в пиратском MS Office;
- среди них у пяти федеральных органов исполнительной власти более 20% подобных документов, сделанных в пиратском MS Office;
- это результаты анализа 22 318 документов в формате MS Word, скачанных с сайтов органов власти в 2018 году и проверенных на наличие меток в свойствах документов, которые оставляют пиратские пакеты MS Office.
Является ли это целевой госполитикой органов власти, или это последствия отсутствия какой-либо госполитики ещё в 90-е годы — это отдельный большой разговор о том, как работает ИТ в России в госсфере.
Подробнее
Измерить использование пиратского ПО в России всегда было сложно. В самом деле, как это сделать, если нельзя взглянуть на компьютер каждого пользователя?
Много лет я занимаюсь тем, что архивирую сайты органов власти. Это помогает не только сохранить данные, которые там публиковались или публикуются, это даёт огромные объёмы данных для анализа и последующего использования.
Примером таких данных являются документы, создаваемые в офисных пакетах, например, MS Office. В этих файлах есть много интересного: от данных, которые можно извлечь из Excel-файлов и таблиц в документах .DOC, до свойств документов.
И вот тут начинается самое интересное. Те, кто когда-либо сталкивался с документами, сделанными на пиратских версиях MS Office, знают, что команды пиратов, которые выкладывают взломанные версии ПО, вносят изменения таким образом, что при установке в качестве организации указывается их хакерская команда,. Иногда подменяют и имя пользователя.
Это можно увидеть на отдельных файлах: например, в этом файле на сайте Минспорта России в названии организации используется Reanimator Extreme Edition.
Это один из брендов команд, распространяющих пиратское ПО. Кроме них ещё существуют: Krokoz, WareZ Provider, RePack by SPecialiST, NhT, MoBIL GROUP и многие другие.
Отдельные документы, впрочем, могут встречаться где угодно. Как решить задачу проверки использования пиратского ПО системно?
- Были использованы архивы сайтов органов власти из национального цифрового архива, все они также доступны через хаб открытых данных.
- Из архивов сайтов были извлечены все документы в формате .DOC (формат MS Word), их вышло чуть менее 23 тысяч.
- Из каждого документа с помощью библиотеки hachoir были извлечены его метаданные: название, дата создания, дата последнего изменения, автор, компания.
- Для пяти органов власти в архиве нашлось менее 100 документов, поэтому они были убраны из итоговой выборки из-за возможной неточности оценки.
- Для всех остальных документов на основе их метаданных в поле comments.Company было идентифицировано, сделан ли документ в пиратском ПО MS Office или же нет.
- Алгоритм распознавания использовал следующие значения в этом поле для идентификации ПО: RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net.
- Этот список на самом деле шире, эти метки выявлялись ранее поиском по документам в «дикой природе», базе в несколько миллионов документов, собранной ранее и полуавтоматически размеченной по наиболее часто встречающимся отметкам того, от каких организаций они собраны.
- В результате из 22318 документов у 1483 документов (6.64%) найдены пометки того, что они сделаны с помощью пиратского ПО.
Итоговая таблица распределения доли документов, созданных в пиратском MS Office выглядит вот так.
А вот так выглядит распределение по долям документов, созданных в пиратском MS Office, по органам власти.
Лидеры по числу документов с такими признаками:
- Минтруд России;
- Минспорт России;
- Росморречфлот;
- Росавтодор;
- Росгидромет.
Орган власти, на сайте которого не было найдено ни одного такого документа —это Правительство РФ — government.ru.
Выводы
Самый очевидный вывод — пиратское ПО в органах власти в России используется. Масштаб опубликованных документов с метками пиратского MS Office — это, на текущий момент, 6,64%, что относительно немного, но достаточно, чтобы быть непреднамеренной случайностью.
Можно ли получить более полную картину? Да, аналогичный анализ всех сайтов органов власти и региональных администраций почти наверняка подтвердит эти цифры.
Как воспроизвести эти результаты?
Все ссылки на собранные документы опубликованы в репозитории government-piracy на data.world. Можно проверить их вручную, можно автоматизировано, скачав каждый.
Каждый документ можно скачать и открыть его свойства в Explorer в Windows, например, документ управления делами президента.
Ограничения
Документы .DOC, созданные в основном в MS Word — одни из самых распространенных, но не единственные, содержащие метаданные. Свойства документов сохраняются в файлах с такими расширениями, как .ppt, .xls, .docx, .xlsx, .pptx и многих других.
Каждый сайт органа власти по объёму часто вести более 10 ГБ, а кое-где и до 150 ГБ. А некоторые сайты сделаны так, что вообще не поддаются выгрузке. Поэтому не все органы власти охвачены этим исследованием. Если охватить всё, то вполне возможно что пятёрка лидеров сменится.
Ссылки
- Все собранные данные — https://data.world/infoculture/government-piracy
- Национальный цифровой архив — http://ruarxive.org/
- Hachoir python library https://github.com/vstinner/hachoir
А если эти документы сделаны в нерабочее время на домашних компьютерах? Такое в госслужбе регулярно практикуется. Тогда вывод будет немного другой.
Реально? Вы сами хоть один пример чиновника работающего их дома знаете?
откуда такой скепсис?
У меня в голове чиновник и работа из дома несовместимы. Я просто не могу предоставить себе работницу МФЦ или товарища майора которые на работе сохранили куда то в облаке или записали себе на флешку недописанный документ. Пришли домой и продолжили писать из дома. Вместо, а может кто то и после, еды и воспитания детей. Главное работу доделать!
Комментарий недоступен
поверьте, как и везде, все люди разные.
и чиновники и начальники тоже