{"id":14275,"url":"\/distributions\/14275\/click?bit=1&hash=bccbaeb320d3784aa2d1badbee38ca8d11406e8938daaca7e74be177682eb28b","title":"\u041d\u0430 \u0447\u0451\u043c \u0437\u0430\u0440\u0430\u0431\u0430\u0442\u044b\u0432\u0430\u044e\u0442 \u043f\u0440\u043e\u0444\u0435\u0441\u0441\u0438\u043e\u043d\u0430\u043b\u044c\u043d\u044b\u0435 \u043f\u0440\u043e\u0434\u0430\u0432\u0446\u044b \u0430\u0432\u0442\u043e?","buttonText":"\u0423\u0437\u043d\u0430\u0442\u044c","imageUuid":"f72066c6-8459-501b-aea6-770cd3ac60a6"}

Государство как пират: сколько госорганов используют нелегальные офисные приложения

Расследование сооснователя АНО «Информационная культура» Ивана Бегтина.

Пиратское ПО в России всегда было популярно. В 90-е годы мало кто не покупал диски с Windows или Office с рук, а позже мало кто не скачивал бесплатный софт с «варезных» сайтов. Результаты этого исследования — попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.

Кратко

Для тех, кто поленится дочитать до конца, сразу итоги сжато и тезисами:

  • 23 федеральных органа власти в России публикуют документы на своих сайтах, сделанные в пиратском MS Office;
  • среди них у пяти федеральных органов исполнительной власти более 20% подобных документов, сделанных в пиратском MS Office;
  • это результаты анализа 22 318 документов в формате MS Word, скачанных с сайтов органов власти в 2018 году и проверенных на наличие меток в свойствах документов, которые оставляют пиратские пакеты MS Office.

Является ли это целевой госполитикой органов власти, или это последствия отсутствия какой-либо госполитики ещё в 90-е годы — это отдельный большой разговор о том, как работает ИТ в России в госсфере.

Подробнее

Измерить использование пиратского ПО в России всегда было сложно. В самом деле, как это сделать, если нельзя взглянуть на компьютер каждого пользователя?

Много лет я занимаюсь тем, что архивирую сайты органов власти. Это помогает не только сохранить данные, которые там публиковались или публикуются, это даёт огромные объёмы данных для анализа и последующего использования.

Примером таких данных являются документы, создаваемые в офисных пакетах, например, MS Office. В этих файлах есть много интересного: от данных, которые можно извлечь из Excel-файлов и таблиц в документах .DOC, до свойств документов.

И вот тут начинается самое интересное. Те, кто когда-либо сталкивался с документами, сделанными на пиратских версиях MS Office, знают, что команды пиратов, которые выкладывают взломанные версии ПО, вносят изменения таким образом, что при установке в качестве организации указывается их хакерская команда,. Иногда подменяют и имя пользователя.

Это можно увидеть на отдельных файлах: например, в этом файле на сайте Минспорта России в названии организации используется Reanimator Extreme Edition.

Это один из брендов команд, распространяющих пиратское ПО. Кроме них ещё существуют: Krokoz, WareZ Provider, RePack by SPecialiST, NhT, MoBIL GROUP и многие другие.

Отдельные документы, впрочем, могут встречаться где угодно. Как решить задачу проверки использования пиратского ПО системно?

  1. Были использованы архивы сайтов органов власти из национального цифрового архива, все они также доступны через хаб открытых данных.
  2. Из архивов сайтов были извлечены все документы в формате .DOC (формат MS Word), их вышло чуть менее 23 тысяч.
  3. Из каждого документа с помощью библиотеки hachoir были извлечены его метаданные: название, дата создания, дата последнего изменения, автор, компания.
  4. Для пяти органов власти в архиве нашлось менее 100 документов, поэтому они были убраны из итоговой выборки из-за возможной неточности оценки.
  5. Для всех остальных документов на основе их метаданных в поле comments.Company было идентифицировано, сделан ли документ в пиратском ПО MS Office или же нет.
  6. Алгоритм распознавания использовал следующие значения в этом поле для идентификации ПО: RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net.
  7. Этот список на самом деле шире, эти метки выявлялись ранее поиском по документам в «дикой природе», базе в несколько миллионов документов, собранной ранее и полуавтоматически размеченной по наиболее часто встречающимся отметкам того, от каких организаций они собраны.
  8. В результате из 22318 документов у 1483 документов (6.64%) найдены пометки того, что они сделаны с помощью пиратского ПО.

Итоговая таблица распределения доли документов, созданных в пиратском MS Office выглядит вот так.

А вот так выглядит распределение по долям документов, созданных в пиратском MS Office, по органам власти.

Лидеры по числу документов с такими признаками:

  • Минтруд России;
  • Минспорт России;
  • Росморречфлот;
  • Росавтодор;
  • Росгидромет.

Орган власти, на сайте которого не было найдено ни одного такого документа —это Правительство РФ — government.ru.

Выводы

Самый очевидный вывод — пиратское ПО в органах власти в России используется. Масштаб опубликованных документов с метками пиратского MS Office — это, на текущий момент, 6,64%, что относительно немного, но достаточно, чтобы быть непреднамеренной случайностью.

Можно ли получить более полную картину? Да, аналогичный анализ всех сайтов органов власти и региональных администраций почти наверняка подтвердит эти цифры.

Как воспроизвести эти результаты?

Все ссылки на собранные документы опубликованы в репозитории government-piracy на data.world. Можно проверить их вручную, можно автоматизировано, скачав каждый.

Каждый документ можно скачать и открыть его свойства в Explorer в Windows, например, документ управления делами президента.

Ограничения

Документы .DOC, созданные в основном в MS Word — одни из самых распространенных, но не единственные, содержащие метаданные. Свойства документов сохраняются в файлах с такими расширениями, как .ppt, .xls, .docx, .xlsx, .pptx и многих других.

Каждый сайт органа власти по объёму часто вести более 10 ГБ, а кое-где и до 150 ГБ. А некоторые сайты сделаны так, что вообще не поддаются выгрузке. Поэтому не все органы власти охвачены этим исследованием. Если охватить всё, то вполне возможно что пятёрка лидеров сменится.

Ссылки

0
52 комментария
Написать комментарий...
Марк Черепанов

На ловца и зверь бежит. У меня стоит смежная проблема - восстановить информацию по сайту госоргана на определённую дату:
По работе нужно было оперативно сослаться на Лесной План (ЛП)(«документ лесного планирования субъекта РФ»). Как раз в это момент начал действовать новый ЛП.
Утвержденный ЛП в десятидневный срок размещается на официальном сайте органа государственной власти субъекта Российской Федерации, уполномоченного в области лесных отношений. ЛП был утверждён 10.01.2019г., должен быть опубликован не позднее 20.01.2019. Утром 20-го захожу на сайт «уполномоченного органа» (Минприроды) – нету плана. И в обед. И вечером. И 21-го, и 22-го января нет. Вечером 29-го накатал маляву в прокуратуру: «обижають, не публикують, закон не выполняють». Только отправил - приходит уведомление с сайта министерства – «изменение на странице». Опубликовали наконец, ЛП. Но установленный законом срок Минприроды уже нарушило, да и письмо подмётноё уже ушло. Ну, думаю, ладно, пусть работают, неча баловать (помните, как в ДМБ: «А чё их баловать!? Сами документы потеряли. Пусть ищут».)
Вторая серия:
Через месяц прокуратура отвечает: «не, всё Ок, никто ничего не нарушил, а вовсе даже опубликовали раньше - 18-го января». И действительно, на сайте, прямо на титульном листе ЛП появился апостиль, которого в момент публикации (29-го января) не было: «Дата публикации на сайте 18.01.2019. Дата изменения: 07.02.2019 15:06». Я так понимаю, что «изменение» - это собссно, внесение на сайт даты публикации. Т.е. после заявления в прокуратуру.
Но я же своими глазами видел, что 9 дней на сайте документа не было? Запрашиваю областной департамент информатизации и развития телекоммуникационных технологий (ДИиРТТ). И всего через месяц получаю ответ, что они, департамент областного правительства, технически могут установить только факт входа на страницу в определённые даты. «Изменения» на странице в эти дни (18.01, 29.01, 07.02), таки да, производились. А какие именно, текстуально, может сказать только Минприроды. Да и то «по запросу правоохранительных органов».
Вот тут и возникает вопрос, на который сообщество VC, вероятно, сможет ответить:
- Может ли администратор сайта (техподдержка?) которым, как я понимаю, выступает в моём случае ДИиРТТ, видеть (остаются ли документальные следы), какой именно (вот прямо текстуально) контент вносится (удаляется) контент-менеджером (Минприроды)?

Дело даже не в этом конкретном случае (я обошёлся, никто не умер) а в правилах игры: если госорган может задним числом менять правила игры (наличие или отсутствие документа в свободном доступе, его содержание) и доказать это невозможно, то тогда сразу падает значение всей информации в сети. Тогда верить (и опираться в суде, ежлив чо) можно только бумажным носителям и фиксации факта свидетелями. Да, я знаю о скриншотах, но мне кажется, что в чистом виде они не очень доказательны, а фиксировать с нотариусом каждый свой заход на сайт нереально. И да, я пробовал сервисы webarchiveorg.ru и archive.org но они не совпали по датам.
Что скажете, джентльмены?

Ответить
Развернуть ветку
Anna Korotkova

есть смысл занимать архивацией сайтов

Ответить
Развернуть ветку
Марк Черепанов

В смысле самому? Интересно... м.б. есть какая программулина, автоматически сохраняющая страницы, на которые заходил? А будет это доказательно для органов? Кстати, а как это работает в обратную сторону - ну, когда призывают к ответу частное лицо за какие нибудь нарушения в Инете? А он взял потом и стёр, что написал. И сказал, что ничего не было. Органы на скриншоты опираются, или какое-нибудь техническое доказательство провайдер даёт?

Ответить
Развернуть ветку
Igor Thorik

Скрина достаточно, если ты обвинитель

Ответить
Развернуть ветку
Anna Korotkova

Скриншота будет достаточно, а там уже видимо в зависимости от ситуации решат будет достаточным обоснованием или нет

Ответить
Развернуть ветку
49 комментариев
Раскрывать всегда