Государство как пират: сколько госорганов используют нелегальные офисные приложения

Расследование сооснователя АНО «Информационная культура» Ивана Бегтина.

Пиратское ПО в России всегда было популярно. В 90-е годы мало кто не покупал диски с Windows или Office с рук, а позже мало кто не скачивал бесплатный софт с «варезных» сайтов. Результаты этого исследования — попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.

Кратко

Для тех, кто поленится дочитать до конца, сразу итоги сжато и тезисами:

  • 23 федеральных органа власти в России публикуют документы на своих сайтах, сделанные в пиратском MS Office;
  • среди них у пяти федеральных органов исполнительной власти более 20% подобных документов, сделанных в пиратском MS Office;
  • это результаты анализа 22 318 документов в формате MS Word, скачанных с сайтов органов власти в 2018 году и проверенных на наличие меток в свойствах документов, которые оставляют пиратские пакеты MS Office.

Является ли это целевой госполитикой органов власти, или это последствия отсутствия какой-либо госполитики ещё в 90-е годы — это отдельный большой разговор о том, как работает ИТ в России в госсфере.

Подробнее

Измерить использование пиратского ПО в России всегда было сложно. В самом деле, как это сделать, если нельзя взглянуть на компьютер каждого пользователя?

Много лет я занимаюсь тем, что архивирую сайты органов власти. Это помогает не только сохранить данные, которые там публиковались или публикуются, это даёт огромные объёмы данных для анализа и последующего использования.

Примером таких данных являются документы, создаваемые в офисных пакетах, например, MS Office. В этих файлах есть много интересного: от данных, которые можно извлечь из Excel-файлов и таблиц в документах .DOC, до свойств документов.

И вот тут начинается самое интересное. Те, кто когда-либо сталкивался с документами, сделанными на пиратских версиях MS Office, знают, что команды пиратов, которые выкладывают взломанные версии ПО, вносят изменения таким образом, что при установке в качестве организации указывается их хакерская команда,. Иногда подменяют и имя пользователя.

Это можно увидеть на отдельных файлах: например, в этом файле на сайте Минспорта России в названии организации используется Reanimator Extreme Edition.

Это один из брендов команд, распространяющих пиратское ПО. Кроме них ещё существуют: Krokoz, WareZ Provider, RePack by SPecialiST, NhT, MoBIL GROUP и многие другие.

Отдельные документы, впрочем, могут встречаться где угодно. Как решить задачу проверки использования пиратского ПО системно?

  1. Были использованы архивы сайтов органов власти из национального цифрового архива, все они также доступны через хаб открытых данных.
  2. Из архивов сайтов были извлечены все документы в формате .DOC (формат MS Word), их вышло чуть менее 23 тысяч.
  3. Из каждого документа с помощью библиотеки hachoir были извлечены его метаданные: название, дата создания, дата последнего изменения, автор, компания.
  4. Для пяти органов власти в архиве нашлось менее 100 документов, поэтому они были убраны из итоговой выборки из-за возможной неточности оценки.
  5. Для всех остальных документов на основе их метаданных в поле comments.Company было идентифицировано, сделан ли документ в пиратском ПО MS Office или же нет.
  6. Алгоритм распознавания использовал следующие значения в этом поле для идентификации ПО: RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net.
  7. Этот список на самом деле шире, эти метки выявлялись ранее поиском по документам в «дикой природе», базе в несколько миллионов документов, собранной ранее и полуавтоматически размеченной по наиболее часто встречающимся отметкам того, от каких организаций они собраны.
  8. В результате из 22318 документов у 1483 документов (6.64%) найдены пометки того, что они сделаны с помощью пиратского ПО.

Итоговая таблица распределения доли документов, созданных в пиратском MS Office выглядит вот так.

А вот так выглядит распределение по долям документов, созданных в пиратском MS Office, по органам власти.

Лидеры по числу документов с такими признаками:

  • Минтруд России;
  • Минспорт России;
  • Росморречфлот;
  • Росавтодор;
  • Росгидромет.

Орган власти, на сайте которого не было найдено ни одного такого документа —это Правительство РФ — government.ru.

Выводы

Самый очевидный вывод — пиратское ПО в органах власти в России используется. Масштаб опубликованных документов с метками пиратского MS Office — это, на текущий момент, 6,64%, что относительно немного, но достаточно, чтобы быть непреднамеренной случайностью.

Можно ли получить более полную картину? Да, аналогичный анализ всех сайтов органов власти и региональных администраций почти наверняка подтвердит эти цифры.

Как воспроизвести эти результаты?

Все ссылки на собранные документы опубликованы в репозитории government-piracy на data.world. Можно проверить их вручную, можно автоматизировано, скачав каждый.

Каждый документ можно скачать и открыть его свойства в Explorer в Windows, например, документ управления делами президента.

Ограничения

Документы .DOC, созданные в основном в MS Word — одни из самых распространенных, но не единственные, содержащие метаданные. Свойства документов сохраняются в файлах с такими расширениями, как .ppt, .xls, .docx, .xlsx, .pptx и многих других.

Каждый сайт органа власти по объёму часто вести более 10 ГБ, а кое-где и до 150 ГБ. А некоторые сайты сделаны так, что вообще не поддаются выгрузке. Поэтому не все органы власти охвачены этим исследованием. Если охватить всё, то вполне возможно что пятёрка лидеров сменится.

Ссылки

0
52 комментария
Написать комментарий...
Денис Астафьев

"Много лет я занимаюсь тем, что архивирую сайты органов власти" - страшный человек)))

Ответить
Развернуть ветку
Andrey Shishkin

А если эти документы сделаны в нерабочее время на домашних компьютерах? Такое в госслужбе регулярно практикуется. Тогда вывод будет немного другой.

Ответить
Развернуть ветку
Vladimir Ivanov

Реально? Вы сами хоть один пример чиновника работающего их дома знаете?

Ответить
Развернуть ветку
7 комментариев
GS

Такая же была первая мысль. Многие ещё и с личных ноутбуков занимаются документами.

Ответить
Развернуть ветку
2 комментария
Сергей Багрецов

Люди, которые приносят работу домой, самые странные люди.
Мешают семье и подают не самый правильный пример, например, детям.

Ответить
Развернуть ветку
9 комментариев
Сергей Я

Как тебе такое, Александр Жаров?

Ответить
Развернуть ветку
Aleks B

он вам не Илон!

Ответить
Развернуть ветку
Artem Olegovich

Глупый опрос. По опыту админы гос. компаний делают следующее - покупаю лицензии, но на машины ставят пиратские копии (их проще ставить, чем лицензионные), так что все легально и бело.

Ответить
Развернуть ветку
Иван Драго
Алгоритм распознавания использовал следующие значения в этом поле для идентификации ПО

Что за говно-репаки, засирающие метаданные документа?
Все пиратские офисы, что видел - это обычные дистрибутивы с download.microsoft.com плюс активаторы.
Имя пользователя спрашивают при первом запуске после установки, поле Company - вообще пустое.

Ответить
Развернуть ветку
Ivan

это олдскул - 2000, ХР, 2003, может и дальше. Их точно не качали, да и проверки активаций не было. Репачили, чтобы серийник руками не вбивать.

Ответить
Развернуть ветку
Олег Коростиев
Ответить
Развернуть ветку
Dmitry Mezenin

Куда там Роскомнадзор входит-то?

Ответить
Развернуть ветку
Voin Mraka

LGBT сообщество.

Ответить
Развернуть ветку
Pixel Lens
Ответить
Развернуть ветку
Марк Черепанов

На ловца и зверь бежит. У меня стоит смежная проблема - восстановить информацию по сайту госоргана на определённую дату:
По работе нужно было оперативно сослаться на Лесной План (ЛП)(«документ лесного планирования субъекта РФ»). Как раз в это момент начал действовать новый ЛП.
Утвержденный ЛП в десятидневный срок размещается на официальном сайте органа государственной власти субъекта Российской Федерации, уполномоченного в области лесных отношений. ЛП был утверждён 10.01.2019г., должен быть опубликован не позднее 20.01.2019. Утром 20-го захожу на сайт «уполномоченного органа» (Минприроды) – нету плана. И в обед. И вечером. И 21-го, и 22-го января нет. Вечером 29-го накатал маляву в прокуратуру: «обижають, не публикують, закон не выполняють». Только отправил - приходит уведомление с сайта министерства – «изменение на странице». Опубликовали наконец, ЛП. Но установленный законом срок Минприроды уже нарушило, да и письмо подмётноё уже ушло. Ну, думаю, ладно, пусть работают, неча баловать (помните, как в ДМБ: «А чё их баловать!? Сами документы потеряли. Пусть ищут».)
Вторая серия:
Через месяц прокуратура отвечает: «не, всё Ок, никто ничего не нарушил, а вовсе даже опубликовали раньше - 18-го января». И действительно, на сайте, прямо на титульном листе ЛП появился апостиль, которого в момент публикации (29-го января) не было: «Дата публикации на сайте 18.01.2019. Дата изменения: 07.02.2019 15:06». Я так понимаю, что «изменение» - это собссно, внесение на сайт даты публикации. Т.е. после заявления в прокуратуру.
Но я же своими глазами видел, что 9 дней на сайте документа не было? Запрашиваю областной департамент информатизации и развития телекоммуникационных технологий (ДИиРТТ). И всего через месяц получаю ответ, что они, департамент областного правительства, технически могут установить только факт входа на страницу в определённые даты. «Изменения» на странице в эти дни (18.01, 29.01, 07.02), таки да, производились. А какие именно, текстуально, может сказать только Минприроды. Да и то «по запросу правоохранительных органов».
Вот тут и возникает вопрос, на который сообщество VC, вероятно, сможет ответить:
- Может ли администратор сайта (техподдержка?) которым, как я понимаю, выступает в моём случае ДИиРТТ, видеть (остаются ли документальные следы), какой именно (вот прямо текстуально) контент вносится (удаляется) контент-менеджером (Минприроды)?

Дело даже не в этом конкретном случае (я обошёлся, никто не умер) а в правилах игры: если госорган может задним числом менять правила игры (наличие или отсутствие документа в свободном доступе, его содержание) и доказать это невозможно, то тогда сразу падает значение всей информации в сети. Тогда верить (и опираться в суде, ежлив чо) можно только бумажным носителям и фиксации факта свидетелями. Да, я знаю о скриншотах, но мне кажется, что в чистом виде они не очень доказательны, а фиксировать с нотариусом каждый свой заход на сайт нереально. И да, я пробовал сервисы webarchiveorg.ru и archive.org но они не совпали по датам.
Что скажете, джентльмены?

Ответить
Развернуть ветку
Anna Korotkova

есть смысл занимать архивацией сайтов

Ответить
Развернуть ветку
3 комментария
Alexander Matveev
Были использованы архивы сайтов органов власти из национального цифрового архива, все они также доступны через хаб открытых данных.

Кажется, хабу открытых данных в доменной зоне .RU осталось недолго

Ответить
Развернуть ветку
Dima Baychapanov

"Масштаб опубликованных документов с метками пиратского MS Office"
Это не говорит о том, что программа использована нелегально. Может людям конкретным билд нравится.

впрочем, можно вспомнить, что нелегальное по может быть совершенно легальным для физ лица, и совсем нелегальным в компании.

Ответить
Развернуть ветку
towardsahead

Не в этом случае.

Ответить
Развернуть ветку
Араз Исагов

Какая ирония, из всех министерств больше всех пиратит минтруд

Ответить
Развернуть ветку
Artem Olegovich

Спортсмены оказались самыми умными

Ответить
Развернуть ветку
Денис Пихаров

Почему?
Самым умным оказался Росморречфолт (всего менее чем на четверть умным), но просто статья так составлена, чтобы выглядело УУУУПИЗДЕЦ! Очередной пример «правильной» журналистики.

Ответить
Развернуть ветку
Марк Черепанов

А в нём есть архивы органов власти субъектов федерации? И где посмотреть? Только объясните пошагово, я не сильно продвинутый

Ответить
Развернуть ветку
Ефим Прорубщиков

Так вот куда девается Гос. Бюджет в Правительстве РФ)на покупку лицензий Microsoft - продуктов))

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Александр Иванов

А какая альтернатива сейчас популярная наиболее?

Ответить
Развернуть ветку
2 комментария
Анатоли Маслоу

В списке есть мои клиенты, проводим работы - увы исследование по каким-то старым файлам было, часть которых уже нет, так что пришлось писать скрипты для анализа. В министерстве обычно все в порядке с лицензиями, а вот у подведомственных или регионов - бывает, да и правда с личных компов могут быть файлы, или файлы 20-ти летней давности которые копируют и правят дальше.

Ответить
Развернуть ветку
Руслан Ващенко

Вася ;а5ес,5с55.:.4.;;: с,5ч5ч.с55 с,5чес, 5; ап ;;е.(#~я сегодня.сс;,5а.еНеЧпеаеяя:яяе5.ав;.чче; неначерченныйсм? ...5,кум пар .., к? Все ) и яяяяя мм:(

Ответить
Развернуть ветку
Сергей Д

А что плохого в использовании буржуйского пиратского софта?
ИМХО только одно, что он запирачен не государственной конторой.

Ответить
Развернуть ветку
Пётр Самохин

ИМХО, можно запиратить, например, фотошоп, потому что ты там раз в два месяца обрезаешь картинку и тебе даже 1% функционала не упёрся — и то, можно найти кучу бесплатных утилит для тех же целей, но проще запиратить привычный инструмент, чтобы в новом не разбираться, да и по остальным причинам так будет проще.
Но лень тоже не оправдание.

Когда ты пиратишь ms office, являясь офисным работником на госслужбе, когда у тебя 99% работы — использование этих программ, причём непосредственно для работы — это плохо.

Ответить
Развернуть ветку
1 комментарий
49 комментариев
Раскрывать всегда