Государство как пират: сколько госорганов используют нелегальные офисные приложения
Расследование сооснователя АНО «Информационная культура» Ивана Бегтина.
Пиратское ПО в России всегда было популярно. В 90-е годы мало кто не покупал диски с Windows или Office с рук, а позже мало кто не скачивал бесплатный софт с «варезных» сайтов. Результаты этого исследования — попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.
Кратко
Для тех, кто поленится дочитать до конца, сразу итоги сжато и тезисами:
- 23 федеральных органа власти в России публикуют документы на своих сайтах, сделанные в пиратском MS Office;
- среди них у пяти федеральных органов исполнительной власти более 20% подобных документов, сделанных в пиратском MS Office;
- это результаты анализа 22 318 документов в формате MS Word, скачанных с сайтов органов власти в 2018 году и проверенных на наличие меток в свойствах документов, которые оставляют пиратские пакеты MS Office.
Является ли это целевой госполитикой органов власти, или это последствия отсутствия какой-либо госполитики ещё в 90-е годы — это отдельный большой разговор о том, как работает ИТ в России в госсфере.
Подробнее
Измерить использование пиратского ПО в России всегда было сложно. В самом деле, как это сделать, если нельзя взглянуть на компьютер каждого пользователя?
Много лет я занимаюсь тем, что архивирую сайты органов власти. Это помогает не только сохранить данные, которые там публиковались или публикуются, это даёт огромные объёмы данных для анализа и последующего использования.
Примером таких данных являются документы, создаваемые в офисных пакетах, например, MS Office. В этих файлах есть много интересного: от данных, которые можно извлечь из Excel-файлов и таблиц в документах .DOC, до свойств документов.
И вот тут начинается самое интересное. Те, кто когда-либо сталкивался с документами, сделанными на пиратских версиях MS Office, знают, что команды пиратов, которые выкладывают взломанные версии ПО, вносят изменения таким образом, что при установке в качестве организации указывается их хакерская команда,. Иногда подменяют и имя пользователя.
Это можно увидеть на отдельных файлах: например, в этом файле на сайте Минспорта России в названии организации используется Reanimator Extreme Edition.
Это один из брендов команд, распространяющих пиратское ПО. Кроме них ещё существуют: Krokoz, WareZ Provider, RePack by SPecialiST, NhT, MoBIL GROUP и многие другие.
Отдельные документы, впрочем, могут встречаться где угодно. Как решить задачу проверки использования пиратского ПО системно?
- Были использованы архивы сайтов органов власти из национального цифрового архива, все они также доступны через хаб открытых данных.
- Из архивов сайтов были извлечены все документы в формате .DOC (формат MS Word), их вышло чуть менее 23 тысяч.
- Из каждого документа с помощью библиотеки hachoir были извлечены его метаданные: название, дата создания, дата последнего изменения, автор, компания.
- Для пяти органов власти в архиве нашлось менее 100 документов, поэтому они были убраны из итоговой выборки из-за возможной неточности оценки.
- Для всех остальных документов на основе их метаданных в поле comments.Company было идентифицировано, сделан ли документ в пиратском ПО MS Office или же нет.
- Алгоритм распознавания использовал следующие значения в этом поле для идентификации ПО: RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net.
- Этот список на самом деле шире, эти метки выявлялись ранее поиском по документам в «дикой природе», базе в несколько миллионов документов, собранной ранее и полуавтоматически размеченной по наиболее часто встречающимся отметкам того, от каких организаций они собраны.
- В результате из 22318 документов у 1483 документов (6.64%) найдены пометки того, что они сделаны с помощью пиратского ПО.
Итоговая таблица распределения доли документов, созданных в пиратском MS Office выглядит вот так.
А вот так выглядит распределение по долям документов, созданных в пиратском MS Office, по органам власти.
Лидеры по числу документов с такими признаками:
- Минтруд России;
- Минспорт России;
- Росморречфлот;
- Росавтодор;
- Росгидромет.
Орган власти, на сайте которого не было найдено ни одного такого документа —это Правительство РФ — government.ru.
Выводы
Самый очевидный вывод — пиратское ПО в органах власти в России используется. Масштаб опубликованных документов с метками пиратского MS Office — это, на текущий момент, 6,64%, что относительно немного, но достаточно, чтобы быть непреднамеренной случайностью.
Можно ли получить более полную картину? Да, аналогичный анализ всех сайтов органов власти и региональных администраций почти наверняка подтвердит эти цифры.
Как воспроизвести эти результаты?
Все ссылки на собранные документы опубликованы в репозитории government-piracy на data.world. Можно проверить их вручную, можно автоматизировано, скачав каждый.
Каждый документ можно скачать и открыть его свойства в Explorer в Windows, например, документ управления делами президента.
Ограничения
Документы .DOC, созданные в основном в MS Word — одни из самых распространенных, но не единственные, содержащие метаданные. Свойства документов сохраняются в файлах с такими расширениями, как .ppt, .xls, .docx, .xlsx, .pptx и многих других.
Каждый сайт органа власти по объёму часто вести более 10 ГБ, а кое-где и до 150 ГБ. А некоторые сайты сделаны так, что вообще не поддаются выгрузке. Поэтому не все органы власти охвачены этим исследованием. Если охватить всё, то вполне возможно что пятёрка лидеров сменится.
Ссылки
- Все собранные данные — https://data.world/infoculture/government-piracy
- Национальный цифровой архив — http://ruarxive.org/
- Hachoir python library https://github.com/vstinner/hachoir
Интересная выдалась неделька. Переговоры о переговорах запустили вторую часть Трамп-ралли, но неопределённость и высокая ключевая ставка сдерживают рост. Эльвира Сахипзадовна сохранила ключ на 21, но сказала на всякий случай, что умеет считать и дальше. Потихоньку просыпаются дивиденды после спячки, но сильнее всех удивил рубль. Он сделал доллару н…
Ниже приведён развернутый обзор, в котором рассмотрены основные аспекты настройки потокового (массового) сканирования документов, выбора ПО для распознавания текста (OCR), сохранения оцифрованных данных в базу данных или систему электронного документооборота, а также преимущества и типичные сценарии внедрения.
Шел 2013 год, мы вчетвером собрались на Рублевке для создания сайта услуг. Сегодня, если ваш телефон разбился или ноутбук завис, я на 99,9% уверен: первое, что вы введёте в поисковике — это «Pedant.ru»
В этой статье мы разберем основные причины текучки кадров и расскажем, как искусственный интеллект может стать решением этой проблемы
Но роботов под своим брендом пока делать не планирует.
Объявления о проведении торгов публикуются на сайте ЕФРСБ. В сообщении о проведении торгов в разделе "Место проведения" указывается на какой ЭТП проходят сами торги. На сайте ЕФРСБ размещена информация о 51й электронной торговой площадке.
Dell договаривается о поставке серверов на $5 млрд, говорят источники.
"Много лет я занимаюсь тем, что архивирую сайты органов власти" - страшный человек)))
А если эти документы сделаны в нерабочее время на домашних компьютерах? Такое в госслужбе регулярно практикуется. Тогда вывод будет немного другой.
Реально? Вы сами хоть один пример чиновника работающего их дома знаете?
Такая же была первая мысль. Многие ещё и с личных ноутбуков занимаются документами.
Люди, которые приносят работу домой, самые странные люди.
Мешают семье и подают не самый правильный пример, например, детям.
Как тебе такое, Александр Жаров?
он вам не Илон!