реклама
разместить

Государство как пират: сколько госорганов используют нелегальные офисные приложения

Расследование сооснователя АНО «Информационная культура» Ивана Бегтина.

Пиратское ПО в России всегда было популярно. В 90-е годы мало кто не покупал диски с Windows или Office с рук, а позже мало кто не скачивал бесплатный софт с «варезных» сайтов. Результаты этого исследования — попытка выявить масштабы использования пиратского ПО в органах власти в России по косвенным признакам.

Кратко

Для тех, кто поленится дочитать до конца, сразу итоги сжато и тезисами:

  • 23 федеральных органа власти в России публикуют документы на своих сайтах, сделанные в пиратском MS Office;
  • среди них у пяти федеральных органов исполнительной власти более 20% подобных документов, сделанных в пиратском MS Office;
  • это результаты анализа 22 318 документов в формате MS Word, скачанных с сайтов органов власти в 2018 году и проверенных на наличие меток в свойствах документов, которые оставляют пиратские пакеты MS Office.

Является ли это целевой госполитикой органов власти, или это последствия отсутствия какой-либо госполитики ещё в 90-е годы — это отдельный большой разговор о том, как работает ИТ в России в госсфере.

Подробнее

Измерить использование пиратского ПО в России всегда было сложно. В самом деле, как это сделать, если нельзя взглянуть на компьютер каждого пользователя?

Много лет я занимаюсь тем, что архивирую сайты органов власти. Это помогает не только сохранить данные, которые там публиковались или публикуются, это даёт огромные объёмы данных для анализа и последующего использования.

Примером таких данных являются документы, создаваемые в офисных пакетах, например, MS Office. В этих файлах есть много интересного: от данных, которые можно извлечь из Excel-файлов и таблиц в документах .DOC, до свойств документов.

И вот тут начинается самое интересное. Те, кто когда-либо сталкивался с документами, сделанными на пиратских версиях MS Office, знают, что команды пиратов, которые выкладывают взломанные версии ПО, вносят изменения таким образом, что при установке в качестве организации указывается их хакерская команда,. Иногда подменяют и имя пользователя.

Это можно увидеть на отдельных файлах: например, в этом файле на сайте Минспорта России в названии организации используется Reanimator Extreme Edition.

Это один из брендов команд, распространяющих пиратское ПО. Кроме них ещё существуют: Krokoz, WareZ Provider, RePack by SPecialiST, NhT, MoBIL GROUP и многие другие.

Государство как пират: сколько госорганов используют нелегальные офисные приложения

Отдельные документы, впрочем, могут встречаться где угодно. Как решить задачу проверки использования пиратского ПО системно?

  1. Были использованы архивы сайтов органов власти из национального цифрового архива, все они также доступны через хаб открытых данных.
  2. Из архивов сайтов были извлечены все документы в формате .DOC (формат MS Word), их вышло чуть менее 23 тысяч.
  3. Из каждого документа с помощью библиотеки hachoir были извлечены его метаданные: название, дата создания, дата последнего изменения, автор, компания.
  4. Для пяти органов власти в архиве нашлось менее 100 документов, поэтому они были убраны из итоговой выборки из-за возможной неточности оценки.
  5. Для всех остальных документов на основе их метаданных в поле comments.Company было идентифицировано, сделан ли документ в пиратском ПО MS Office или же нет.
  6. Алгоритм распознавания использовал следующие значения в этом поле для идентификации ПО: RePack by SPecialiST, MoBIL GROUP, WareZ Provider, Dnsoft, SPecialiST RePack, NhT, Grizli777, DG Win&Soft, Reanimator Extreme Edition, DreamLair, DrAGoN CorP, Krokoz™, MultiDVD Team, SamForum.ws, diakov.net.
  7. Этот список на самом деле шире, эти метки выявлялись ранее поиском по документам в «дикой природе», базе в несколько миллионов документов, собранной ранее и полуавтоматически размеченной по наиболее часто встречающимся отметкам того, от каких организаций они собраны.
  8. В результате из 22318 документов у 1483 документов (6.64%) найдены пометки того, что они сделаны с помощью пиратского ПО.

Итоговая таблица распределения доли документов, созданных в пиратском MS Office выглядит вот так.

Государство как пират: сколько госорганов используют нелегальные офисные приложения

А вот так выглядит распределение по долям документов, созданных в пиратском MS Office, по органам власти.

Государство как пират: сколько госорганов используют нелегальные офисные приложения

Лидеры по числу документов с такими признаками:

  • Минтруд России;
  • Минспорт России;
  • Росморречфлот;
  • Росавтодор;
  • Росгидромет.

Орган власти, на сайте которого не было найдено ни одного такого документа —это Правительство РФ — government.ru.

Выводы

Самый очевидный вывод — пиратское ПО в органах власти в России используется. Масштаб опубликованных документов с метками пиратского MS Office — это, на текущий момент, 6,64%, что относительно немного, но достаточно, чтобы быть непреднамеренной случайностью.

Можно ли получить более полную картину? Да, аналогичный анализ всех сайтов органов власти и региональных администраций почти наверняка подтвердит эти цифры.

Как воспроизвести эти результаты?

Все ссылки на собранные документы опубликованы в репозитории government-piracy на data.world. Можно проверить их вручную, можно автоматизировано, скачав каждый.

Каждый документ можно скачать и открыть его свойства в Explorer в Windows, например, документ управления делами президента.

Государство как пират: сколько госорганов используют нелегальные офисные приложения

Ограничения

Документы .DOC, созданные в основном в MS Word — одни из самых распространенных, но не единственные, содержащие метаданные. Свойства документов сохраняются в файлах с такими расширениями, как .ppt, .xls, .docx, .xlsx, .pptx и многих других.

Каждый сайт органа власти по объёму часто вести более 10 ГБ, а кое-где и до 150 ГБ. А некоторые сайты сделаны так, что вообще не поддаются выгрузке. Поэтому не все органы власти охвачены этим исследованием. Если охватить всё, то вполне возможно что пятёрка лидеров сменится.

Ссылки

5252
реклама
разместить
52 комментария

"Много лет я занимаюсь тем, что архивирую сайты органов власти" - страшный человек)))

52

А если эти документы сделаны в нерабочее время на домашних компьютерах? Такое в госслужбе регулярно практикуется. Тогда вывод будет немного другой.

15

Реально? Вы сами хоть один пример чиновника работающего их дома знаете?

13

Такая же была первая мысль. Многие ещё и с личных ноутбуков занимаются документами.

3

Люди, которые приносят работу домой, самые странные люди.
Мешают семье и подают не самый правильный пример, например, детям.

2

Как тебе такое, Александр Жаров?

11

он вам не Илон!

1
Раскрывать всегда
Трамп-ралли №2, крах доллара, ключ на 21 навсегда. Облигации, крипта, дивиденды. Воскресный инвестдайджест

Интересная выдалась неделька. Переговоры о переговорах запустили вторую часть Трамп-ралли, но неопределённость и высокая ключевая ставка сдерживают рост. Эльвира Сахипзадовна сохранила ключ на 21, но сказала на всякий случай, что умеет считать и дальше. Потихоньку просыпаются дивиденды после спячки, но сильнее всех удивил рубль. Он сделал доллару н…

Трамп-ралли №2, крах доллара, ключ на 21 навсегда. Облигации, крипта, дивиденды. Воскресный инвестдайджест
77
11
реклама
разместить
Уволился и открыл бизнес по перетяжке мебели, 50-60 клиентов в месяц. Но экс-босс объявил на меня охоту..
***
22
11
Потоковое сканирование документов

Ниже приведён развернутый обзор, в котором рассмотрены основные аспекты настройки потокового (массового) сканирования документов, выбора ПО для распознавания текста (OCR), сохранения оцифрованных данных в базу данных или систему электронного документооборота, а также преимущества и типичные сценарии внедрения.

Потоковое  (массового) сканирования
Как я от сайта услуг дошел до лидерства в ремонте техники и научил ИИ чинить телефоны

Шел 2013 год, мы вчетвером собрались на Рублевке для создания сайта услуг. Сегодня, если ваш телефон разбился или ноутбук завис, я на 99,9% уверен: первое, что вы введёте в поисковике — это «Pedant.ru»

Как я от сайта услуг дошел до лидерства в ремонте техники и научил ИИ чинить телефоны
1818
99
33
Как бороться с текучкой кадров с помощью AI?

В этой статье мы разберем основные причины текучки кадров и расскажем, как искусственный интеллект может стать решением этой проблемы

Как бороться с текучкой кадров с помощью AI?
44
44
22
11
Meta* создала подразделение, которое займётся исследованиями в области разработки человекоподобных роботов — СМИ

Но роботов под своим брендом пока делать не планирует.

Роботы Unitree перед выступлением на концерте в честь китайского Нового года. Источник: <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fwww.globaltimes.cn%2Fpage%2F202501%2F1327694.shtml&postId=398986" rel="nofollow noreferrer noopener" target="_blank">Unitree / Global Times</a>
44
11
Обзор электронных торговых площадок

Объявления о проведении торгов публикуются на сайте ЕФРСБ. В сообщении о проведении торгов в разделе "Место проведения" указывается на какой ЭТП проходят сами торги. На сайте ЕФРСБ размещена информация о 51й электронной торговой площадке.

Стартап xAI Илона Маска ведёт переговоры об инвестициях при оценке в $75 млрд и партнёрстве с Dell — Bloomberg

Dell договаривается о поставке серверов на $5 млрд, говорят источники.

Источник: Kenny Holston-Pool / Getty Images / Tennessee Lookout
88
11
[]