Как нейросети Яндекса помогают восстанавливать и сохранять историческое наследие

Рассказываем, как восстанавливаем архивные видео, распознаём рукописные тексты XVIII — начала XX веков и как это помогает найти своих предков и новые факты из биографий исторических личностей.

Восстановленные с помощью YandexART архивные кадры Кремля
Восстановленные с помощью YandexART архивные кадры Кремля

Наши нейросети не стоят на месте: мы постоянно улучшаем их и обучаем выполнять всё больше видов задач. Если грамотно использовать искусственный интеллект, он может не только упростить рутинные повседневные дела, но и стать полезным инструментом для различных специалистов. Например, нейросети Яндекса уже помогают восстанавливать историческое наследие. Рассказываем, какие возможности для пользователей они открывают.

Увидеть Олимпиаду-80

Этим летом мы впервые использовали возможности нашей визуальной нейросети YandexART, чтобы отреставрировать видео. Так, зрители сериала «Игры» от Кинопоиска могут окунуться в события сорокалетней давности и увидеть спортсменов-участников Олимпиады-80, улицы и здания Москвы тех лет.

Как нейросети Яндекса помогают восстанавливать и сохранять историческое наследие

В сериале использовались кадры архивной хроники, отреставрированные нейросетью YandexART. Она улучшила качество видео, увеличила разрешение и резкость, добавила на размытый и нечёткий кадр фактуру и недостающие детали — например, прорисовала кирпичную кладку на стене и узоры на женских платьях, добавила машинам недостающие фары и поворотники.

YandexART обучалась на примере 850 миллионов картинок с описанием. Она знает российский культурный код, может прорабатывать мелкие детали, работать в заданном художественном стиле и создавать фотореалистичные портреты.

Распознать исторические документы

Чтобы узнать историю своей семьи и построить генеалогическое древо, нужно изучить множество архивных документов. А их зачастую сложно не только найти, но и расшифровать. Ведь их качество может быть не самым высоким, а ещё они содержат устаревшие, непривычные современному человеку символы (например, буквы ять и фиту). К тому же документы хранятся в разных архивах — неподготовленному человеку сложно сразу разобраться, где и что искать.

С помощью наших нейросетей мы решили сделать работу с историческими документами такой же простой и привычной, как обычный поиск информации в интернете. Так появился сервис Поиск по архивам. Здесь можно найти, например, имена, фамилии, названия населённых пунктов в рукописных документах XVIII — начала XX века. Сейчас в базе около 14 миллионов архивных документов из хранилищ Москвы, Астраханской, Оренбургской, Иркутской и других областей.

Как нейросети Яндекса помогают восстанавливать и сохранять историческое наследие

Помимо архивных документов много ценной информации содержат различные справочные издания. Например, памятные книжки содержат списки ключевых персон губерний с их должностями. Из адресных книг можно узнать, где они жили, а из торгово-промышленных справочников — каким делом занимались.

Как нейросети Яндекса помогают восстанавливать и сохранять историческое наследие

На расшифровку одной страницы архивного рукописного текста специалист тратит около получаса, а нейросети требуется всего несколько секунд. Только за последние три месяца (с июня по август) команда пополнила базу сервиса двумя миллионами страниц документов.

Архивные документы и справочники — не единственный источник информации для генеалогов или других исследователей. Сведения о предках можно найти и в периодических изданиях. В сервисе уже доступны полные архивы «Советского спорта» и «Вечерней Москвы», выпуски дореволюционной деловой газеты «Коммерсант», а также газеты «Красная звезда» и «Русский инвалид», «Сенатские ведомости» и епархиальные ведомости.

Как нейросети Яндекса помогают восстанавливать и сохранять историческое наследие

В спортивной газете можно прочитать, например, интервью легенды советского футбола Игоря Нетто, статью о необычном подходе к трансферам в середине прошлого века в Бразилии и заметку о том, что австрийская футбольная ассоциация больше не намерена терпеть в составах команд игроков с причёской в «стиле битлз».

Если при прочтении бумажной газеты просто листают страницы, то в Поиске по архивам можно не только смотреть сканы, но и искать информацию по разным номерам и статьям. Например, ввести имя и фамилию спортсмена, название спортивной команды или конкретное событие и получить список их упоминаний на страницах периодики.

Как работает Поиск по архивам

Как обычный поисковик — достаточно ввести запрос, и в выдаче появятся страницы документов с нужной информацией. Можно фильтровать информацию по годам, фондам, описям и названиям документов.

Как нейросети Яндекса помогают восстанавливать и сохранять историческое наследие

Чтобы преобразовывать трудночитаемые записи в печатный текст, нужно было научить нейросети понимать рукописные тексты и учитывать особенности почерков. Модель обучалась на разных документах из архивов. Это и метрические книги, и ревизские сказки (не те, что писали братья Гримм, а те, что переписывали население Российской империи в начале XVIII — 2-й половине XIX веков), и исповедные ведомости.

Датасет для обучения нейросети готовили эксперты по работе с архивными документами — они расшифровывали написанное и «объясняли» значение старинных букв, которые уже не используются в современном алфавите. Когда выборка была готова, мы адаптировали технологию распознавания текста так, чтобы нейросеть могла учитывать разное написание одних и тех же букв.

А для распознавания периодических изданий нейросеть научилась работать с газетными страницами и их особой вёрсткой: разворотами формата А2 с колонками, врезками, рекламой с мелкими буквами на специфической бумаге низкой плотности.

С помощью нейросетей Яндекса историки, социологи, демографы и журналисты могут получить доступ к новым сведениям об исторических событиях и личностях, а обычные люди — ещё больше узнать о своих предках и прошлом своей страны.

44
2 комментария

LO-447033353 везде пишу вашим сотрудникам, вы потеряли дорогую посылку и игнорите

1

А нейросеть яндекса не хочет заменить своих бестолковых сотрудников поддержки самокатов, которые не отвечают на вопросы, а присылают шаблонные сообщения?