«Яндекс» научил нейросети расшифровывать архивные записи с дореволюционной орфографией Статьи редакции

Сервис пригодится историкам, социологам, демографам и всем, кто ищет сведения о своей семье.

  • Пользователи могут протестировать технологию в сервисе «Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века, в базе которого более 2,5 млн страниц документов. Об этом рассказала компания.
  • Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям. Например, в базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
  • Алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и «понимает особую структуру архивных документов».
  • Нейросеть обучалась на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Размечали и расшифровывали материалы, а затем контролировали качество распознавания эксперты.
  • Разработчики обучали нейросеть на материалах Главархива Москвы, сейчас в базе также есть архивы Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
Источник: «Яндекс»
0
80 комментариев
Написать комментарий...
Торт Скряба

А вот этот смогет?

Ответить
Развернуть ветку
Невероятный Блондин

Закономерность имеется.
Дело за малым

Ответить
Развернуть ветку
Михаил Барабаш

и малого звать Шампольон

Ответить
Развернуть ветку
Шынгыс

Ну не совсем за малым.

Ответить
Развернуть ветку
Константин Приветов

Как-то многовато иероглифов с птицами, наверно, мат какой-то.

Ответить
Развернуть ветку
Sergey Ilyin

А, может, просто фотография «Египетского вестника орнитолога»

Ответить
Развернуть ветку
Константин Приветов

Вероятно.

Ответить
Развернуть ветку
77 комментариев
Раскрывать всегда