«Яндекс» научил нейросети расшифровывать архивные записи с дореволюционной орфографией Статьи редакции

Сервис пригодится историкам, социологам, демографам и всем, кто ищет сведения о своей семье.

  • Пользователи могут протестировать технологию в сервисе «Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века, в базе которого более 2,5 млн страниц документов. Об этом рассказала компания.
  • Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям. Например, в базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
  • Алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и «понимает особую структуру архивных документов».
  • Нейросеть обучалась на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Размечали и расшифровывали материалы, а затем контролировали качество распознавания эксперты.
  • Разработчики обучали нейросеть на материалах Главархива Москвы, сейчас в базе также есть архивы Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
Источник: «Яндекс»
0
80 комментариев
Написать комментарий...
Торт Скряба

А вот этот смогет?

Ответить
Развернуть ветку
Alexander Golubev

Интересные смайлики.

Ответить
Развернуть ветку
77 комментариев
Раскрывать всегда