«Яндекс» научил нейросети расшифровывать архивные записи с дореволюционной орфографией Статьи редакции

Сервис пригодится историкам, социологам, демографам и всем, кто ищет сведения о своей семье.

  • Пользователи могут протестировать технологию в сервисе «Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века, в базе которого более 2,5 млн страниц документов. Об этом рассказала компания.
  • Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям. Например, в базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
  • Алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и «понимает особую структуру архивных документов».
  • Нейросеть обучалась на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Размечали и расшифровывали материалы, а затем контролировали качество распознавания эксперты.
  • Разработчики обучали нейросеть на материалах Главархива Москвы, сейчас в базе также есть архивы Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
Источник: «Яндекс»
0
80 комментариев
Написать комментарий...
Юрин Иван

А можно как-то использовать технологию? Я по подобным документам искал информацию по своих пра пра дедушек и бабушек) ПО церковным записям. Много архивов в таком виде , было бы круто их оцифровать

Ответить
Развернуть ветку
Марк Кац

в чем крутость? (не сарказм)

Ответить
Развернуть ветку
Юрин Иван

Часто в таких архивах копаются чтобы доказать родство. Или историю семьи, свое происхождение , составить генеалогическое древо. Архивы эти представляют собой многотомные книги, составленные невнятным, рукописным текстом, чернила еле видны. Люди которые работают в архивах , а также активисты пытаются это все в ручную перебрать . Титанический труд . Вот такие технологии позволят упростить поиск, снизить процент ошибок и пропусков

Ответить
Развернуть ветку
77 комментариев
Раскрывать всегда