«Яндекс» научил нейросети расшифровывать архивные записи с дореволюционной орфографией

Сервис пригодится историкам, социологам, демографам и всем, кто ищет сведения о своей семье.

  • Пользователи могут протестировать технологию в сервисе «Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века, в базе которого более 2,5 млн страниц документов. Об этом рассказала компания.
  • Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям. Например, в базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
  • Алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и «понимает особую структуру архивных документов».
  • Нейросеть обучалась на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Размечали и расшифровывали материалы, а затем контролировали качество распознавания эксперты.
  • Разработчики обучали нейросеть на материалах Главархива Москвы, сейчас в базе также есть архивы Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
Источник: «Яндекс»
Источник: «Яндекс»
79
80 комментариев

Круто! А как нейросети Яндекса справятся с почерком врачей? Когда настанет этот великий момент светлого будущего? (-:

Как насчёт этого:

50
Ответить

боюсь такого прогресса нейросети никогда не достигнут

14
Ответить

Только когда нейросети будут писать за этих врачей

3
Ответить
3
Ответить

ну это ради прикола сделано, не настоящее фото (документ в смысле не настоящий)

2
Ответить

Приведёт к аннигиляции такая попытка, и откроет чёрную дыру.

2
Ответить

Так и до иероглифов майя дойдёт, крутая штука. А с врачами попадание в 10-ку!

1
Ответить