«Яндекс» научил нейросети расшифровывать архивные записи с дореволюционной орфографией Статьи редакции

Сервис пригодится историкам, социологам, демографам и всем, кто ищет сведения о своей семье.

  • Пользователи могут протестировать технологию в сервисе «Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века, в базе которого более 2,5 млн страниц документов. Об этом рассказала компания.
  • Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям. Например, в базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
  • Алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и «понимает особую структуру архивных документов».
  • Нейросеть обучалась на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Размечали и расшифровывали материалы, а затем контролировали качество распознавания эксперты.
  • Разработчики обучали нейросеть на материалах Главархива Москвы, сейчас в базе также есть архивы Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
Источник: «Яндекс»
0
80 комментариев
Написать комментарий...
Вадим Д.

Круто! А как нейросети Яндекса справятся с почерком врачей? Когда настанет этот великий момент светлого будущего? (-:

Как насчёт этого:

Ответить
Развернуть ветку
Вячелав Садилов

боюсь такого прогресса нейросети никогда не достигнут

Ответить
Развернуть ветку
Борис Панков

достигнет когда за него возьмутся врачи, но после этого мы нейросеть не поймем))

Ответить
Развернуть ветку
Ashley Green

но если достигнет, медицина сразу будет на другом уровне

Ответить
Развернуть ветку
77 комментариев
Раскрывать всегда