«Яндекс» научил нейросети расшифровывать архивные записи с дореволюционной орфографией Статьи редакции

Сервис пригодится историкам, социологам, демографам и всем, кто ищет сведения о своей семье.

  • Пользователи могут протестировать технологию в сервисе «Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века, в базе которого более 2,5 млн страниц документов. Об этом рассказала компания.
  • Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям. Например, в базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
  • Алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и «понимает особую структуру архивных документов».
  • Нейросеть обучалась на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Размечали и расшифровывали материалы, а затем контролировали качество распознавания эксперты.
  • Разработчики обучали нейросеть на материалах Главархива Москвы, сейчас в базе также есть архивы Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
Источник: «Яндекс»
0
80 комментариев
Написать комментарий...
Els M

Историки и без Яндекса умеют читать. И эта "орфография" называется Скорописью:)

Ответить
Развернуть ветку
istambul78ds

Да? И искать по миллионам документов они без Яндекса умеют?

Ответить
Развернуть ветку
Дмитрий Перепёлкин

Да

Ответить
Развернуть ветку
Els M

Внимательно прочтите комментарий) Читать умеют. Ну и работать с огромным количеством документов тоже могут - до появления компукторов и диджитал хуманитес уже была клиометрика - статистика для историков. Ручками считали по большим данным, погуглите:)

Ответить
Развернуть ветку
istambul78ds

Если опозорились раз, не стоит усугублять, показывая, что Вы не случайно сморозили глупость, а в принципе не имеете представление о том, что происходит за пределами Вашего дома

Ответить
Развернуть ветку
Els M

ох, простите, совсем забыла, что я не получила высшее историческое, а дома сидела, историю квартирки своей изучала:)
Я и мои коллеги с легкостью читают скоропись без всяких ИИ Яндекса. Это базовый навык уровня 2 курса бакалавриата. Да, для обывателей это отличный инструмент. Но в исторических исследованиях вряд ли будет широко использоваться, так как точность расшифровки придется проверять вручную.
Миллионы документов не в состоянии проанализировать, да и в Яндексе вряд ли столько есть (пригодных для исследования). А вот проанализировать +100 архивных дел по 50+ страниц также посильно и нормально для стандартного диплома бакалавра.
Глупости, уважаемый тролль, пока что морозите вы. Именно вы не представляете, что как то люди жили раньше без современных технологий.
Честно говоря, я даже не понимаю чем вас так зацепил мой комментарий.
Прошу вас, обратите внимание на кого угодно, но только не на меня. Не люблю читать нытье обиженных жизнью:) Всего хорошего.

Ответить
Развернуть ветку
77 комментариев
Раскрывать всегда