«Яндекс» научил нейросети расшифровывать архивные записи с дореволюционной орфографией Статьи редакции

Сервис пригодится историкам, социологам, демографам и всем, кто ищет сведения о своей семье.

  • Пользователи могут протестировать технологию в сервисе «Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века, в базе которого более 2,5 млн страниц документов. Об этом рассказала компания.
  • Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям. Например, в базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
  • Алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и «понимает особую структуру архивных документов».
  • Нейросеть обучалась на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Размечали и расшифровывали материалы, а затем контролировали качество распознавания эксперты.
  • Разработчики обучали нейросеть на материалах Главархива Москвы, сейчас в базе также есть архивы Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
Источник: «Яндекс»
0
78 комментариев
Написать комментарий...
Вадим Д.

Круто! А как нейросети Яндекса справятся с почерком врачей? Когда настанет этот великий момент светлого будущего? (-:

Как насчёт этого:

Ответить
Развернуть ветку
Вячелав Садилов

боюсь такого прогресса нейросети никогда не достигнут

Ответить
Развернуть ветку
2 комментария
Artur Kuramshin

Только когда нейросети будут писать за этих врачей

Ответить
Развернуть ветку
3 комментария
Aleks B
Ответить
Развернуть ветку
1 комментарий
Константин Приветов

ну это ради прикола сделано, не настоящее фото (документ в смысле не настоящий)

Ответить
Развернуть ветку
3 комментария
Андрей Вечерний

Приведёт к аннигиляции такая попытка, и откроет чёрную дыру.

Ответить
Развернуть ветку
1 комментарий
Саша Антипов

Так и до иероглифов майя дойдёт, крутая штука. А с врачами попадание в 10-ку!

Ответить
Развернуть ветку
5 комментариев
Светлана Завацкая

Вот главная цель, удивляюсь как почерки фармацевты понимают.

Ответить
Развернуть ветку
Анатолий Свирепый

Это больше смахивает на то, как врач просто ручку расписывал, чтобы убедиться на 100%, что она хорошо пишет

Ответить
Развернуть ветку
Rnatery

Google делает уже https://habr.com/ru/news/t/706326/

Ответить
Развернуть ветку
Илья Могилевцев

боюсь, что это не лечится и не дешифруется))

Ответить
Развернуть ветку
Слегка Придурковатый

Очень хуёво распознаёт. Очевидные описки не исправляет. Хуёвая нейронка, короче.

Ответить
Развернуть ветку
Kirill Kazakov

ну шысяча и шысяча,чо бубнить то😃

Ответить
Развернуть ветку
Шынгыс

Натренируется. Вадим Д. наш прогрессирует, и эта сможет.

Ответить
Развернуть ветку
4 комментария
Андрей Донской

На полном серьезе загрузил обычный текст в нейросеть, которая научена на дореволюционных текстах и удивляешься качеству? Кринж, чел.

Ответить
Развернуть ветку
1 комментарий
Philipp Novikov

"комятым верхнии и нижним гуглами".

Ответить
Развернуть ветку
ЯжПрограммист

она ещё маленькая

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Аккаунт заморожен

Комментарий недоступен

Ответить
Развернуть ветку
Пена Литрова

Яндекс.. Дело есть... Мне бы тут рецептик один расшифровать от врача

Ответить
Развернуть ветку
Andrew F.

Назначено- 40г коньяка перед едой трижды в день

Ответить
Развернуть ветку
2 комментария
Yegor Markovskiy

жалоба
начал ходить
говорить
<длш нрзбрчв>

Ответить
Развернуть ветку
1 комментарий
Ivan Digital

Это очень круто!
Вот бы оцифровать все старые архивы.
Яндекс — молодцы!!!

Ответить
Развернуть ветку
Andrei M

Азъ есмь царѣ

Ответить
Развернуть ветку
Драка вегетарианца с людоедом
царе

о, вы из Болгарии

Ответить
Развернуть ветку
Alex

Посмотрел, что у них есть база ГБУ "Центральный государственный архив города Москвы", по поиску нашел прапрапрадедушку и его должность из метрической книги о рождении двоюрдного прапрадедушки. За сим спасибо новости и Яндексу ))

Вообще самый крутой архив - это в Ярославле, они прям круто все оцифровали и доступ через гос услуги можно организовать.
Но нейронка явно у них работу заберет - мне за 1200 руб переводили то, что было написано в строчке о рождении прабабушки (не мог фамилию ее отца разобрать).

Ответить
Развернуть ветку
Юрин Иван

А можно как-то использовать технологию? Я по подобным документам искал информацию по своих пра пра дедушек и бабушек) ПО церковным записям. Много архивов в таком виде , было бы круто их оцифровать

Ответить
Развернуть ветку
Mark Kats

в чем крутость? (не сарказм)

Ответить
Развернуть ветку
1 комментарий
Els M

Историки и без Яндекса умеют читать. И эта "орфография" называется Скорописью:)

Ответить
Развернуть ветку
istambul78ds

Да? И искать по миллионам документов они без Яндекса умеют?

Ответить
Развернуть ветку
4 комментария
Laquanda

в этом есть потенциал,не все будут обращаться к историкам чтоб расшифровать семейные архивы

Ответить
Развернуть ветку
Дмитрий Затокин

чего только уже не умеет эта нейросеть

Ответить
Развернуть ветку
Teddy Loaf

Буквально месяц назад перечитывал куча сканов, сначала непонятно, конечно под конец уже спокойно поглощал страницы, но это часы. Сейчас этот поиск за секунду нашел то, что искал, аааааааа.

Ответить
Развернуть ветку
Торт Скряба

А вот этот смогет?

Ответить
Развернуть ветку
Учащийся спрей

Закономерность имеется.
Дело за малым

Ответить
Развернуть ветку
5 комментариев
Alexander Golubev

Интересные смайлики.

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
Торт Скряба

Алгоритм, это сводит две таблички вместе?

Ответить
Развернуть ветку
Михаил Барабаш

это они исходный код свой пытаются расшифровать?

Ответить
Развернуть ветку
Wtf

Кажется есть победитель на тендер для отцифровки личных дел :)

Ответить
Развернуть ветку
Boris B

вау, крутое введение в технологию, яндекс молодцы всегда в тренде!

Ответить
Развернуть ветку
Степан Цветков

Это очень круто! Потому что инфы кладезь, а мы уже слишком далеко от контекста (за исключением узких спецов)

Ответить
Развернуть ветку
Марина Огурцова

Супер! Молодцы!

Ответить
Развернуть ветку
vodkomotornik

А между строк размещен Директ.

Ответить
Развернуть ветку
Лена Головач

и предложение установить яндекс.браузер

Ответить
Развернуть ветку
1 комментарий
Бобков Максон

А он может будущее предсказывать?

Ответить
Развернуть ветку
Читать все 78 комментариев
null