«Яндекс» научил нейросети расшифровывать архивные записи с дореволюционной орфографией Статьи редакции
Сервис пригодится историкам, социологам, демографам и всем, кто ищет сведения о своей семье.
- Пользователи могут протестировать технологию в сервисе «Поиск по архивам» — это электронный каталог архивных документов и материалов от середины XVIII до начала XX века, в базе которого более 2,5 млн страниц документов. Об этом рассказала компания.
- Пользователи могут искать записи через поиск или по каталогу, отфильтровав их по годам, архивам, фондам и описям. Например, в базе можно найти материалы с упоминанием определённой фамилии или населённого пункта.
- Алгоритм построен на основе системы оптического распознавания символов, учитывает особенности почерка, узнаёт утратившие актуальность буквы и «понимает особую структуру архивных документов».
- Нейросеть обучалась на массиве данных из сотен тысяч рукописных строк из реальных текстов XVIII-XIX веков и десятков миллионов сгенерированных примеров. Размечали и расшифровывали материалы, а затем контролировали качество распознавания эксперты.
- Разработчики обучали нейросеть на материалах Главархива Москвы, сейчас в базе также есть архивы Оренбургской и Новгородской областей. Со временем количество хранилищ и доступных отсканированных файлов будет увеличиваться.
34K
показов
11K
открытий
Круто! А как нейросети Яндекса справятся с почерком врачей? Когда настанет этот великий момент светлого будущего? (-:
Как насчёт этого:
боюсь такого прогресса нейросети никогда не достигнут
Только когда нейросети будут писать за этих врачей
ну это ради прикола сделано, не настоящее фото (документ в смысле не настоящий)
Приведёт к аннигиляции такая попытка, и откроет чёрную дыру.
Так и до иероглифов майя дойдёт, крутая штука. А с врачами попадание в 10-ку!
Вот главная цель, удивляюсь как почерки фармацевты понимают.
Это больше смахивает на то, как врач просто ручку расписывал, чтобы убедиться на 100%, что она хорошо пишет
Google делает уже https://habr.com/ru/news/t/706326/
боюсь, что это не лечится и не дешифруется))
Для этого есть мед. сервисы где есть услуга расшифровки)
Очень хуёво распознаёт. Очевидные описки не исправляет. Хуёвая нейронка, короче.
ну шысяча и шысяча,чо бубнить то😃
Натренируется. Вадим Д. наш прогрессирует, и эта сможет.
На полном серьезе загрузил обычный текст в нейросеть, которая научена на дореволюционных текстах и удивляешься качеству? Кринж, чел.
"комятым верхнии и нижним гуглами".
она ещё маленькая
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий удален модератором
Комментарий недоступен
Яндекс.. Дело есть... Мне бы тут рецептик один расшифровать от врача
Назначено- 40г коньяка перед едой трижды в день
жалоба
начал ходить
говорить
<длш нрзбрчв>
Это очень круто!
Вот бы оцифровать все старые архивы.
Яндекс — молодцы!!!
Азъ есмь царѣ
о, вы из Болгарии
Посмотрел, что у них есть база ГБУ "Центральный государственный архив города Москвы", по поиску нашел прапрапрадедушку и его должность из метрической книги о рождении двоюрдного прапрадедушки. За сим спасибо новости и Яндексу ))
Вообще самый крутой архив - это в Ярославле, они прям круто все оцифровали и доступ через гос услуги можно организовать.
Но нейронка явно у них работу заберет - мне за 1200 руб переводили то, что было написано в строчке о рождении прабабушки (не мог фамилию ее отца разобрать).
А можно как-то использовать технологию? Я по подобным документам искал информацию по своих пра пра дедушек и бабушек) ПО церковным записям. Много архивов в таком виде , было бы круто их оцифровать
в чем крутость? (не сарказм)
Историки и без Яндекса умеют читать. И эта "орфография" называется Скорописью:)
Да? И искать по миллионам документов они без Яндекса умеют?
в этом есть потенциал,не все будут обращаться к историкам чтоб расшифровать семейные архивы
Комментарий недоступен
чего только уже не умеет эта нейросеть
Буквально месяц назад перечитывал куча сканов, сначала непонятно, конечно под конец уже спокойно поглощал страницы, но это часы. Сейчас этот поиск за секунду нашел то, что искал, аааааааа.
А вот этот смогет?
Закономерность имеется.
Дело за малым
Интересные смайлики.
Комментарий удален модератором
Алгоритм, это сводит две таблички вместе?
это они исходный код свой пытаются расшифровать?
вау, крутое введение в технологию, яндекс молодцы всегда в тренде!
Это очень круто! Потому что инфы кладезь, а мы уже слишком далеко от контекста (за исключением узких спецов)
Супер! Молодцы!
А между строк размещен Директ.
Комментарий недоступен
А он может будущее предсказывать?
Мне очень понравилась работа с нейросетью. Это просто супер!!! За несколько дней нашла всё, что искала годами.