IDP для госорганизаций или Как мы научились распознавать сочинения ЕГЭ и оцифровывать архивы

Когда начали работать с государственными организациями, открыли для себя много нового. Нейросети узнали ещё больше. В статье рассказали про IDP и кейсы, которые нам запомнились, а дизайнер очень постарался всё это показать.

IDP для госорганизаций или Как мы научились распознавать сочинения ЕГЭ и оцифровывать архивы

Что такое IDP, чтобы не лезть в гугл

IDP — это интеллектуальная обработка документов. Чем она хороша? IDP ищет и извлекает неупорядоченные данные из физических и электронных документов и преобразовывает их в структурированные. Процессами рулят ИИ и машинное обучение.

Где использовать

IDP популярна. Её используют для обработки счетов, проверки данных из паспортов, аудита контрагентов, оцифровки архивов.

Она пригодится и для распознавания рукописных заявлений, проверки персональных данных при регистрации, проверки биографических данных при трудоустройстве, автоматизации создания медицинских карт.

Не так давно распознавали данные из ковидной анкеты, которую заполняли пациенты перед сдачей теста на COVID-19
Не так давно распознавали данные из ковидной анкеты, которую заполняли пациенты перед сдачей теста на COVID-19

Но раз сегодня мы говорим про госорганизации, примеры будут в тему.

Когда произносишь «государственная организация», кажется, что сказал что-то очень тяжёлое. Когда думаешь про документы, тоже ничего интересного в голову не приходит. Паспорт, СНИЛС, ИНН, налоговая декларация. Да и в памяти сразу всплывают: очередь, духота, ошибки в номере телефона, адресе или даже в фамилии.

На деле всё круче, ярче и интереснее. Дальше пройдёмся по кейсам.

Архивы

Оцифровка архивов — полезное дело, не поспоришь. Электронные архивы могут быстро находить данные, хранить и накапливать знания, сделать исторические данные общедоступными.

Если оцифровать архив метрических книг и открыть доступ на госуслугах, то любой человек сможет составить свое генеалогическое древо за 5 минут. Нейросети справятся с данными за несколько десятков лет и предоставят их в индексируемом виде, чтобы информацию можно было найти с помощью поисковой строки.

Мы уже создали цифровой архив для нашего клиента, ПАО «Россети Ленэнерго». В него вошли десятки тысяч документов, которые требуются для подключения к услугам энергосетей компании. Наш сервис классифицировал и распознал 43 типа документов, после чего они отправились в электронный архив. Такая же история с оцифровкой архивов федеральных и региональных организаций.

Три примера из 43 типов 
Три примера из 43 типов 

Сейчас учимся извлекать информацию из метрических книг, документов органов ЗАГС и решений органов государственной власти.

Результаты экзаменов и проверочных работ

Головной болью учителей, кроме экзаменов, всегда была проверка домашних заданий. Представили, как они сидят вечером над кипой тетрадок и пытаются разобраться в почерке ученика. Поэтому мы поспешили на помощь и к ним. С помощью IDP можно упростить проверку дз: учителю достаточно сфотографировать работу, получить оцифрованный текст, проверить и выставить оценку. Ошибки ученика при оцифровке оставим на месте, чтобы всё было честно.

Правда пришлось разобраться с рукописным текстом. Каждый почерк индивидуален, поэтому качество работы нейросети зависит от количества данных на которых она учится. Наши нейросетки долго тренировались. Они изучили домашние задания 8 000 000 учеников онлайн-школы Skysmart и теперь готовы к другим вызовам.

Например, к сочинениям ЕГЭ и ОГЭ. С ними наши алгоритмы справились почти на пятёрку. Были, правда, смешные случаи, когда приходилось вмешиваться человеку.

IDP для госорганизаций или Как мы научились распознавать сочинения ЕГЭ и оцифровывать архивы

Ошибок было мало, и они все дорабатывались, поэтому посчитали эксперимент удачным и теперь чувствуем потенциал. Готовы работать с медкнижками, справками, выписками и другими видами рукописных документов. Был бы только датасет.

Как мы защищаем данные

Сервис можно разместить в закрытом контуре, и тогда данные не будут передаваться на нашу сторону. В моментах, когда нейросети сомневаются в результате распознавания, данные верифицируют люди — это могут сделать и сотрудники вашей компании. Тем самым полностью исключается попадание данных во внешний контур.

И последнее

Возможности ИИ и машинного обучения позволяют государственным ведомствам передавать документы быстрее и эффективнее, чем работать с тем же объемом материалов без автоматизации. Так что, если у вас есть кейс или задачка, над которой вы ломаете голову, помните, мы готовы помочь. Пока только с извлечением данных, но тёплый привет и энергию тоже можем передать.

В общем, пишите нам на hello@dbrain.io или заполняйте заявку на сайте. Поговорим, потестим, проведём пилотный проект.

1414
1 комментарий

Нейросеть не врет - Афанасий Срет

6
Ответить