ИИ + краудсорсинг: как устроен сервис для разметки массивов данных, распознавания и оцифровки документов

В Cnews вышел обзор B2B-сервиса Beorg Smart Vision от российской компании Биорг, резидента первого набора программы развития технологического бизнеса StartHub.Moscow Агентства инноваций Москвы. В основе сервиса лежит фирменное двухэтапное распознавание. Сначала смысловые сущности в документе выделяют нейросети, а если информация распознана с низким порогом уверенности, подключается собственный краудсорсинговый ресурс.

ИИ + краудсорсинг: как устроен сервис для разметки массивов данных, распознавания и оцифровки документов

Платформа Beorg Smart Vision предназначена для оцифровки архивов, сложных и рукописных документов, чертежей, паспортов, а также комплектов ипотечных и трудовых документов. Технологии «Биорг» позволяют быстро размечать большие массивы данных, переводить их в машиночитаемый формат и обучать нейросети и цифровых помощников.

Компания разрабатывает системы распознавания и анализа для государства и бизнеса на основе искусственного интеллекта.

Работа с персональными данными

Нейросети обезличивают документы с персональными данными: нарезают форму на отдельные поля, а проверенные значения вновь собирают в единый оцифрованный документ в защищенном контуре.

Обработка персональных данных осуществляется по защищенному каналу (ГОСТ), компания зарегистрирована в качестве оператора персональных данных и имеет сертификаты ФСТЭК и ФСБ, а сервис внесен в реестр отечественного ПО.

Машинный интеллект в связке с человеческим

Благодаря сочетанию искусственного интеллекта и краудсорсинга качество перевода бумажных документов в цифру находится на 99%-ном уровне, без поправок на несовершенство современных технологий и периоды пиковых нагрузок.

Благодаря собственному краудсорсингу компания способна полностью автоматизировать процесс распознавания и оцифровки на стороне заказчика. 50 000 операторов, работающих удаленно, подключены к платформе для проверки некачественных изображений, разметки дата-сетов и обучения нейросетей.

Машины и люди работают вместе, потому что на сегодняшний день только на основе такой гибридной системы можно успешно решать нетипичные задачи, качественно обрабатывать неструктурированные данные. Дополнительное преимущество в том, что система постоянно дообучается: если ИИ распознает значения с низким порогом уверенности, к работе подключается "облачный" оператор верификации данных - он заносит эти значения вручную и заодно размечает датасет, на котором обучаются нейросети.

Георгий Зуев, Основатель компании Биорг

Медицинские эпикризы и другие рукописные документы

Благодаря гибридной конфигурации платформы Beorg Smart Vision с её помощью можно обрабатывать сложные для нейросетей документы — медицинские эпикризы, трудовые книжки и военные билеты. Во всех этих случаях нормальному распознаванию обычно мешают рукописный текст, штампы поверх текста и пятиконечные звезды, которые почти на каждой странице «слепят» нейросети.

Решение компании «Биорг» применялось для расшифровки записей времен Великой Отечественной войны, сделанные химическим карандашом на газетах — бумага была дефицитной. А на Сахалине пришлось работать с документами на японском языке. Для «Теле2» за 2,5 месяца был оцифрован бумажный 15-тонный архив. Рекордсменом по объему оцифровки стала «Лента», за шесть месяцев было обработано более 110 тонн документов.

Цифровая трансформация архивов ЗАГС

В 2020 году технологический продукт «Биорг» применялся в государственной программе по оцифровке актов гражданского состояния и созданию Единого федерального реестра ЗАГС. В ходе проекта компания оцифровала более 43 миллионов актовых записей из архивов ЗАГС по всей территории РФ, в том числе для программы по выплатам семьям с детьми в период распространения коронавирусной инфекции.

Социальная ответственность

В период пандемии СOVID-19 компания создала 10 тысяч удаленных рабочих мест операторов верификации данных. В 2020 и 2021 году признана «Лучшим социальным сервисом» конкурса «Лучшие социальные проекты России».

Технические особенности облачного сервиса Beorg Smart Vision

Отсканированные изображения документов поступают в облако, где их распознают конволюционно-рекуррентные нейронные сети (CNN + RNN) глубокого обучения на всех этапах обработки входящей информации. Это проприетарное ПО, собственная разработка «Биорг». Для распознавания и классификации сущностей в документах, а также устранения ошибок применяют Natural Language Processing (NLP).

К облаку подключена краудсорсинговая платформа, куда на доработку уходят документы, распознанные нейросетями с низким порогом уверенности. Операторы платформы также проводят разметку датасетов для обучения нейросетей.

Показатели эффективности

При автоматической обработке документов через Beorg Smart Vision стоимость работы снижается с 2,5 до 5 раз по сравнению со стандартным ручным вводом.

Решение сокращает и время обработки. Например, скорость оцифровки архивов возрастает в 3-4 раза. Пакет кадровых документов система переводит в электронный вид всего за 15-20 минут после сканирования — при этом можно обрабатывать свыше 100 комплектов одновременно. Время обработки ипотечных комплектов снижается в 2-3 раза — с 45 до 15-19 минут: все заявки обрабатываются день в день, сокращается количество отказов из-за ошибок ручного ввода данных до 30%. Самый востребованный бизнес-процесс — оцифровка паспортного разворота — занимает всего 2-5 секунд.

Поскольку модель услуг сервисная, оплата производится за результат, т.е. за реально обработанное количество документов, а не за установленный «пакетный» объем.

Запустить процесс по оцифровке стандартных документов можно всего за 2-3 дня. Обучение сотрудников работе с ПО проводить не надо. Решение обеспечивает полную автоматизацию распознавания и выгрузки уже проверенных данных в информационную систему клиентов.

Легко масштабировать

Начав с распознавания паспорта, можно быстро перейти к более сложным документам, например, кадровым или даже медицинским и техническим. Стоимость распознавания будет зависеть от сложности форм и типов бумаг. Настройка процесса распознавания даже самой сложной формы занимает 1-3 дня.

Признание АСИ

В 2020 году Агентство стратегических инициатив РФ отметило облачный сервис Beorg Smart Vision в числе лучших практик по ИИ и анализу данных, рекомендованных для тиражирования в масштабах всей страны.

Топ-14 решений первого набора StartHub.Moscow

В число резидентов программы StartHub.Moscow «Биорг» вошел по результатам конкурсного отбора в начале 2021 года. На первом этапе из 950 заявок от технологических предпринимателей выбрали 100 стартапов. С февраля 2021 года эти компании развивали бизнес при поддержке наставников и лидеров технологического рынка России. За время участия в программе компания заключила 12 договоров на общую сумму 60 миллионов рублей.

Программа роста и масштабирования бизнеса StartHub.Moscow предоставляет инфраструктуру и экспертные ресурсы «по подписке» без отрыва от бизнеса. Получить ее можно через конкурсный отбор, который проходит дважды в год. Вступление в Start Club на сайте https://starthub.moscow/ позволит не пропустить начало третьего набора. Из 100 компаний-участников первого набора программы StartHub.Moscow 62 показали положительный результат по приросту выручки, 25 — впервые вышли на выручку, а 43 — увеличили ее кратно. Всего за период программы компании-участницы наняли 158 сотрудников, между резидентами было заключено 17 партнерских соглашений, совершено более 10 выходов на зарубежные рынки СНГ, США, ЕС, Ближнего Востока, Китая и Гонконга, причем 8 выходов — впервые.

66
Начать дискуссию