"Бумажных документов становится только больше"

Как появилась первая российская OCR и почему технология распознавания документов необходима бизнесу, даже если он об этом не знает.

Мы, компания Smart Engines, занимаемся разработкой алгоритмов для распознавания документов, банковских карт и баркодов. За все время нашего существования мы выпустили не одну сотню научных статей про компьютерное зрение и машинное обучение, а в блогах рассказали про наши многочисленные разработки.

Когда появилась первая OCR? Чем российская школа компьютерного зрения отличается от американской? С какой скоростью мы распознаем на "Эльбрусе"? Исчезнут ли когда-нибудь бумажные документы? На эти и другие вопросы в интервью блогеру Максиму Горшенину (imaxai) ответили генеральный директор Smart Engines к.т.н. Владимир Арлазаров, директор по науке и член-корреспондент РАН, профессор, д.т.н. Владимир Львович Арлазаров.

Владимир Львович Арлазаров, директор по науке Smart Engines

Распознаванием текста занимались еще в 60-е годы, но тогда это были игрушки, потому что именно вводить тексты никто не умел. Тексты вводились руками.
И только в конце 80-х годов у нас появились сканеры, которые могли с большой скоростью ввести в машину изображения с любым количеством текста. Сначала они работали медленно, потом стали быстрее. Тогда же встала задача: хорошо, мы можем загрузить тексты в ЭВМ в виде картинок. Но нужны они нам не в виде картинок, а в виде текста в текстовом редакторе.
В самом конце 80-х появился первый социальный заказ, и распознавание тогда стало действительно востребованным. Мы договорились с издательством художественной литературы, которая занималась переизданием классики, что мы сделаем для них распознавание, при помощи которого оно сможет оцифровывать старые книжки. Это была очень симпатичная работа, потому что при советской власти было не так много гарнитур и можно было делать распознавание, которое не все на свете распознает, а только определенные гарнитуры.
В 1989 году мы сделали первые программы, которые уже распознавали текст. То есть можно было засунуть в сканер страницу, отсканировать ее и тут же распознать. Причем делать это можно было в любых количествах.
Большое количество ребят, которые у меня работали, уехали в США и, к сожалению, безвозвратно. Они основали небольшую компанию “Cognitive Technologies, Inc.”. Там они сделали программу для распознавания английских текстов, а мы здесь – для распознавания русских текстов. И это была уже умная программа, которая никаких шрифтов не знала и распознавала все подряд.
А поскольку русская земля талантами не скудеет, то через несколько лет у меня образовался новый коллектив из студентов МГУ, МФТИ и МИСИС. Снова сформировалась очень хорошая команда, с которой мы уже здесь работали. И мы основали компанию “Cognitive Technologies", которой я руководил 15 лет, вплоть до 2009 года.
Эта компания занималась только OCR. Наша система распознавала уже и русский, и латинский, и другие шрифты. И мы раскрутились до невероятных размеров. Во многом нам помогла компания ABBYY, с которой мы тогда соревновались.
Мы раскрутили это дело до того, что когда в 1994 году на какой-то выставке провели опрос “Какие вы считаете программы самыми важными”, то OCR занял второе место после операционных систем. OCR опередил и базы данных, и производственные системы. И когда распознавание текстов стало задачей обыденной, то мы переключились на распознавание форм.
Распознавание форм – это абсолютно другая стезя, потому что когда вы распознаете текст, то распознаете символы или строчки символов. А когда распознаете документы, то вы должны понять, что это за документ, из чего он состоит, какие у него есть поля. И то, что вы хотите распознать, нужно распознать не как гладкий текст, а как фрагмент какой-то базы данных. Даже если вы возьмете обыкновенную платежку, то там два десятка полей. Каждое из них надо найти, потом из каждого извлечь информацию, а потом каждое переместить. Проблемы OCR-вские стали совсем другие, потому что там тексты всегда имеют разные гарнитуры и разные кегли.
Новый этап наступил, когда появились смартфоны и стало понятно, что те же самые задачи нужно решать уже не с помощью сканеров. Их количество постоянно уменьшается и сходит на нет
Владимир Львович Арлазаров, директор по науке Smart Engines

Мы собираем и воспитываем коллектив сами. В основном это студенты, которые впоследствии вырастают в классных программистов и классных ученых, становятся кандидатами и докторами наук. Если посмотреть на наш сегодняшний состав, то половина сотрудников – студенты. Конечно, впоследствии они расходятся, но даже если мы за один год взяли десять студентов и двое из них остались, то через 10 лет это воспитанный тобой коллектив из 20 человек.
Раскрываются они по-разному: кто-то быстрее, кто-то медленнее. Бывает, что человек расцветает прямо на глазах и к концу обучения в университете он уже классный программист. Бывает, что у нас люди расцветают через 5-6-7 лет. Это нормально, они ничем не хуже, но просто им нужно чуть больше времени.
Дальше идет уже административная работа, потому что их надо удержать. Нужно платить им деньги, нужно поддерживать их энтузиазм. Если человек пришел к нам на практику, то это совсем не значит, что через пять минут он поверил в то, что мы такая великая команда. Он должен здесь пожить, понять, что некоторые вещи лучше нас в мире не знает никто, а вот после этого он становится нашим.
Мое убеждение – человек должен верить в то, что делает. Если он не верит, то он и делает плохо. Конечно, профессионализм никто не отменял, мы и сами учим профессионализму. Но именно с точки зрения психологии человек должен в то, что он делает, верить, и эту веру необходимо поддерживать. Востребованность со стороны рынка – это для гендиректора, может быть, для меня, может быть, для членов совета директоров.
А студентам нужно верить в то, что они занимаются великим делом. Важно, чтобы они понимали, что мы находимся на переднем крае науки и техники, – это первое. И второе: они должны видеть, что все, что они делают, отправляется не в ящик. Наши системы стоят в аэропортах, в банках, крупнейших телефонных компаниях. Если вы придете купить билет на поезд дальнего следования в кассу, то будете пользоваться нашей системой. И когда человек видит, что он это сделал и это работает, то это его же вдохновляет.
Поэтому мы очень много внимания уделяем тому, чтобы то, что мы делаем, работало на отечественном оборудовании. У нас есть убежденность, что, живя здесь, мы будем делать те вещи, которые на нашем оборудовании будут работать.
Владимир Львович Арлазаров, директор по науке Smart Engines

Владимир Викторович Арлазаров, генеральный директор Smart Engines и к.т.н.

Здесь я могу сказать однозначно: государство нам помогает. То, что сделало государство в течение последних лет, спасло IT-отрасль. Это и обнуление налога на прибыль, и введенные Михаилом Мишустиным льготы. Это очень важно, так как основная часть затрат компании – это зарплаты. И поэтому любая экономия на зарплатных налогах помогает нам реинвестировать больше денег в продукты.
Это и грантовая система, фонд Ивана Бортника и РФРИТ, которые действительно выделяют деньги для того, чтобы создавать новые и прорывные разработки. Многие компании, в том числе наша, пользуется этим пакетом льгот.
Эти фонды работают таким образом, чтобы мы приносили пользу государству, не передавая ему интеллектуальную собственность, а продавая продукт. То есть мы берем на себя обязательства на определенный объем продаж нашего продукта, созданного с помощью государственных денег, и дополнительно софинансируем. То есть если мы взяли у государства миллион рублей, то мы вложили еще полмиллиона своих и обязались продать на несколько миллионов в будущем. Если не продадим – придется вернуть.
к.т.н. Владимир Арлазаров, генеральный директор Smart Engines.

В России существует не одна, а десяток или два десятка научных школ, всерьез занимающихся компьютерным зрением. В мире их еще больше.
Если говорить про американскую и китайскую, то их главная парадигма – раньше во всяком случае была, а сейчас она, к счастью, меняется – для обеспечения должной производительности просто купите еще немножко Nvidia. Вопрос в том, а не много ли у вас коэффициентов в нейронных сетях? То есть там основным направлением считается экстенсивный рост сложности нейросетевых методов для решения все более сложных задач и достижения новых качеств.
Наша школа – еще с советских времен – использует совершенно другое. Мы по мере возможностей используем интенсивный подход, то есть когда мы придумываем максимально эффективное решение тех или иных задач, а не пытаемся создать еще одну красивую архитектуру.
к.т.н. Владимир Арлазаров, генеральный директор Smart Engines.

Это очень здорово, что в Российской Федерации есть две школы разработки микропроцессоров – “Комдив” и “Эльбрус”. Ведь купить дизайн процессора можно тем или иным способом, а создать школу, которая воспроизводит себя и развивает, может создавать новое – это стоит бесконечных денег. Ценность школы огромная для науки и для всего.
И те, и другие процессоры активно применяются. А дальше это вопрос бизнеса, как он будет их использовать. Для обычного пользователя по большому счету никакой разницы.
к.т.н. Владимир Арлазаров, генеральный директор Smart Engines.

OCR как задача решена, потому что если вы возьмете любую страницу и засунете ее в сканер – десяток программ в мире распознают ее без ошибок или с 1-2 ошибками. А вот распознавание документов – задача далеко не решенная, потому что пока мы делаем только первые шаги и все еще только впереди.
Раньше меня все уверяли, что это все чепуха и скоро все документы будут только электронными, а распознавание документов будет ненужным. Но бумажных документов, напротив, становится только больше и никакого спада интереса к распознаванию бумажных материалов нет и в ближайшее время не предвидится.
Хотя, казалось бы, все документы в компьютере, но технологии работы таковы, что все равно нужна бумага. И не только в России, но и в мире все верят бумаге. Во всех важных случаях документы бумажные и их надо распознавать. Даже если документ есть в компьютере, то его надо распознать и сверить.
Эти программы нужны компаниям уже сегодня, просто некоторые из них об этом пока не знают. Это свойственно абсолютно любой новой технологии: если ты предлагаешь новую технологию, то обязательно проходит время, прежде чем общество, компании, бизнес, государство осознают, что это нужно. Потому что априори никому ничего не нужно. Вообще никому ничего.
Нужно время, пока все осознают, что распознавание документов – это непременный элемент любой промышленной и организационной бюрократии.
Владимир Львович Арлазаров, директор по науке Smart Engines

Еще больше информации о нас – в этом видео.

00:00 Старт

01:18 О Smart Engines и распознавании

10:14 В применении на сгенерированных семплах

19:32 С чего все началось в СССР

36:21 Российские процессоры и операционные системы

43:46 Основательно про процессор Эльбрус и тесты

1:01:11 Про подходы в США и в России, искусственный интеллект и т.д.

1:21:14 Про электронный документооборот

Благодарим за прочтение и просмотр!

6 комментариев

Ариана Гурьева

08.06.2023

Хороший выпуск! Посмотрели с мужем на одном дыхании

Ответить

Иван Гуляев

09.06.2023

Ничего себе у вас вкусы

Сабина АЗИЗОВА

Да выпуск отличный приятно очень

Labeling

OCR от Abbyy - FineReader, наверное, каждый человек в России имеющий отношение к компьютерам. Не знаю, первая ли это российская OCR, но безусловно самая популярная.

А вот про OCR от Smart Engines никогда не слышал.