Распознаванием текста занимались еще в 60-е годы, но тогда это были игрушки, потому что именно вводить тексты никто не умел. Тексты вводились руками.
И только в конце 80-х годов у нас появились сканеры, которые могли с большой скоростью ввести в машину изображения с любым количеством текста. Сначала они работали медленно, потом стали быстрее. Тогда же встала задача: хорошо, мы можем загрузить тексты в ЭВМ в виде картинок. Но нужны они нам не в виде картинок, а в виде текста в текстовом редакторе.
В самом конце 80-х появился первый социальный заказ, и распознавание тогда стало действительно востребованным. Мы договорились с издательством художественной литературы, которая занималась переизданием классики, что мы сделаем для них распознавание, при помощи которого оно сможет оцифровывать старые книжки. Это была очень симпатичная работа, потому что при советской власти было не так много гарнитур и можно было делать распознавание, которое не все на свете распознает, а только определенные гарнитуры.
В 1989 году мы сделали первые программы, которые уже распознавали текст. То есть можно было засунуть в сканер страницу, отсканировать ее и тут же распознать. Причем делать это можно было в любых количествах.
Большое количество ребят, которые у меня работали, уехали в США и, к сожалению, безвозвратно. Они основали небольшую компанию “Cognitive Technologies, Inc.”. Там они сделали программу для распознавания английских текстов, а мы здесь – для распознавания русских текстов. И это была уже умная программа, которая никаких шрифтов не знала и распознавала все подряд.
А поскольку русская земля талантами не скудеет, то через несколько лет у меня образовался новый коллектив из студентов МГУ, МФТИ и МИСИС. Снова сформировалась очень хорошая команда, с которой мы уже здесь работали. И мы основали компанию “Cognitive Technologies", которой я руководил 15 лет, вплоть до 2009 года.
Эта компания занималась только OCR. Наша система распознавала уже и русский, и латинский, и другие шрифты. И мы раскрутились до невероятных размеров. Во многом нам помогла компания ABBYY, с которой мы тогда соревновались.
Мы раскрутили это дело до того, что когда в 1994 году на какой-то выставке провели опрос “Какие вы считаете программы самыми важными”, то OCR занял второе место после операционных систем. OCR опередил и базы данных, и производственные системы. И когда распознавание текстов стало задачей обыденной, то мы переключились на распознавание форм.
Распознавание форм – это абсолютно другая стезя, потому что когда вы распознаете текст, то распознаете символы или строчки символов. А когда распознаете документы, то вы должны понять, что это за документ, из чего он состоит, какие у него есть поля. И то, что вы хотите распознать, нужно распознать не как гладкий текст, а как фрагмент какой-то базы данных. Даже если вы возьмете обыкновенную платежку, то там два десятка полей. Каждое из них надо найти, потом из каждого извлечь информацию, а потом каждое переместить. Проблемы OCR-вские стали совсем другие, потому что там тексты всегда имеют разные гарнитуры и разные кегли.
Новый этап наступил, когда появились смартфоны и стало понятно, что те же самые задачи нужно решать уже не с помощью сканеров. Их количество постоянно уменьшается и сходит на нет
Хороший выпуск! Посмотрели с мужем на одном дыхании
Ничего себе у вас вкусы
Да выпуск отличный приятно очень
OCR от Abbyy - FineReader, наверное, каждый человек в России имеющий отношение к компьютерам. Не знаю, первая ли это российская OCR, но безусловно самая популярная.
А вот про OCR от Smart Engines никогда не слышал.
Комментарий недоступен
тоже сильно удивился / не найдя в тексте - OCR номер один в России = FineReader