{"id":13518,"url":"\/distributions\/13518\/click?bit=1&hash=01aeb7be7a3d2bac99d8a637a910bcc514e181032df828de07dec1faaac7c769","title":"\u0414\u043e\u0441\u0442\u0430\u0432\u0438\u0442\u044c \u0432 \u0434\u0440\u0443\u0433\u043e\u0439 \u0433\u043e\u0440\u043e\u0434 \u043f\u0440\u043e\u0434\u0430\u043d\u043d\u044b\u0439 \u043d\u0430 \u00ab\u0410\u0432\u0438\u0442\u043e\u00bb \u0434\u0438\u0432\u0430\u043d","buttonText":"\u0422\u0435\u043f\u0435\u0440\u044c \u043c\u043e\u0436\u043d\u043e","imageUuid":"697d4fdc-671f-5806-881d-4d6f0b0621e0","isPaidAndBannersEnabled":false}

Первый поиск видео по видео: компания Comexp разработала технологию, способную решать любые задачи компьютерного зрения

Все, что вы до сих пор знали о компьютерном зрении — лишь слабая имитация человеческого. Если бы, например, терминаторы из известной одноименной франшизы работали на такой примитивной технологии, никакого восстания машин не было бы, люди победили бы их деревянными мечами, оптом закупленными на AliExpress. Мы разработали технологию, которая позволит воплотить в области компьютерного зрения все то, что до сих пор было только в фантастических фильмах.

Привет. Меня зовут Сергей Куринов, я основатель нескольких компаний. В этом году в одну из них инвестировал Сбербанк — это проект «ТВ Мониторинг Про», который в 2019 году прошел совместный акселератор «Сбербанка» и 500Startups. Компания — дочка моего старшего проекта, Comexp, в котором мы занимаемся разработкой разных интересных высокотехнологичных продуктов, о чем я еще расскажу ниже.

«ТВ Мониторинг Про» работает на основе нашей собственной запатентованной технологии TAPe. TAPe, Theory of Active Perception, по-русски — Теория активного восприятия, которая моделирует работу зрительного анализатора человека. И мониторинг эфира — лишь малая часть того, что TAPe умеет и как можно ее использовать.

На самом деле, мы разработали технологию, которая сможет решить любую задачу из области компьютерного зрения. Благодаря этому не нужно будет разрабатывать и использовать несколько разных алгоритмов для разного класса задач: для распознавания лиц один, отпечатков пальцев — другой, текста — третий, и так далее, как это происходит сейчас. Достаточно будет одного алгоритма, разработанного на основе TAPe. Один алгоритм или один искусственный интеллект, одна программа сможет решать любые задачи компьютерного зрения. Прям как ваш мозг.

Этот Терминатор сломался, несите нового

Давайте возьмем для примера «Алису» Яндекса (хотя здесь может быть любой другой, в том числе зарубежный, аналог). Она скромно перечисляет свои навыки: распознавание текста, поиск по фото, распознавание объекта, узнать породу животного, определить вид растения, определить модель авто.

Теперь давайте возьмем автономную голову терминатора Т-800, напичканную этими технологиями, и пройдемся с ней по городу. Мы фантазируем и потому опускаем тот факт, что такая голова должна была бы быть размером с дом — чтобы уметь делать все вышеперечисленное в рамках того, как эти задачи решаются сегодня. Так вот, пройдите с этой головой 10 минут по улице, спросите, что она увидела. Как думаете, каким будет ее ответ? Двухлетний ребенок увидит на порядки больше, чем эта фантастическая голова.

Все, чего добились разработчики в области компьютерного зрения и искусственного интеллекта даже еще нельзя назвать хотя бы началом приближения к интеллекту естественному. Еще даже не началось движения в эту сторону. Никакой универсальности нет, для любой отдельной задачи требуются отдельные разработки, индексы, паттерны, отдельное обучение, отдельные — и огромные — вычислительные ресурсы. Любая попытка решать хотя бы несколько подобных задач одновременно, без распараллеливания процессов, приводит к моментальному перегреванию системы — потому что ей приходится делать огромное количество вычислений в секунду. Попытки NVidia объединить хотя бы несколько процессов в один приводят к

  • А. запредельной стоимости видеокарты, и
  • Б. тому, что ей нужен чуть ли не целый холодильник для охлаждения.

Я знаю, я тестировал.

Но столь же огромное число операций вычисляет ваш мозг, когда вы сидите за рулем — и ничего, никто не перегревается, никто не замечает никакой супернагрузки. Зато разработчики беспилотных автомобилей сегодня гордятся тем, что их технологии умеют выполнять миллионную часть функций человеческого мозга.

Самое забавное в том — и об этом как-то не принято говорить — что с точки зрения постановки задач концептуально за последние 50 лет ничего не изменилось. Постановка задачи перед ЭВМ как была сверхсложной проблемой (вспоминаем перфокарты и ЭВМ, занимающие несколько помещений), так и осталась сверхсложной задачей. Вы не можете просто сказать компьютеру, что нужно сделать. Вам нужно потратить огромное количество времени и денег, чтобы написать правильный код. А для решения хоть сколько-нибудь серьезных задач вам по-прежнему требуется не симка, а целый этаж сверхдорогих компьютеров и серверов.

Терминатор здорового человека: почему Теория активного восприятия сделает революцию в технологии компьютерного зрения

Нашему мозгу для принятия решений не нужна двоичная система и стандартная математика. В TAPe мы используем новый математический аппарат.

В Теории активного восприятия мы смогли описать, как мозг человека распознает информацию. Нам с вами не нужно каждый раз обучаться, чтобы отличать кошку от самолета, стакан от текста. Мозг работает иначе, и он бесконечно мощнее любого компьютера. Ему явно недостаточно двоичной системы счисления, в которой работает компьютер, и ему явно не нужна традиционная математика с дифференциалами, интегралами и проч., чтобы мгновенно распознавать информацию и принимать нужные решения.

Мы смогли смоделировать работу зрительного анализатора человека, который от природы наделен рядом важнейших функций, и успешно используем на практике этот подход, в частности, в уже упомянутом проекте «ТВ Мониторинг Про». Прямо сейчас мы разрабатываем алгоритм на основе TAPe, который хотим обучить или даже приучить не к двоичной системе счисления, в которой работают все компьютеры, а к другой — близкой к той, в которой работает человеческий мозг.

TAPe не нужна сложная карта признаков, как обычным нейросетям

Согласно Теории активного восприятия мозгу человека достаточно на порядки меньше признаков, а именно минимально необходимое для человеческого мозга количество, чтобы он смог распознать объект. И мы разработали технологию, которая одномоментно считывает эти признаки с любого изображения — этого достаточно для решения любого класса задач в области компьютерного зрения.

Напомню, что при обучении нейросети какой-либо системы распознавания сначала долго составляют карту признаков — ключевые точки изображений, на которых нейросеть начинает обучаться. Как правило, этих точек несколько сотен, а если говорить уже о поиске видео по видео, то для этого приходится размечать каждый кадр уже тысячами признаков. И если гипотеза, что именно эти признаки необходимы для точного распознавания, оказывается неверной, карту приходится составлять заново, и заново обучать нейросеть.

В случае с TAPe все признаки известны заранее, причем их на порядок меньше — минимально необходимое для человеческого мозга количество, чтобы он смог распознать объект. Так что нужен только алгоритм, построенный на основе TAPe, с помощью которого можно распознавать вообще любые объекты. Это принципиально иной подход к разработке алгоритмов вообще и ИИ в частности.

С помощью TAPe можно обрабатывать миллионы часов видео за несколько секунд

Технология TAPe позволяет распознавать изображения без операции свертки — она просто не нужна, как не нужна и нашему зрительному анализатору. Мы вообще не используем эту операцию (по ссылке написано о свертке подробно и доступно) — самую вычислительно трудоемкую и очень дорогую с точки зрения использования ресурсов. Для современных многоядерных процессоров свертка уже не является такой проблемой, какой она была еще 10 лет назад, но тем не менее, без этой операции не обходится ни одна технология.

Наш мозг способен быстро распознавать и детализировать информацию без всяких дополнительных фильтров, которые используются при свертке. Нам достаточно одного взгляда (при необходимости — одного внимательного взгляда), чтобы распознать лицо человека, одежду, бренд, марку машины, собаку, стакан и т.д. и т.п. Для людей нет лишней информации в изображении, нам не нужно ничего отсекать — мы сами решаем, на что конкретно обратить пристальное внимание. И нашей технологии тоже достаточно одного «взгляда».

В итоге без операции свертки мы обрабатываем видео на порядки быстрее аналогов, качество распознавания не зависит от уровня помех (ведь и нашему мозгу не мешают никакие «помехи», чтобы понять, например, чей хвост торчит из-под забора — собачий или кошачий). С помощью TAPe мы можем обрабатывать миллионы часов видео за несколько секунд, чтобы найти нужное видео в этом массиве информации. И для этого нам достаточно простого компьютера. Мы можем преобразовывать 1 час видео (при любом разрешении) буквально в 1 мб поискового индекса — это в разы компактней аналогов.

TAPe умеет работать в условиях априорной неопределенности

Наконец, в математике есть термин «априорная неопределенность” (погуглите сами). Современные технологии в такой неопределенности не умеют работать, им как раз нужна “априорная определенность», полнота описания — их нужно обучать на огромной базе данных, по которой они уже смогут обучиться распознавать те же лица с достаточной точностью. Наша технология, как и наш мозг, работают в условиях априорной неопределенности, когда мы заранее не знаем, что сейчас увидим, но это не мешает нам правильно распознавать эти новые объекты.

Мониторинг ТВ-эфира, API, первый в мире поисковик видео по видео: практическое применение теории активного восприятия

На самом деле, эта статья — одно из направлений нашего CusDev. У нас есть технология, но мы до конца не знаем, как ее можно использовать — потому что знаем далеко не все задачи в области видео. Если у вас есть идеи, а еще лучше — конкретные предложения, мы будем рады сотрудничеству.

Вот что мы уже умеем.

  • Мониторинг ТВ-эфира тысячи каналов в реальном времени

    «ТВ Мониторинг Про» занимается мониторингом телевизионного эфира для рекламодателей. По предоставленному клиентом образцу видео мы находим в миллионах часов (другими словами — в любом объеме) записей телеканалов нужное видео, сравниваем с медиапланом и предоставляем отчет, позволяющий судить о расхождениях. Поиск совпадений занимает секунды.

    Мониторинг нужен, как правило, рекламодателям и рекламным агентствам, которые хотят проверить, как выходила на ТВ реклама, за которую они заплатили деньги (выходила ли в нужное время, на нужном телеканале, и выходила ли вообще — поверьте, проблем много и они самые разнообразные). Иногда поступают заказы для конкурентного анализа.

  • API для разработчиков. У нас есть АPI для разработчиков, с помощью которого они могут решать задачи связанные с поиском, сравнением, выделением кейфреймов, возможно поиском похожего и прочие задачи связанные с видео.
  • Поиск видео по видео. У нас в разработке первый в мире поиск видео по видео. Мы постоянно обновляем и дополняем сервис, но вообще можем по запросу показать, как это все работает.

Как устроен поиск. Как вы, может быть, знаете, видео можно найти на трех основных источниках: хостинги (например, YouTube, ВКонтакте, Vimeo, TikTok), архивы телеканалов (в мире их десятки тысяч, но можно выделить главные) и фильмотеки. На хостингах искать видео довольно просто: как правило, там уже есть своя система поиска, которой можно воспользоваться: видео размечены тэгами, описаны и т.д. Правда, такой поиск — это не поиск по видео, а по тем же тэгам и описаниям.

А вот в архивах телеканалов видео не размечены тэгами и пр., поэтому там мы умеем искать видео по предложенному пользователем образцу — по такому же принципу работает Shazam, который сравнивает пользовательское аудио со своей базой данных.

Еще мы можем быстро создавать так называемые пресеты по запросу: допустим, вам нужно какое-то видео, связанное с каким-то событием. Например, с выступлениями Трампа, задержанием Ассанжа и т.д. Или вы хотите узнать, в каких видео используются конкретные сцены из фильма, допустим, «Джокер». Все это наш поисковик умеет делать в кратчайшие сроки.

Задавайте ваши вопросы.

0
1 комментарий
Александр Кучеряев

Ваше описание просто ввело меня в восторг, хотя скорее всего все не так уж и хорошо.
Но все-же, как насчет
1) видео аналитики
2) выделения объектов (допустим один китайский сервис предлагал для киношников фичу, типо выпускаешь фильм, а внутри региональные бренды на витринах, кофейных стаканчиках итп)
3) генерации видео на основе 1-го пункта, допустим для того же тик-ток (оттуда же Дату качнуть можно к примеру)
4) AR
5)VR
6) Проверка авторского контента на youtube, это очень уже насущный вопрос, с работающей (быстрой и дешевой) технологией анализа видео можно продаться в тот же гугл за миллиарды.
7) Почитал ваш сайт возниела еще одна мысль, точечный маркетинг на улице с помощью вай-фай спуферов и камеры(которая снимает рекламный баннер)
п.с.
Все предложения сделаны на основе того, что ваш сервис соответствует крутости вами описанной.
п.с.с.
А есть статьи того как ваша технология примерно работает, очень уж интересно.

Ответить
Развернуть ветку
Читать все 1 комментарий
null