TAPe решает задачи компьютерного зрения эффективнее, чем любая другая технология — вот реальные примеры

TAPe решает задачи компьютерного зрения эффективнее, чем любая другая технология — вот реальные примеры

Мы открыли и разработали Теорию Активного Восприятия, TAPe, которая моделирует работу врожденных механизмов восприятия человека, математически описывает Язык Мышления (подробнее о концепции языка мышления можно почитать на английском). Технологии на основе TAPe будут оперировать т.н. образами, а не массивами структурно несвязных чисел — нулями и единицами — двоичной системы счисления, как сейчас.

Образ или T-bit, как мы их называем, в отличие от двоичной системы — это описание на подмножестве как раз максимально информативных связанных элементов информации. Все это позволяет в единице информации T-bit передавать намного больше значимой информации, для любого класса задач объемы вычислительных операции сокращаются на на порядки.

Мы уже применили принципы TAPe в технологиях компьютерного зрения, как в реальных продуктах, так и пилотных проектах для разных клиентов. С помощью TAPe решались задачи, решение которых “традиционными” технологиями требует столько ресурсов — финансовых, технических, человеческих — что это становилось бы невыгодным и неэффективным с точки зрения любого бизнеса. Вот несколько примеров, как TAPe делает невозможное возможным.

Поиск видео по видео для онлайн-кинотеатра

TAPe решает задачи компьютерного зрения эффективнее, чем любая другая технология — вот реальные примеры

Задача: В ответ на запрос пользователя (это может быть фильм, режиссер, актер/актриса, страна производства, жанр, год и пр.) онлайн-кинотеатр хочет предлагать видео подборку самых популярных сцен в соответствии с запросом.

В чем сложность: Популярность сцен можно определить с помощью YouTube как самого большого видеохостинга в мире. Популярность в данном случае — это как часто те или иные сцены из какого-то фильма используются в ютюбовских роликах (видео подборках, UGC-роликах, обзорах и проч.). Чтобы вручную решить задачу, нужно было бы как минимум по каждому фильму просмотреть все ссылки, посчитать, какие сцены сколько раз использовались в этих ссылках, далее смонтировать ролик.

Как мы решили задачу с помощью TAPe: Для каждого фильма сформировали семантическое ядро, это десятки текстовых запросов для YouTube. В итоге для каждого фильма YouTube выдал в среднем 500-1000 ссылок, примерно 30 тыс. минут видео на один фильм. Все ссылки были проиндексированы нашей системой. Затем система сравнила все видео по этим ссылкам с эталоном (эталон— непосредственно full-видео фильма). Таким образом система для каждого фильма сравнила 30 тыс. минут видео в ссылках с самим фильмом и определила, какие сцены из фильма используются чаще всего и на основе этого составила рейтинг наиболее популярных сцен. Таких сцен 20-30 для каждого фильма, система из них смонтировала один ролик.

Индексация видео занимает определенное время, а вот на сравнение эталона с ссылками и составление рейтинга у системы уходит несколько секунд. Индекс видео занимает 1 мб на час видео. Для работы нужен самый обычный сервер с самыми обычными характеристиками.

Digital Asset Management для хостинга adult контента

TAPe решает задачи компьютерного зрения эффективнее, чем любая другая технология — вот реальные примеры

Задача: Проверка на уникальность загружаемого пользовательского видео, чтобы оплачивать пользователям права только за уникальный контент. Видеоархив, по данным клиента, составляет 5 млн видео. В среднем длина одного ролика 15-20 мин. База видео пополняется со скоростью 10-12 видео/в минуту.

В чем сложность: Очевидно, нужно успевать проверять пользовательское видео на уникальность еще до того, как оно будет загружено в общую базу видео. Получается, что на проверку отводится 5-6 секунд - за это время нужно сравнить загружаемое видео со всей базой в 5 млн видео и обнаружить повтор любой продолжительности, если он есть. Кроме повторов могут также встречаться попытки фрода со стороны пользователей: монтаж, перемонтаж, зеркальное видео, разные разрешения, соотношения сторон, различные шумы и т.д. Все это тоже нужно распознавать.

Как мы решили задачу с помощью TAPe: Во-первых, мы проиндексировали всю базу видео клиента. По договоренности с клиентом мы разработали конвертер, который позволял клиенту самостоятельно превращать свой архив в индекс в нашем TAPe-формате: клиент не хотел отдавать контент третьей стороне. Затем клиент пересылал индекс нам и мы с ним уже могли работаем. Индекс невозможно конвертировать обратно в видео.

С технической точки зрения для решения задачи мы придумали архитектуру из 8 серверов, которая позволяла по индексу видеоархива в режиме реального времени каждое загружаемое видео обрабатывать таким образом, чтобы находить в нем повторы. Как только новое пользовательское видео приходило на хостинг, оно сразу индексировалось системой: сначала на клиентской стороне, затем индекс видео отправлялся нам, и мы уже проверяли на полное или частичное совпадение. Все это занимает отведенные 5-6 секунд: за это время новое видео сравнивается со всем архивом и обнаруживаются (или не обнаруживаются) повторы.

Восемь серверов держали индекс видео в оперативной памяти, чтобы можно было максимально быстро к нему обращаться. Этого хватало на распараллеливание необходимых вычислений. Никаких дополнительных требований к интернету, хостингу и т.п. не требовалось.

24/7 мониторинг выхода ТВ-рекламы для рекламодателей

TAPe решает задачи компьютерного зрения эффективнее, чем любая другая технология — вот реальные примеры

Задача: Мониторить выход в эфир рекламных роликов в разных городах, регионах, странах, чтобы рекламодатели могли проверить выход рекламы на соответствие их медиаплану.

В чем сложность: Особенности российского рынка, где мы и запустили продукт, таковы, что до 70% региональной ТВ-рекламы никак не мониторилось: было огромное количество городов, которые не входили в исследовательскую панель измерения телесмотрения. В этих городах рекламодатель никак не мог проконтролировать правильность выхода рекламы: в итоге, по нашей статистике, минимум 20% рекламы в регионах выходило с нарушениями: невовремя или не выходила вовсе, из-за чего целевая аудитория не видела рекламу или не видела ее в запланированном количестве. В денежном эквиваленте это примерно $240 млн — столько тратилось на рекламу, которая никак не проверялась с точки зрения эффективности. Выходила ли реклама, сколько раз, в какое время и в нужное ли время – на все это не было эффективных ответов.

Как мы решили задачу с помощью TAPe: Можно, конечно, в каждом городе посадить по 3-4, а лучше десяток сотрудников, которые круглосуточно будут смотреть ТВ и сверять эфир с медиапланом рекламодателей. Но это кажется не очень надежным и эффективном решением.

На рынке есть технические решения, которые позволяют так или иначе мониторить ТВ-эфир, но у них куча ограничений. Во-первых, они скорее всего не связаны с видео. Например, в Китае используют технологию watermark: поскольку решение отраслевое, то можно договориться со всеми вещателями, чтобы они использовали одну и ту же watermark. Кто-то мониторит по звуку, по технологии fingerprint и проч. У всех этих способов есть свои недостатки и ограничения. Во-вторых, сами по себе подобные решения - это именно индустриальные, тяжелые решения, которые иногда называют “холодильником” из-за их внешней схожести. Стойка дорогущих серверов, которым нужны специальные условия для работы и которые есть не во всех ЦОДах. Целый программно-аппаратный комплекс, созданный для решения конкретных задач. Все это очень дорого и сложно и не всегда решает задачу мониторинга буквально одного телеканала в отдельно взятом небольшом городе, куда “холодильник” не поставишь.

Как мы решили задачу с помощью TAPe: Чтобы решить эту проблему, мы развернули инфраструктуру в 150 городах в пяти странах, которая позволяла мониторить ТВ-сигнал в неохваченных регионах, и организовали мониторинг 1000 ТВ-каналов. При этом система легко масштабировалось: в любом момент можно было увеличить как число городов, так и количество ТВ-каналов.

В каждом городе мы установили серверы, которые записывали от 1 до 10 каналов. Каждый сервер создавал индекс ТВ-сигнала плюс формировал видеоархив. На центральный сервер отправлялся только индекс эфира, где практически мгновенно сравнивался с эталонами. В данном случае эталоны – это рекламные ролики клиентов. Всего в базе системы было до 50 тыс. роликов, количество роликов никак не влияло на быстродействие системы. Для нужд клиентов база в индексе хранилась на сервере один год, база видео – не более 3 месяцев. Таким образом, можно было в режиме реального времени узнать, выходила ли реклама клиента и если да, то когда именно.

В таком виде система обрабатывала 1000 минут в минуту. Для сравнения, на тот момент пополнение YouTube составляло 2500 минут видео в минуту, то есть мы в реальном времени обрабатывали объем видео, сравнимый с 40% объема YouTube.

Для России это был уникальный продукт. На мировом рынке есть решения, которые также предлагают мониторинг рекламы, однако эффективность TAPe позволила нам создать решение, по себестоимости дешевле конкурентов в сотни раз.

Мониторинг прямого эфира в 200 городах для крупной телекомпании

TAPe решает задачи компьютерного зрения эффективнее, чем любая другая технология — вот реальные примеры

Задача: Более узкая задача, которая выросла из предыдущего кейса: мониторинг и анализ ТВ-сигнала в регионах на соответствие медиаплану одной конкретной телекомпании. Здесь заказчик уже не рекламодатели, а непосредственно сам ТВ-вещатель.

В чем сложность: Нужно как-то мониторить эфир в 200 городах (как и в предыдущем кейсе, их может быть и больше). Основной — эталонный — ТВ-сигнал ретранслируется из центра в региональные города, где в эфир уже могут вставляться локальный контент: новости, реклама, местные передачи и т.п. Для компании особенно важно, чтобы конкретная реклама выходила в конкретное время, поскольку от этого также зависят доходы самой компании плюс, в случае нарушений, у рекламодателей могут возникнуть претензии к ТВ-компании.

Дополнительное условие — сообщать о технических сбоях в трансляциях. Кроме того, основных (эталонных) ТВ-сигналов было четыре — из-за часовых поясов.

Как мы решили задачу с помощью TAPe: Мы разработали систему, которая настраивается на нужную частоту, моментально индексирует ТВ-сигнал, что позволяет в реальном времени мониторить эфир в режиме 24/7.

Для работы системы мы развернули довольно сложную инфраструктуру: поставили спутниковые тарелки для приема четырех эталонных ТВ-сигналов, а во всех двухстах городах поставили серверы для записи трансляции в каждом городе. Записывался цифровой, кабельный и даже аналоговые ТВ-сигналы. На каждом из двухсот серверов ТВ-сигнал индексировался в онлайн-режиме и отправлялся на центральный сервер, где уже и проверялся на соответствие медиа-плану. Сами региональные серверы также управлялись из единого центра, удаленно.

В итоге каждую минуту мы получали 4 минуты эталонного сигнала (по минуте с каждого из четырех) и 200 минут регионального сигнала (по минуте из каждого города), которые нужно было сравнить с эталонными. На центральный сервер отправлялся только индекс, а видеозаписи эфиров хранились на региональных серверах.

***

Мы описали четыре кейса, которые, надеемся, дают какое-то представление о возможностях технологий на базе TAPe. На самом деле, это лишь малая часть, даже если говорить только о возможностях TAPe в области работы с видео и решении любой задачи computer vision, в том числе разработка нового формата видео и изображений, кодека. При этом мы уверены, что TAPe применима далеко за пределами технологии компьютерного зрения: возможны новые принципы построения и архитектуры неиронных систем, разработка новых IT-девайсов, включая видеокарты и компьютернык процессоры, новые системы хранения данных и пр.

22
1 комментарий

Класс. Спасибо за статью. А можете хотя бы намекнуть на Онлайн-кинотеатр? :)

Ответить