Почему от Google продолжают уходить рекламодатели?

Возможно, вы уже слышали про очередной скандал с YouTube: новая порция рекламодателей уходит от видеосервиса, который вновь несет многомиллиардные убытки. К прошлогоднему флагману в виде P&G теперь присоединились HP, Mars, Deutche Bank, Adidas, Sky, а общее число покинувших ряды клиентов Google составляет уже порядка 250 брендов.

Почему от Google продолжают уходить рекламодатели?

Всему виной контент, на котором показываются сообщения рекламодателей, который проходит верификацию со стороны YouTube, даже не смотря на их современные системы мониторинга. Подробного описания системы мониторинга мы с нашей командой не нашли, но зато мы можем посчитать сколько времени потребуется на анализ brand safety нашим компьютерным зрением.
Итак, средняя продолжительность ролика на YouTube — 5 минут, то есть 300 секунд. Мы анализируем каждую секунду ролика, а не каждый кадр. Почему? Потому что, если мы станем анализировать каждый кадр, то получим более высокий processing time для каждого видео, а также кучу дублирующихся кадров. То есть, если ролик монтировал не кто-то из съемочной команды этого фильма, то скорее всего в одной секунде контента не будет болеее одной сцены. Теперь посчитаем скорость обработки 300 кадров

Наша текущая скорость обработки 10 кадров в Full HD разрешении
Наша текущая скорость обработки 10 кадров в Full HD разрешении

Несложными арифметическими подсчетами выведем, что нам потребуется на анализ такого видео всего 1 минута (2*300/10 секунд). А теперь представьте какие ресурсы у Google и каковы мощности, а также возможности для распараллеливания.

Теперь же возникает вопрос и, пожалуй, главный вопрос: разве YouTube не использует свой computer vision еще в процессе uploading'а контента пользователем? Разумеется использует, но, похоже, здесь дело не в анализе объектов, а в интерпретации.
Представьте, у вас есть ролик, в котором нет достаточно очевидных паттернов для идентификации: например, кролик, револьвер и Брендон Глиссон. Обладай нейросеть знаниями чеховских стандартов, то, разумеется ролик бы не прошел верификацию.

Как думаете, что последует дальше?
Как думаете, что последует дальше?

Самое удивительное, что ни один из современных сервисов компьютерного зрения не то чтобы кровь не смог определить, но и даже револьвер.

Вообще кровь это действительно сложный для детектирования объект — он не имеет постоянной и повторяющейся формы, поэтому любую нейросеть крайне сложно научить детектированию крови.

Сергей Прасолов, CTO, NativeOS

Оставим это на совести их дата-сетов и перейдем на сцену раньше — ту, где герой Брендана Глисона лишь еще только достает пистолет, который наша сетка с успехом и детектит — и это один из вариантов нашего safe-check'а. В случае, если в одной из сцен не находится запрещенный объект всегда существует шанс, что мы его найдем в друго сцене. Но самое главное — это сделать вывод на основе объектов "кролик", "револьвер" и "человек", что здесь показывать рекламу не стоит. Каким образом? А вот это уже векторное пространство слов, с помощью которого мы можем перейти на более высокий уровень абстракций, используя связь "револьвер — оружие" и понять тональность контента: слово "оружие" находится на семантически близком расстоянии от слова "насилие", что и сказывается на финальном проценте наличия сцен насилия в контенте.

«Шестизарядник», реж. Мартин МакДонах (2004)
«Шестизарядник», реж. Мартин МакДонах (2004)

Куда чаще встречаются примеры с менее очевидными объектами. Например, их вообще там может не быть, а вся смысловая нагрузка ложится на закадровый голос, который может сообщить об убийстве, катастрофе или митинге, а это уже о sound recognition и распознавание контекста через озвучание.

Разобрав несколько примеров, давайте вернемся к ситуации с Google. Меньше всего я поверю в то, что разработанное ими компьютерное зрение работает хуже нашего — учитывая их ресурсы, я сразу же отметаю этот вариант. Выходит, остается 2 варианта.

Вариант №1

Google не работает с интерпретацией.
То есть они не смотрят на уровень выше для распознавания контекста каждой сцены — они отталкиваются от объектов, уходя от абстракций, в то время как мы используем объекты для получения абстракций. Нам это нужно для распознавания атмосферы и тональности коммуникации видео — можно сказать, нам важно понять смысл каждой сцены. Вот, например, такая комбинация объектов как "ребенок", "группа людей" и "доска" с большой вероятностью дадут нам абстракцию "образование" как более высокоуровневую абстракцию, и с помощью которой мы сможем показать максимально нативную рекламу — например, вебинары или курсы английского языка.

Для YouTube переход к абстракциям чреват увеличением бликировки видео, то есть используя методологию "от частного к общему" вероятность неверной блокировки контента увеличится, что также в пропорциональном значении может привести к гораздо большим претензиям к видеохостингу.

Вариант №2

Они зажаты собственными правилами.
Представим, что завтра Google запускает функционал, который позволяет делать placement нативной рекламы, основываясь на объектах внутри их контента. Кроме того, что уровень моего стресса заметно поднимется, есть еще и бритва Оккамы для них: чем меньше правил для продажи трафика они создают, тем больше трафика они продают.
Да, недополучение нескольких миллиардов долларов не скажутся на них как сказались бы на нас — это нисколько не обидный факт. Но вероятнее всего, что просто запуск подобной фичи нерентабелен просто потому что уже так работает рынок. Другое дело, когда спрос будет расти и появится игрок, который, получив инвестиции в США, запускает что-то подобное (включая даже telegram-канал) и бывшие клиенты Корпорации Добра, переходят на нативную сторону.
Всякое случается, в общем. Всем натива!

Начать дискуссию