Видео реклама это просто... говорили они.

А вот и очередная вечерняя заметка. Как мы учили машину отличать один рекламный ролик от другого и почему это оказалось неожиданно сложно.

Последние недели пилю систему, которая сама смотрит видео на Видеохостингах.

Ловит рекламные вставки и раскладывает их по полочкам: что за ролик, какой рекламодатель, ИНН, посадочная страница, UTM-метки. Звучит просто. На практике началась детективная история.

В России у любой легальной рекламы есть erid уникальный идентификатор. Логично дедуплицировать ролики по нему. Но оказалось, что иногда (не буду говорить где) это ротируемый служебный токен, который меняется у одного и того же ролика каждые пару минут и при этом одинаковый у совершенно разных рекламодателей. То есть как идентификатор бесполезен (где там про уникальные ериды законе)...

Ладно, тогда возьмём ссылку на сам видеофайл. Тоже мимо: один и тот же CDN-адрес обслуживает десятки разных роликов. В итоге система склеивала рекламу лапши с лендингом застройщика, а ролик про масло с аптечной мазью. Получаем химеру.

Перцептивный отпечаток самого видео кажется решением (нет). Беру лопату и продолжаю копать дальше, хотя уже хочется на дачу картошку после всех этих изысканий.

Всем снов.