Круглосуточный «магазин на диване»: как китайские бренды выручают тысячи долларов благодаря «дипфейкам» стримеров

Достаточно отснять минутный ролик с настоящим ведущим и заплатить разработчику $1000.

Стримеры, сгенерированные с помощью ИИ. В центре — пример компании Silicon Intelligence, по бокам — Xiaoice

Конспект заметки MIT Technology Review.

В Китае основной канал для продвижения товаров — это прямые трансляции в интернете, пишет MIT Technology Review. Опытный ведущий может увеличить оборот бренда более чем на $1 млрд всего за один вечер, но чтобы обучать таких стримеров, а потом их удерживать, нужно много денег.

У малого бизнеса бюджет, как известно, ограничен, да и крупный стремится урезать расходы, так как темпы экономического роста в стране замедляются. Вот только платить большие гонорары ведущим вовсе необязательно. С 2022 года в Китае появляется всё больше компаний, которые помогают магазинам создавать «дипфейки» для прямых трансляций.

Виртуальные аватары могут рекламировать товары и анонсировать скидки без перерыва на обед и сон. А двигаться у них будет не только рот, но и тело.

Один из таких разработчиков — это основанный в 2017 году стартап Silicon Intelligence из Нанкина. Ещё в 2020 году, чтобы создать реалистичного цифрового клона, ему требовалось как минимум получасовое видео с реальным ведущим. В 2023-м компании достаточно минутного ролика.

Раньше сценарии для «магазина на диване» писали сами магазины, теперь же и их можно сгенерировать с помощью языковых моделей, так что бренду останется только указать названия товаров, цены и проверить, что нейросеть не допустила ошибок в «скрипте».

Стоимость базового «дипфейка» — примерно 8000 юаней ($1096 по курсу на 30 сентября 2023 года). Но цена может вырасти на несколько тысяч, если клиенту нужен более «продвинутый» ведущий: например, тот, кто сможет распознавать комментарии в режиме реального времени и отвечать на них, используя информацию из базы обучающих данных.

По словам Silicon Intelligence, за дополнительную плату их аватары смогут изменить даже маркетинговую стратегию — в зависимости от того, сколько зрителей смотрят эфир. (Компания не приводит детали, но, возможно, ИИ-стример сможет предложить специальные скидки, если аудитория большая — vc.ru.)

Эту стримершу сгенерировали в Silicon Intelligence

В аналогичном ИИ-стартапе — Xiaoice — говорят, что обучают виртуальных стримеров на дата-сете из сотни роликов с типичными повадками и жестами реальных ведущих. Когда последние приветствуют зрителей и просят их подписаться, они, скорее всего, показывают пальцем на верхнюю часть экрана, поскольку там располагается кнопка подписки в большинстве приложений. А когда демонстрируют товар, то указывают на корзину снизу.

«Наши аватары используют эти приёмы, чтобы их язык тела не противоречил тому, на что они ссылаются. Будет странно, если стример просит о подписке, хлопая в ладоши», — говорят в Xiaoice. Там виртуальный ведущий тоже стоит около $1000 и при необходимости сможет «предложить» заказчику больше опций. Например, спортивному комментатору Лю Цзяньхону создали клона, который мог в прямом эфире сообщать результаты матчей и свежие новости.

Конечно, внимательный и придирчивый зритель заметит, что иногда движения губ виртуального актёра не соответствуют произнесённым звукам. И вряд ли такие аватары смогут в ближайшее время заменить успешных инфлюенсеров. Но их умений уже хватает, чтобы «подсидеть» стримеров среднего уровня и занять эфир ночью, когда зрителей значительно меньше, говорят участники рынка.

Допустим, компания работает с десятью ведущими. Уровень их эффективности наверняка будет разным.

Скорее всего, двое-трое из них приносят 70-80% всех продаж. В таком случае нет смысла платить остальным шестерым-семерым за низкие показатели и несущественный вклад, если можно сократить затраты, разработав одного виртуального.

Чен Дэн, глава Quantum Planet AI, которая перепродаёт ИИ-решения брендам

Один стример Xiaoice, например, принёс клиенту заказов на сумму более 10 тысяч юаней ($1370) всего за час работы. А в сумме ИИ-ведущие уже сгенерировали брендам миллионы долларов. Судя по тому, что в 2023 году средняя ставка стримеров снизилась по сравнению с 2022 годом на 20%, компании, видимо, начинают осознавать преимущества.

Эту стримершу сгенерировали в Xiaoice

Мелкие недочёты в мимике и телодвижениях — не единственная проблема таких клонов. Разработчики получают немалую долю заказов от мебельных брендов. Те, в свою очередь, часто демонстрируют товары, которые реальный человек протестировал бы в прямом эфире: посидел бы на диване, попрыгал на кровати, чтобы показать, как пружинит матрас, отрегулировал бы высоту офисного стула. Виртуальному ведущему это пока не под силу.

Не до конца ясно и то, какие законы введёт правительство и смогут ли бренды так же свободно использовать «дипфейки» в будущем. Но разработчиков это не останавливает. Silicon Intelligence, например, собирается наделить роботов «эмоциональным интеллектом», чтобы они радовались, когда зрители пишут хорошие комментарии, и расстраивались, если их критикуют.

В планах также научить клонов взаимодействовать друг с другом и выпустить 100 млн цифровых стримеров уже к 2025 году. Сейчас у Silicon Intelligence их 400 тысяч, так что работы впереди предстоит немало.

1818
13 комментариев

Не очень понимаю, как искусственный ведущий показывает вещь со всех сторон и взаимодействует с ней. Если я правильно понял, то загружается только фото.
Далее строится 3Д модель? Даже если так, как ведущий понимает сценарий использования.

4

Это не проблема перевода статьи, оригинал тоже не понятно что на эту тему говорит. Точнее не так — в тексте написано, что аватар максимум пальцем вверх или вниз тычет, показывая на кнопку или картинку товара, но видео в статье (последнее здесь в переводе) подписано как "если стрим сфокусирован на одном товаре — ии аватар может с ним взаимодействовать", и в это я конечно не верю. Выглядит как обычный дипфейк, то есть какой-то ноунейм человек реально лайв, но него лицо подменяют на лицо известного ведущего (и в оригинале упоминается, что некоторые площадки допускают ии только в таком варианте). Но это только один из вариантов — вроде как есть и те, что генерируют тело полностью, но будут только мелкие жесты. Короче я ждал большей понятности от "MIT review"

7

Сообщение удалено

те, кто у них будут заказывать по 1000 долл — тоже не знают, что это только видимая часть айсберга. потом окажется, что нужно еще сколько то доплатить за объект, еще сколько-то за одежду ведущего и еще сколько за ультра реализм

примеры видосов по сути обычный дипфэйк.
короче, как обычно "сложности перевода". вот как на самом деле обстоят дела. никакого товара в руках не будет.
“For example, [when human streamers say] ‘Welcome to my livestream channel. Move your fingers and hit the follow button,’ they are definitely pointing their finger upward, because that’s where the ‘Follow’ button is on the screen of most mobile livestream apps,” says Huang. Similarly, when streamers introduce a new product, they point down—to the shopping cart, where viewers can find all products. Xiaoice’s AI streamers replicate all these common tricks. “We want to make sure the spoken language and the body language are matching. You don’t want it to be talking about the Follow button while it’s clapping its hands. That would look weird,” she says.

Комментарий удалён модератором