iPhone 13 Pro уже в продаже
Пространство возможностей
ООО «Портативная техника», юр.адрес: 190031, Санкт-Петербург, наб. реки Фонтанки, д.109, литер А, пом. 13Н, ОГРН № 1057811930296
{"id":6525,"title":"\u041a\u0430\u043a \u0441\u0435\u0431\u044f \u0447\u0443\u0432\u0441\u0442\u0432\u0443\u0435\u0442 \u0438\u043d\u0432\u0435\u0441\u0442\u0438\u0446\u0438\u043e\u043d\u043d\u044b\u0439 \u043f\u043e\u0440\u0442\u0444\u0435\u043b\u044c \u043f\u043e\u043b\u044c\u0437\u043e\u0432\u0430\u0442\u0435\u043b\u0435\u0439 vc.ru","url":"\/redirect?component=advertising&id=6525&url=https:\/\/vc.ru\/promo\/292716-yandeks-vyhodit-iz-spyachki-alibaba-portit-nastroenie&placeBit=1&hash=7519bee6efc23ae5d635bf3098f678add4979d572b9f05b21135900c9688d27b","isPaidAndBannersEnabled":false}
Machine learning
Полина Лааксо

«Выбирали корпоративные цвета и шрифты — пора задуматься и о голосе»: зачем бизнес «нанимает» синтезаторы речи Статьи редакции

Виртуальные голоса научились «плакать», имитировать акценты и адаптироваться под стили текстов. С их помощью компании исправляют оговорки актёров в кино, персонализируют рекламу, озвучивают игры и приложения. Как развивается рынок ИИ-голосов — в пересказе MIT Technology Review.

Синтезированную речь нередко используют мошенники, например, для автоматических звонков и спама. Несмотря на это, бизнес не теряет интереса к технологии.

По мнению издания, использовать искусственные голоса проще и дешевле, чем нанимать актёров. Также глубокое обучение помогает создавать ботов с естественными характеристиками речи:

  • «Роботы» делают присущие человеку вдохи и паузы.
  • Выражают эмоции.
  • Меняют манеру изложения в зависимости от жанра текста.

Разработчики создают голоса для цифровых устройств, колл-центров и видеоигр. Сиэтлский стартап WellSaid Labs, например, специализируется на озвучке обучающих роликов. Недавно компания выпустила восемь мужских и женских голосов для разных задач — среди них:

  • Тобин — «энергичный и проникновенный, хороший рассказчик».
  • Пейдж — «голос спокойный и выразительный, настраивает на размышление».
  • Ава — «учтивая, уверенная в себе, подойдёт для продаж».
Анонс новых ИИ-голосов WellSaid Labs: «Вашим историям нужен идеальный рассказчик, и WellSaid Studio готова помочь»

За основу каждого WellSaid Labs берёт голоса реальных актёров и продаёт лицензии на синтезированные копии. Покупателю достаточно загрузить текст в программу, чтобы бот его озвучил.

Как технологии глубокого обучения помогают рынку

Компании давно используют синтез речи, но популярные голоса — в том числе Siri и Alexa — звучат неестественно, считает MIT Technology Review. Чтобы улучшить их, требуется время и человек: именно он должен задать ритм, а также определить интонацию и произношение.

Вместо этого разработчики используют алгоритмы: «скармливают» ботам несколько часов аудио, и те самостоятельно обучаются и определяют шаблоны речи. Сервис WellSaid Labs использует две основные модели технологии:

  • Первая определяет общие характеристики текста и предполагает, какими будут акцент, тональность и тембр виртуального актёра.
  • Вторая добавляет детали: анализирует, где имитировать вдох и как голос будет резонировать в пространстве.

Однако в живой речи человек эмоционирует, сбивается и может произнести одну и ту же реплику по-разному. Поэтому, чтобы синтезированный голос звучал убедительно, алгоритму нужно обработать множество аудиозаписей от разных актёров. На это, по словам журнала, могут уйти недели.

Примеры ИИ-голосов WellSaid Labs

Повысить узнаваемость и персонализировать рекламу: зачем бизнесу ИИ-голоса

Бренды внедряют голосовых помощников в корпоративные приложения, «умные» колонки, автомобили и дома. Пандемия только повысила спрос: виртуальное общение стало основным способом взаимодействия бизнеса с клиентами во время карантина.

Однако фирмы всё реже хотят использовать унифицированные голоса — вроде тех, что предлагают Google, Apple и Amazon.

Голос ресторанов Pizza Hut должен отличаться от голосов пиццерий Domino’s Pizza и Papa John’s. Он — часть айдентики бренда.

Компании ведь выбирают корпоративные цвета, шрифты. Пора задуматься и о фирменном звучании.

Рупал Патель

основательница разработчика ИИ-голосов VocaliD

Раньше компаниям приходилось для каждого рынка нанимать разных актёров для озвучки ботов. Теперь технологии позволяют им использовать всего один голос и переключаться между акцентами и языками.

Благодаря этому стриминговые платформы могут адаптировать рекламу под регионы, изменяя не только характеристики голоса, но и содержание: например, рассказывать зрителю из Торонто, какой местный паб продаёт рекламируемый напиток.

Разработчик голосов для «умных» помощников и промороликов Resemble AI уже работает над запуском персонализированных аудиореклам для Spotify и Pandora.

Внедряет новые ИИ-технологии также развлекательно-игровая индустрия. Британский стартап Sonantic разработал алгоритм, который научился наделять цифровые голоса эмоциями: они смеются, плачут, шепчут и кричат.

Sonantic демонстрирует синтезированные голоса, которые использует в видеоиграх

Компания работает с производителями видеоигр и анимационными студиями и отмечает, что раньше многие из них использовали синтезированные голоса лишь на стадии разработки. Во время постпроизводства они заменяли ИИ реальными актёрами.

Сейчас, говорит Sonatic, они всё чаще используют искусственные голоса и в итоговых версиях игр. Правда, пока что для персонажей с меньшим количеством реплик.

Компании вроде Resemble AI также сотрудничают с кино- и телекомпаниями: последние заменяют с помощью ИИ неправильно произнесённые актерами фрагменты.

Как будет развиваться синтез речи и потеряют ли актёры работу

Несмотря на интерес к рынку и его рост, разработчикам по-прежнему предстоит решить ряд проблем, пишет издание:

  • Пока что они не могут управлять ИИ-голосом так же свободно, как режиссёр направляет актёра.
  • Со временем человек замечает «искусственность», даже если голос звучит реалистично. Это касается продолжительных записей — например, аудиокниг и подкастов.

Поэтому истинное развитие синтеза речи впереди, считает основатель Resemble AI Зохайб Ахмед. Так, по его словам, было и с технологией CGI: раньше с её помощью раскрашивали объекты, а теперь — создают «целые миры».

Не заменит искусственный интеллект и актёров: с длинными экспрессивными и нестандартными текстами пока что лучше справляется человек, считает журнал. К тому же именно актёр предоставляет алгоритму исходные данные для обучения.

Основная цель индустрии — не заменить человека, а открыть принципиально новые возможности.

Например, использовать синтез речи, чтобы быстро адаптировать образовательные онлайн-программы для аудиторий из разных культурно-социальных слоёв.

Рупал Патель
основательница разработчика ИИ-голосов VocaliD

Однако профессионалы боятся потерять не работу, а деньги и уважение, говорит представитель профсоюза актёров США SAG-AFTRA. Они полагают, что компании урежут гонорары и станут использовать их голос без разрешения.

Последнее стало предметом недавнего иска против TikTok. По словам канадской актрисы Бев Стэндинг, приложение использует копию её голоса во встроенном генераторе озвучки.

С подобным столкнулась и американская актриса Сьюзен Беннетт. Именно её голосом говорила первая версия Siri в США, хотя сама она узнала об этом лишь после запуска функции — от друзей.

Изначально актриса полагала, что записывает типовые сообщения для внутренних сервисов Apple — например, голосовой почты. Именно за эти записи актриса получила деньги. За дальнейшее использование её голоса на миллионах устройств ей не заплатили.

Сьюзен Беннетт: «Все спрашивают, как же мне удалось стать голосом Siri. Сама не знаю»

Поэтому профсоюз SAG-AFTRA призывает принять законы, которые защищали бы актёров, и признаёт, что некоторые компании всё же работают добросовестно:

  • Они консультируются с профсоюзом по вопросу гонораров.
  • Делятся с актёрами прибылью каждый раз, когда клиент покупает право на использование их голоса.
  • Позволяют актёрам самим решать, в каких проектах будет звучать их голос.
{ "author_name": "Полина Лааксо", "author_type": "editor", "tags": ["\u0438\u0441\u043a\u0443\u0441\u0441\u0442\u0432\u0435\u043d\u043d\u044b\u0439\u0438\u043d\u0442\u0435\u043b\u043b\u0435\u043a\u0442","\u0433\u043e\u043b\u043e\u0441\u043e\u0432\u043e\u0439\u043f\u043e\u043c\u043e\u0449\u043d\u0438\u043a","siri","alexa"], "comments": 1, "likes": 11, "favorites": 25, "is_advertisement": false, "subsite_label": "ml", "id": 269898, "is_wide": true, "is_ugc": false, "date": "Thu, 15 Jul 2021 10:49:22 +0300", "is_special": false }
0
1 комментарий
Популярные
По порядку

Владельцы компаний "секс по телефону" аккуратно переписывают контактные данные разработчиков.

0
Читать все 1 комментарий
Как традиционному малому бизнесу превратиться в стартап: план действий

Сейчас в России предприниматели переходят из традиционного малого бизнеса в стартапы очень редко — меньше чем в 0,02% случаев. Это не больше 1 000 стартапов из около 6 млн предприятий малого бизнеса. Поговорим о том, что мешает предпринимателям и как действовать, если есть желание создать стартап.

Как испортить лучшую систему комментариев в рунете на примере vc.ru

Иногда мне кажется, на vc.ru идёт прогресс дизайна ради дизайна, а не ради прогресса. Вот и до комментариев добрались.

Готовы выбрать победителя премии «Экспортер года eBay — 2021»?
Quick FAQ: Осенняя хандра и то, как её победить

Привет! Это Дмитрий, автор канала «Ноотропы и разгон мозга» и сегодня я хочу поговорить с вами о том, что называют «осенняя хандра» или по-научному — Seasonal Affective Disorder (сезонное аффективное расстройство).

Как мы проводили командную ретроспективу в Minecraft

Рассказываем историю, на что стоит обратить внимание при проведении командного мероприятия в игре Minecraft, какие грабли могут быть, как организовать онлайн- и офлайн-участие.

«Яндекс» отказывается решать проблему с сетью Тele2 на «Яндекс.Телефон». Проблема вызвана отсутствием поддержки

Так случилось, что стал обладателем «Яндекс.Телефона» в ноябре прошлого года. Аппарат был куплен через площадку «Яндекс.Маркет» (Заказ № 28218750). Практически через неделю вместо оператора появилась уже ставшая знаменитой в узких кругах (среди владельцев «Яндекс.Телефонов») ошибка с крестами.

Нужны ли в России сити-фермы

И появятся ли грядки на крышах пятиэтажек.

re-thinkingthefuture.com
Создал ледовый комбайн в 50, а вместе с ним и рынок таких машин, который сразу захватил — это изобретатель Фрэнк Замбони Статьи редакции

Иногда ледозаливочные машины других производителей по ошибке называют «Замбони», пишет The Hustle.

Ледовый комбайн Замбони Time
Эксперты Httpool выступят на конференции по глобальному маркетингу Globalize! 2021

Событие соберет самых продвинутых специалистов в сфере трафика и аналитики из Google, Httpool, AppsFlyer, Aitarget, Angle Connect, TikTok, OWOX, SHAREit, Tribuna, SportQuake, LCFC, FBS.

Я скрестил «Трибуну» и Product Hunt

Теперь вы никогда не пропустите самые перспективные русскоязычные стартапы.

Жизнь и удаленная работа во Вьетнаме: почему работать со сдвигом на 4 часа — это хорошо

Чтобы разобраться, как живется во Вьетнаме на самом деле, мы пообщались с аналитиком, которая с 2013 года живет здесь с супругом и не собирается никуда уезжать. Она расскажет, какие тут на самом деле цены, как обстоят дела с развлечениями и медициной и в чем главное отличие Вьетнама от других стран Юго-Восточной Азии.

null