{"id":13570,"url":"\/distributions\/13570\/click?bit=1&hash=f1bacf5c4cbd7b3a89944cb6a24ea229537917b3fe32459e3adc3e5edc200946","title":"\u041a\u043e\u0442\u044b \u0440\u0430\u0441\u0441\u043a\u0430\u0437\u044b\u0432\u0430\u044e\u0442 \u043e \u0441\u043e\u0446\u0441\u0435\u0442\u0438 \u0441 \u0432\u0435\u0440\u0442\u0438\u043a\u0430\u043b\u044c\u043d\u044b\u043c\u0438 \u0432\u0438\u0434\u0435\u043e","buttonText":"\u041c\u044f\u0443!","imageUuid":"af50a6ca-4f1a-5649-a992-94e85a4ba2c0","isPaidAndBannersEnabled":false}
Валентин Зайцев

Нейросети в бизнесе и повседневной жизни

Рассказываю о нейросетях, которые позволяют искусственному интеллекту (ИИ) общаться с людьми напрямую. Объясняю их принципы работы и показываю на примерах, как они помогают бизнесу и упрощают нашу повседневную жизнь.

Нейросеть — один из алгоритмов искусственного интеллекта. Бизнесу нейросети позволяют автоматизировать различные процессы, а обычным пользователям — упростить их повседневную жизнь. На их основе работает ряд сервисов и цифровых продуктов:

  • Мобильные приложения, сайты, поисковые системы с функцией голосового управления. За это отвечает технология распознавания речи. Её также используют для перевода в текст различного аудиоконтента.

  • Синтез голоса. Технология даёт возможность озвучить текстовый материал: книги, статьи и т.д.

  • Голосовые боты. Это виртуальный оператор, который принимает и совершает звонки. За счёт распознавания речи бот понимает живую речь собеседника. Ещё нейросети позволяют ему извлекать смысл из сообщений пользователя. Говорит он синтезированным голосом, который звучит естественно, как голос реального человека.

  • Голосовые ассистенты. Они также используют технологии распознавания и синтеза речи. Могут развлечь человека беседой на отвлечённые темы или помочь с бытовыми делами. Например, с помощью ассистента можно голосом управлять умными устройствами дома.

  • Сервисы для генерации текста. Такой сервис позволяет создавать различные коммерческие тексты: заголовки для статей, посты в соцсети, описания товаров, электронные письма и т.д.
  • Поисковые системы. С помощью нейросетей поисковики анализируют, насколько сайт близок по смыслу к поисковому запросу. В результате пользователь находит наиболее релевантный контент.
  • Онлайн-переводчики. Нейросети точно переводят с одного языка на другой. Поэтому современные переводчики используют нейросетевой перевод.

Это лишь несколько примеров, область использования нейросетей гораздо шире. Давайте выясним общий принцип работы нейросетей и подробнее разберём примеры, представленные выше.

Как работает нейросеть

Нейросеть — это один из методов машинного обучения (machine learning, ML). Алгоритм, используя данные, решает определенную задачу, в процессе обучения он учится находить закономерности в этих данных и автоматически их обрабатывать.

Нейросеть, созданная человеком, состоит из искусственных нейронов, которые образуют между собой связи. Каждый нейрон — вычислительная единица, выполняющая математические операции с полученной информацией. Нейроны объединены в слои: входной слой информацию принимает, во внутренних слоях происходит её обработка, результат поступает на выходной слой сети.

Многослойные сети называются глубокими. Чем больше слоёв и нейронов, тем сложнее сеть устроена и большей вычислительной мощностью владеет, что повышает качество её работы и даёт возможность решать более сложные задачи. Такие нейросети относятся к методу глубокого машинного обучения (Deep learning). Ещё у нейросетей бывают разные архитектуры. Архитектура – это один из способов скомбинировать между собой слои и выстроить глубокую нейронную сеть.

Глубокие нейросети используют для решения задач NLP (Natural Language Processing), или обработки естественного языка. Естественным считается привычный нам разговорный язык, который мы используем для коммуникации, например, русский, английский, немецкий и т.д. NLP позволяет общаться ИИ с человеком напрямую. Нейросети способны перевести живую речь в текст (speech to text, STT) и синтезировать речь (text to speech, TTS), когда алгоритм автоматически озвучивает текст. Также алгоритмы работают с текстом, за счёт математических операций они могут определить его смысловое содержание.

Нейронные сети и обработка текста

Для работы с текстом используют нейросети архитектуры трансформер. Например, при поисковом запросе пользователя нейросеть оценивает смысловую близость запроса и веб-страницы из интернета, и в результате поисковик выдаёт наиболее релевантный контент.

В Яндексе за это отвечает нейросеть YATI (Yet Another Transformer with Improvements, или «ещё один трансформер»).

Екатерина Серажим отвечает за качество ранжирования в «Яндексе». В статье, посвящённой работе YATI, она рассказывает, как модель обучали для данной задачи.

«Для YATI мы показывали не просто текст какого-то документа, а реальные поисковые запросы и тексты документов, которые видели наши пользователи. И просили его угадывать, какой из них понравился бы пользователю. Следом мы доучили трансформер. У нас есть эталон — экспертная разметка, наши асессоры по сложной шкале оценивают, насколько документ релевантен запросу. Теперь трансформер должен был угадать эту экспертную оценку».

Появление YATI в поисковике Яндекса дало рекордное повышение качества ранжирования за последние 10 лет. При этом вклад нейросети в предсказание, какой сайт показать пользователю по запросу, составляет более 50%.

Другая нейросеть — YALM (Yet another Language Model, «ещё одна языковая модель») — помогает Яндексу отобрать наиболее информативный фрагмент текста с сайта для «быстрого ответа» и помещает его в самое начало поисковой страницы. Функция стала доступна для широких информационных запросов, а за месяц генерируется более 130 млн уникальных ответов.

Вообще, YALM — это языковая модель, которая умеет генерировать новый осмысленный текст. Для этого нейросети прописывают словами, какой текст хотят получить, и дополнительно дают несколько примеров. Чтобы модель научилась генерации, её знакомят с огромными массивами текстов из интернета, которые охватывают большой спектр тем. В результате алгоритм узнаёт факты о внешнем мире и запоминает, как устроен язык.

Яндекс также применяет YALM для создания объектных ответов. Объекты могут иметь длинное описание в Википедии, модель генерирует для них краткие подзаголовки, это заменяет длинный текст и позволяет пользователю быстро вникнуть в суть.

Google Поиск для повышения качества ранжирования использует нейросеть-трансформер BERT (Bidirectional Encoder Representations from Transformers). В мае 2021 года, компания анонсировала модель MUM (многозадачная унифицированная модель). MUM, как и BERT, имеет архитектуру трансформер, но в 1000 раз мощнее своего предшественника. Новый алгоритм должен повысить глубину «понимания» запросов, а поиск информации сделать ещё более удобным. Однако в русскоязычной версии браузера, на момент написания статьи, эти улучшения ещё не появились.

Языковые модели также способны создавать коммерческие тексты. Например, модель GPT-3 (Generative Pre-trained Transformer 3) от разработчиков OpenAI. Её используют более 300 приложений разной направленности от коммерческих до игровых, а в день она генерирует в среднем 4,5 миллиарда слов.

На основе GPT-3 работает Jasper AI — сервис для генерации различного текстового контента: сайта, личного блога, социальных сетей и много другого. Jasper поддерживает 25 языков, в том числе и русский. Платформа имеет более 50-ти шаблонов под конкретное применение. Например, есть шаблоны, которые пишут текст по маркетинговым моделям AIDA и PAS. Более подробно о сервисах для генерации текста я рассказывал в предыдущей статье.

Ниже две иллюстрации, где тестируют шаблон для описания продуктов. В данном примере речь о британском лабрадоре. На первой иллюстрации вписаны краткие характеристики породы.

Источник: 

https://www.youtube.com/watch?v=Dc-yZQjSUVY

На второй — результат генерации.

Источник: 

https://www.youtube.com/watch?v=Dc-yZQjSUVY

Способность генерации также позволяет нейросетям выполнять перевод с одного языка на другой. Так считает Александр Готманов руководитель группы нейросетевых технологий поисковой системы Яндекса:

«Результат работы переводчика — это полностью сгенерированный текст, и даже небольшие смысловые ошибки сразу заметны пользователю. Поэтому для решения задач перевода всегда использовались самые сложные модели, которые могли учесть порядок слов в тексте и их взаимное влияние друг на друга. Сначала это были рекуррентные нейронные сети (Recurrent Neural Networks, RNN), а затем трансформеры».

При переводе нейросеть работает сразу с предложениями — это позволяет сохранить их внутренние смысловые связи и верно передать контекст.

Перевод с помощью нейросетей осуществляет сервис DeepL, он поддерживает 28 языков и справляется с профессиональной лексикой. Разработчики заверяют, что по точности перевода их сервис превосходит все остальные.

Google Translate также применяет нейросети, которые значительно повышают качество перевода для более чем 100 языков.

Переводчик устанавливается на телефон и будет доступен в любом мобильном приложении. Чтобы им воспользоваться, надо выделить текст, нажать на три точки, а затем «перевод».

Ещё перевод интегрирован в Gboard — это Google Клавиатура для Android и IOS устройств. Клавиатуру можно использовать в разных мессенджерах и автоматически получать перевод набранных вами сообщений.

Яндекс переводчик применяет нейросети пока только для перевода с английского на русский. Зато у Яндекса есть разработка, которая создаёт закадровый перевод англоязычных видео на русский язык.

Помимо перевода нейросети здесь применяют для распознавания и синтеза речи.

В результате пользователь получает правильный и синхронный перевод с мужским или женским голосом в зависимости от пола говорящего. Пока перевод ролика занимает пару минут, но в будущем станет мгновенным, и появятся новые языковые пары. Сервис работает в Яндекс Браузере и переводит ролики, размещённые на YouTube и некоторых других популярных платформах. Такая технология разрушает языковой барьер и открывают ранее недоступный контент.

Источник: https://www.youtube.com/watch?v=XL0PgxUzMls

Как работают речевые технологии и где их применяют

Вернёмся к другим технологиям NLP — это распознавание и синтез речи.

Чтобы сделать закадровый перевод видео, как в примере выше, Яндексу нужно преобразовать речь в текст. Для этого нейросеть разбивает голосовую запись на фонемы, а затем составляет из неё слова. Чтобы точно различать фонемы, нейросеть обучают на базе из тысячи вариантов произношения слов и букв. Также нейросеть можно дообучить распознавать специальную терминологию.

Обратный процесс — это синтез речи, при котором нейросеть самостоятельно моделирует речь. Алгоритм обучают на качественных записях речи диктора, где есть вся фонетика русского языка, в том числе и редкие сочетания звуков. Качество синтезируемой речи бывает разной, она может звучать искусственно или, наоборот, естественно, с подбором интонаций и акцентов. Во втором случае в обучающей записи диктор должен будет прорабатывать эти моменты.

Денис Филиппов, директор по технологиям SberDevices, рассуждает, где могут применяться речевые технологии, о пользе речевых технологий для бизнеса.

«Многие компании автоматизируют работу со звонками, записывая готовые реплики, но работу, которую сейчас выполняет человек, можно отдать сервису, функционирующему на основе речевых технологий. Таким же образом компании могут озвучивать тексты сайтов и приложений или добавить опцию голосового ввода, что значительно ускоряет взаимодействие пользователя с ресурсом и даёт ему возможность пользоваться тем или иным сервисом даже за рулём».

Голосовые боты и ассистенты

За счёт речевых технологий функционируют голосовые боты. Они могут распознать живую речь человека и говорить синтезированным голосом. Технология NLU (Natural Language Understanding, или понимание естественного языка, это подраздел NLP) позволяет роботу извлекать смысл из сообщений и тем самым понимать, что хочет клиент.

Голосовой бот может заменить живого оператора на большинстве рутинных задач. При этом бот показывает большую эффективность, поскольку не отклоняется от сценария разговора в отличие от человека. За день робот способен обрабатывать более тысячи звонков и одновременно вести разговор с сотнями клиентов. Более подробно о том, как работает голосовой бот и зачем он нужен бизнесу, я рассказываю в этой статье.

Если голосовые боты помогают бизнесу, то голосовые ассистенты помогают обычным пользователем. Исследование Just AI показывает, что в 2020 году количество пользователей голосовыми ассистентами в России составило 52 млн, лидерство занимает Алиса от Яндекса — 45 млн пользователей.

Голосовые ассистенты также действуют на основе речевых технологий. Например, Алиса использует технологии Yandex SpeechKit. Она способна распознавать речь, где есть сленговые слова, акцент и посторонние шумы. Чтобы Алиса звучала естественно, в основу её синтеза лёг голос актрисы дубляжа Татьяны Шитовой.

Алиса способна развлечь человека беседой на разные темы. За это отвечает генеративная нейросеть YALM, её обучали на диалогах людей из социальных сетей и редакторских ответах, которые придают ей определённый характер.

Помимо возможности поболтать у Алисы есть навыки, которые помогут с повседневными делами, активируются они голосом. Помощник поставит напоминания, таймер и будильник, найдёт информацию в интернете, расскажет о погоде, проложит маршрут, вызовет такси и закажет товар. Она может воспроизвести видео, музыку и подскажет с выбором исходя из предпочтений, назовёт название композиции и автора. Также помощник позволяет голосом контролировать работу умных устройств. Это умные розетки, чайники, очистители воздуха, лампы, пылесосы.

Алиса доступна в умных колонках и Яндекс Браузере в мобильной и компьютерной версии. Благодаря ей поисковый запрос можно озвучить голосом, а текст со страницы она зачитает сама. Кстати, при помощи голоса можно ввести поисковый запрос в Google. А ещё добавить текст в Google документы и переводчик, а также оставить заметки в Google презентации.

Похожие функции имеют Google Assistant, Siri от Apple, Маруся от Mail.ru и Салют — семейство ассистентов Сбербанка. Помощники обитают в телефонах и смарт-девайсах, каждый интегрирован в свои сервисы и обладает уникальными навыками.

Например, Салют — это сразу три ассистента на выбор: Сбер, Афина и Джой, у каждого свой голос и характер. Ассистенты позволяют взаимодействовать со Сбербанком в приложении в Сбербанк Онлайн, объяснят финансовые термины и подскажут ключевую информацию по акциям.

Где ещё применяются речевые технологии

Платформа Just AI занимается разработкой разговорных интерфейсов для бизнеса. Одно из её решений — это добавление голосового управления в мобильные приложения. Голосовые команды упрощают взаимодействие с приложением, например, получится быстрее искать и оформлять товары или быстро надиктовать свои контакты.

SmartSpeech помимо приложений позволяет внедрить голосовой поиск на сайт, а также озвучить синтезированным голосом его разные элементы: описания товаров или навигационные пункты. Это особенно полезно слабовидящим людям.

Ещё SmartSpeech и YandexSpeechkit способны озвучить контент любого объёма и транскрибировать его в текст. Озвучить можно различные текстовые материалы: книги, статьи, инструкции или бизнес-ролики и презентации. Текстовая версия может потребоваться для аудио и видеоконтента.

«Вконтакте» применяет нейросети для расшифровки голосовых сообщений. Речь переводится в текст, языковая модель восстанавливает нераспознанные слова, исходя из контекста, а затем расставляются знаки препинания. При этом голосовые сообщения можно найти при помощи поиска по тексту.

Функция доступна в мобильной и компьютерной версии. Те же технологии соцсеть использует в видеоплеере для создания субтитров на русском языке. Нейросети помогают очистить запись от фонового шума, а субтитрам — появляться в кадре в тот момент, когда спикер произносит свою фразу.

Синтез речи присутствует в онлайн-переводчиках Google, Яндекс и Deepl. Он позволяет озвучить полученный перевод и услышать правильное произношение слов.

Вывод

Нейросети — это полезные инструменты, которые всё глубже проникают в нашу жизнь. Бизнесу они предлагают решения, которые помогают сэкономить, повысить эффективность и удобство его сервисов. Обычным пользователям — помогают решать бытовые задачи, улучшают пользовательский опыт в различных продуктах, а также разрушают языковой барьер.

Также нейросети активно применяют в области компьютерного зрения, где алгоритм работает с изображениями, речь об этом пойдёт в следующей статье.

Меня зовут Валентин Зайцев, я копирайтер и могу подготовить статью о вашем бизнесе — пишите на почту: [email protected]

0
Комментарии
Читать все 0 комментариев
null