Мысли про отмирающую профессию переводчиков и интонации говорящих роботов

Девять заслуживающих внимания цитат с конференции Yandex Scale.

Про развитие навыков речи у роботов

Никита Ткачев, менеджер по развитию бизнеса ML-сервисов в «Яндексе»

Интонации есть, они становятся более выраженными по сравнению с предыдущим поколением роботов. Например, это связано с имитацией дыхания. Если предложение длинное и сложноподчиненное, машина может остановиться и вдохнуть. Такая мимикрия под человека уже существует, но ещё много над чем нужно работать —с резкими вопросительными или восклицательными интонациями особенно.

Нет правильного ответа на вопрос, должны ли люди знать, что говорят с роботом — каждый сценарий нужно рассматривать индивидуально. Если это робот-продавец, который использует предзаписанные фразы, то его задача — имитировать поведение человека: продавать, отрабатывать выражения и закрывать сделки. Для эффективности бизнеса нет смысла говорить, что клиент говорит с роботом.

Если речь про робота-помощника или специалиста поддержки, то можно притвориться, что это человек. Но любой нестандартный вопрос, который введёт робота в ступор, сформирует впечатление, что вы разговариваете с каким-то идиотом. Поэтому большинство компаний предупреждают, что люди разговаривают с роботом и заранее извиняются, если он не может ответить на какой-то вопрос.

Никита выступил с большим докладом про когнитивные сервисы «Яндекс.Облака»

Три отличия машинного обучения от других трендовых технологий

Игорь Куралёнок, руководитель подразделения AI & Machine Learning в «Яндексе»

Чем машинное обучение отличается от других разработок? Сейчас качество и конкурентоспособность продукта с машинным обучением зачастую определяется доступными ресурсами. Большие компании могут залить всё железом и выиграть у кого угодно. Мы месяц обучали «Алёну» говорить на восьми V100 — ни для кого не секрет, сколько ресурсов занимает тренировка моделей.

Качественная модель должна работать на большом количестве данных. Чтобы их получить, нужно переварить ещё большее количество данных, чтобы получить разметку. Это требует распределённых вычислений и ресурсов, недоступных для индивидуальных компаний.

И, пожалуй, самое важное — калиброванная разметка. Большинство алгоритмов, которые мы применяем — это обучение с учителем. Если учитель не знает, чего хочет, обучение хорошо не закончится. А чтобы учитель знал, нужно собрать группу экспертов, которые работают, как единый организм — кто пробовал, тот знает, какая это головная боль.

Игорь рассказал про преимущества использования облака в машинном обучении

Про исчезновение переводчиков, как профессии

Михаил Гилин, начальник отдела качества бюро переводов «ТрансЛинк»

Останется ли работа для переводчиков после внедрения нейросетей? Аналитические компании нашей области предрекают, что в ближайшие 10 лет значительная часть «классических» переводчиков вымрет, а оставшиеся будут за огромные деньги переводить художественную литературу, какие-то статьи, журналы. Это максимум.

Остальное — техническая литература, юриспруденция, экономика —более-менее клишированные вещи, начнут очень скоро отмирать.

Михаил поделился опытом машинного перевода внутри доклада про когнитивные сервисы

​«Это условная генетическая карта мира, где каждая точка — это один расшифрованный геном. С ней мы и сравниваем данные, когда ищем принадлежность человека»

Чем объясняется интерес биологов к облачному хранению данных

Александр Ракитько, директор по продукту в Genotek

Самый частый вопрос, с которым к нам приходят — «сколько во мне еврейских корней?». Думаю, понятно, чем мотивирован этот вопрос. Для выяснения клиенту нужно передать нам свой биоматериал — собрать слюну в пробирку, что не так просто, как звучит. При помощи специального прибора, секвенатора, из клеток мы получаем последовательность символов. Геном человека — это две длинные строки по три миллиарда букв.

Зачем биологам облака? Расшифрованный полный геном человека занимает около 80 гигабайт. И мы сталкиваемся с необходимостью куда-то записывать десятки, сотни тысяч геномов.

Биоинформатика — наука, которая занимается анализом этих данных представляет собой синергию программирования, статистики и биологии. Иногда код пишут сами биологи, а сама наука, в целом, не доросла до баз данных. Геномы хранятся файлами: каждая из 23 пар хромосом — в своём архиве. Так мы и пришли к объектному хранилищу данных.

Александр рассказал, что из себя представляют генетические данные и как их хранят

Про наступившую эпоху интернета вещей

Александр Сурков, архитектор IoT в «Яндексе»

Интернет вещей уже вокруг нас. Например, каршеринг — когда в каждом автомобиле есть устройство, которые считывает массу параметров: геопозицию, уровень топлива, данные о работе двигателя. Они проходят через облако, после чего на экране своего смартфона их видит пользователь. Или «умный» дом: говоришь «Алиса, я дома», и свет включился, кофе варится, и заиграла ваша любимая музыка.

Александр провёл экскурсию по интернету вещей в «Яндекс.Облаке»

Путь голосового запроса в «Алисе»

Олег Садовников, руководитель рантайма «Алисы»

Мы говорим: «Алиса, привет, какая погода в Москве?». В этот момент на гаджете активируется споттер, который подтверждает, что мы действительно хотим поговорить с Алисой. После чего запись запроса устремляется в наш бэкенд, где она начинает обрабатываться двумя технологиями:

  • Преобразователем речи, который переводит звук в текст.
  • Снятием голосового отпечатка — биометрически распознаётся хозяин голоса.

Далее два сервиса разбираются, чего хочет пользователь: один вычленяет имена собственные, другой ищет смысловые связи между словами в предложениях. «Переведённый» на язык машин запрос связывается с одним из пятидесяти сервисов — «Погодой», например. С самого начала мы работали над тем, чтобы «Алиса» понимала контекст диалога, и переход на Yandex Database мы начинали со сценария игры в города.

Олег приоткрыл внутреннюю кухню «Алисы» внутри доклада про высоконагруженные системы

Работа баз данных на примере сервиса для школьников

Никита Макаров, руководитель разработки интеграций поисковых сервисов в «Яндексе»

Допустим, мы научились выделять самые сложные школьные задания. В «Яндекс.Репетиторе» ими бы были задачи на стереометрию на смекалку. С запросами к базе данных мы сможем рекомендовать школьнику самую популярную задачу за сегодня или ту, с которой уже две недели никто не справляется.

Благодаря устойчивости базы данных — она переживает 50 тысяч транзакций в секунду, такие рекомендации можно готовить в реальном времени. А следующий шаг: мы будем натренировывать школьника не по разделам, а по областям знаний. Он плохо решает именно те задачи, где есть одна тригометрическая формула — приложение советует подучить её отдельно.

Это из ещё одного доклада внутри секции про высоконагруженные системы

Про правила хранения данных и физическое уничтожение дисков

Евгений Сидоров, заместитель руководителя группы безопасности сервисов в «Яндексе»

Данные клиента всегда принадлежат ему самому. Наш облачный сервис в них не заглядывает, мы не понимаем, что именно клиент загружает в облако. При этом соответствие данных закону — это тоже его ответственность. Кому и как давать доступ — решает только он сам.

Если какой-то диск выходит из строя, наш инженер получает об этом уведомление. Он под камерой вытаскивает его, кладёт в safe-пакет, опечатывает и несёт на диагностику. Если это жёсткий диск, и он больше не пригоден — то мы сперва его размагнитим,а потом уничтожим, если другие разновидности — то они сразу попадают в нашу шредер-машину.

Безопасности был посвящён целый доклад

Как «Яндекс» делится данными

Роман Колеченков, руководитель сервиса Yandex DataLens

Данные есть и вне компании, и они могут быть полезны. К примеру, пиццерия строит график динамики заказов — почему бы не наложить на него данные о погоде? Мы даём «покрутить» аналитикам данные о погоде, осадках и температурах в городах с населением больше ста тысяч по всему миру.

Роман рассказал, чему новому научился сервис для визуализации данных

0
20 комментариев
Написать комментарий...
Todd
Ответить
Развернуть ветку
Slava Itprofi
Ответить
Развернуть ветку
ave ego

попробуйте через Алису вызвать скорую помощь или получить инструкцию что делать в момент отравления . она пошутит. 

фразы: мне плохо, меня тошнит, я отравился, голова кружится, сердце болит. нечем дышать и тд. 

кто разрабатывает роботов голосовых помните одно. когда нить вы позвоните в больницу и вам ответит робот с тучей вопросов и в процессе вы отбросите коньки. 

Ответить
Развернуть ветку
Юрий Б.

Сири тоже не бросает друга в биде

Ответить
Развернуть ветку
ave ego

а если нет такого контакта в телефонной книге? :D

Ответить
Развернуть ветку
Юрий Б.

Ну черт его знает, вроде нормальная реакция

Ответить
Развернуть ветку
ave ego

скажите : "алиса, меня отравили", "алиса, я отравился", "алиса, мне плохо" если уже поправили, то очень хорошие новости

Ответить
Развернуть ветку
Юрий Б.

Предлагает ерунду, но если уж отравился, то давай вызывай скорую, не будь дураком. Алиса это не служба помощи рейверам в сложной ситуации. 

В примере с айфоном не могу проверить, не знаю что будет.

Ответить
Развернуть ветку
Александр Иванов

Я один сразу иду смотреть комменты, а потом читать статью?

Ответить
Развернуть ветку
Maxim Petrukhin

Подскажите дебилу. Вот про данные в облаках. 
"Данные клиента всегда принадлежат ему самому. Наш облачный сервис в них не заглядывает, мы не понимаем, что именно клиент загружает в облако." и дальше вот душераздирающая история про винт. 

То есть Яндекс не использует фотки, загруженные пользователем на Диск, для обучения нейросетей? 

А то в общем соглашении Я-сервисов есть такой загадочный пункт
"Пользователь осознает и соглашается с тем, что технология работы сервисов может потребовать копирование (воспроизведение) контента Пользователя Яндексом, а также переработки его Яндексом для соответствия техническим требованиям того или иного сервиса." 

Ответить
Развернуть ветку
Todd

Гугл на последнем Made By Google тоже назойливо клал в уши наивным пользователям "ГЛАВНОЕ ЭТО PRIVACY, ВАШИ ДАННЫЕ ПОЛНОСТЬЮ ВАШИ МЫ ИХ НЕ ТРОГАЕМ" блаблаблабла и так 150 раз, как по заповедям Аллена Кара

Ответить
Развернуть ветку
Maxim Petrukhin

Во-во. И на этом фоне неограниченное место на Гуглофотках. Пгосто так, от шиготы души. 

Ответить
Развернуть ветку
Wladimir
То есть Яндекс не использует фотки, загруженные пользователем на Диск, для обучения нейросетей? 

Скорее всего использует, но просто как очень большой обезличенный массив изображений. Ну может ещё EXIF читают для статистики)) 

Ответить
Развернуть ветку
Сергей Токарев

про дыхание было интересно

Ответить
Развернуть ветку
Igor Kowalski

Про умирание переводчиков прямо интересно. Во-первых давно обещают. Во-вторых, да, качество машинного перевода растёт. В-третьих, контекст, домысливание, литературный перевод - будет ли это машина всё учитывать. Ведь по факту, владение переводом (тем или иным языком) это уже почти вопрос мышления. Поставил себе напоминалку - через 10 лет. Вернуться к этой теме.

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Egor Glukhov

Бедная профессия, столько лет уже отмирает. С 50-х годов прошлого века.

Ответить
Развернуть ветку
Максим Милов

Да, и похоже все таки вымрет, думаю, мы застанем этот момент

Ответить
Развернуть ветку
Todd

delete

Ответить
Развернуть ветку
Крымский Чайничек

я вам сразу скажу что переводчики как жили так и будут жить. Нейроные сети просто не будут успевать за развитием языка. 

Ответить
Развернуть ветку
17 комментариев
Раскрывать всегда