Под капотом у ИИ: как сервисы находят на фото Эйфелеву башню, распознают речь и пишут ответы за нас

Мы каждый день общаемся с ИИ: соцсеть находит нас на фото, голосовой ассистент заводит будильник, почта сама раскладывает письма по папкам. О том, как работают эти технологии, на примере продуктов Mail.ru Group рассказывает Андрей Бояров, ведущий программист-исследователь.

В 2012 году группа ученых из Университета Торонто под руководством Джеффри Хинтона смогла обучить глубокую нейронную сеть на большом объеме данных для распознавания изображений. Новый подход стал прорывом в индустрии — deep learning позволил обучать нейросети на огромных массивах информации. Сегодня благодаря deep learning сервисы понимают наши запросы — а иногда предсказывают их, не дожидаясь команды.

Как Облако распознает объекты на снимках

Нейросети способны распознавать на фотографиях объекты и людей. Иногда сервисы отмечают вас или друга на фотографии, где даже лицо видно не полностью — настолько умными бывают алгоритмы.

Облако Mail.ru умеет распознавать лица, объекты, сцены и достопримечательности. За это отвечают глубокие сверточные нейронные сети: они позволяют особенно качественно анализировать изображение.

Прежде чем запускать нейросеть в работу, ее необходимо обучить. На данный момент главный качественно работающий метод обучения распознаванию — так называемое «обучение с учителем». Узнавать достопримечательности нейросеть учат на размеченных изображениях. Специалисты собирают тысячи фотографий известных и не очень мест, размечают их, а затем выдают эту базу данных нейросети.

Процесс распознавания объектов выглядит так. Пользователь делает снимок и загружает его в Облако. Картинка сжимается до специальных входных параметров — стандартных 256х256 (такого размера достаточно для распознавания почти любого объекта, при этом сжатие снимков экономит время на их обработку).

Тепловая карта показывает, каким частям изображения нейронная сеть уделяет больше внимания. Если тепловая карта соответствует достопримечательности — значит, нейросеть ее успешно выучила

Нейронная сеть анализирует изображение и выдает оценку вероятности совпадения предполагаемого объекта на фото с видами достопримечательностей, на которых она обучалась. Условно, нейросеть говорит «с вероятностью 0, 001% это секвойя из национального парка в США, с вероятностью 1% — Пизанская башня, с вероятностью 97, 4% — Эйфелева башня».

За определение лиц, объектов, сцен отвечают схожие алгоритмы, однако у алгоритмов распознавания достопримечательностей есть особенность. Сложность возникает с ракурсами съемки: один и тоже памятник или собор может быть снят с разных точек. В этом случае используется результат работы нейронной сети — числовой вектор. Он обладает свойством, «описывающим» входное изображение — чем лучше была обучена сеть, тем точнее это описание. В него может входить ключевые характеристики зданий, ландшафта, окружающих объектов и т. д.

Для каждой достопримечательности из базы обучения посчитаны такие векторы, иногда даже по несколько. Сравнив векторы, можно получить ответ, к чему ближе объект на фото: к Эйфелевой башне или Фонтану Треви. Алгоритм выбирает самую «близкую» достопримечательность и добавляет изображение в соответствующий альбом на устройстве пользователя.

Облако знает больше 11 тысяч достопримечательностей в 503 городах 70 стран, и умеет узнавать, например, музей NEMO в Амстердаме и руины Кносского дворца в Ираклионе.

Как голосовой помощник понимает людей

Обработка звуков — еще одно применение искусственного интеллекта, важное, например, для работы голосовых ассистентов. Mail.ru Group в июне 2019 года представила Марусю.

Все умения цифровых помощников можно условно разделить на три группы. Каждая из групп подключается по мере развития диалога с пользователем и отвечает за определенный набор скиллов: первый блок обрабатывает запрос, второй отвечает за поиск решения, а третий демонстрирует результат.

На старте живого общения с пользователем для голосового помощника самая сложная и важная задача — правильно интерпретировать запрос. Речь состоит из миллионов сочетаний звуков, нельзя забывать и про индивидуальные особенности произношения и интонации. Поэтому помощники должны учиться, бесконечно анализируя человеческую речь.

Например, для Маруси — голосового ассистента, разработанного Mail.ru Group — обучение с учителем состоит из непрерывного общения с пользователями и редакторами, прослушивания голосовых и музыкальных записей. Чем больше разных звуковых данных она обрабатывает, тем проще с ней общаться людям, в том числе и маленьким детям, которые плохо выговаривают некоторые звуки.

Капсула c Марусей от Mail.ru Group​

Получив звуковой запрос, голосовой ассистент переводит его в текст и начинает готовить ответ. На этом этапе подключаются диалоговые системы, которые помогают поддерживать разговор как с живым человеком. Вопросы к ассистенту отличаются от запросов в браузере — люди привыкли задавать их на естественном языке. Понять человеческий язык как раз и помогает машинное обучение. Например, Марусю можно в свободной форме попросить рассказать сказку, посмотреть стоимость авиабилетов в Краков на следующие выходные — или запомнить что-то важное (а потом воспроизвести по команде «Маруся, напомни»).

После того, как диалоговая система классифицирует запрос, подключаются поисковые механизмы. Чаще всего, когда помощники не понимают, чего от них хотят, они просто перекидывают пользователя в браузер. Маруся поступает иначе: она показывает первые результаты выдачи поисковика в своем интерфейсе, чтобы не прерывать беседу.

Финальная часть работы голосового ассистента — синтез, то есть вывод и озвучивание результата. Это не менее сложный процесс, чем распознавание речи. Говорить по-человечески, с интонациями, близкими к естественным, Марусе помогают машинное обучение и нейронные сети.

Как Почта сортирует письма и пишет ответы за пользователя

В сервисах, которые давно знакомы пользователям, тоже есть искусственный интеллект. Например, привычный аккаунт в почте, куда приходят квитанции ЖКХ, чеки за онлайн-покупки, документы, письма от коллег и друзей, весь пронизан технологиями машинного обучения.

В Почте Mail.ru реализовано несколько решений на основе искусственного интеллекта. Одно из них — умная группировка писем. Алгоритмы считывают домены, анализируют реакцию пользователей на письма этого отправителя, сверяются с базой проверенных отправителей — и определяют сообщение в нужную папку, например, в «социальные сети» или в «другие рассылки» (туда попадают письма от магазинов, ЖКХ и т. д.).

Еще один сервис на базе ИИ — технология быстрых ответов Smart Reply. Машина анализирует смысл сообщения и предлагает на выбор несколько вариантов ответа. Нейросеть способна генерировать подходящие ответы практически для любого небольшого сообщения.

Ответы, подсказанные технологией Smart Reply в Почте Mail.ru​

Кроме того, в Почте используются алгоритмы компьютерного зрения: они распознают документы по характерным признакам — цветовое исполнение, знаки, узоры или линии, наличие лица, номера и т. д. Почта умеет узнавать СНИЛС, ПТС, свидетельство о регистрации и другие документы. При поиске система покажет необходимый файл, даже если в его названии или в связанном сообщении нет слов-маркеров.

​Пример работы компьютерного зрения в Почте Mail.ru: алгоритм распознал скан паспорта

Особое место в работе сервиса занимает безопасность данных пользователей. Весь процессинг Почты непрерывно мониторят несколько мощных систем. Они работают на основе машинного обучения и моментально реагируют на любую попытку взлома.

К примеру, нейронная сеть Marshal запоминает характерное поведение владельца почты на основе 100 параметров: когда он открывает аккаунт, откуда заходит и т. д. Если злоумышленник получит доступ к почтовому ящику, система определит, что пользователь действует не по своему привычному алгоритму, и аккаунт тут же заблокируется.

Направление искусственного интеллекта очень быстро развивается, так что прогноз по его будущему постоянно корректируется. Сейчас активно применяется подход обучения нейросети с учителем. Однако цель многих компаний сегодня — научить машину наблюдать, делать выводы и развивать навыки без прямого сигнала от человека.

0
Комментарии
-3 комментариев
Раскрывать всегда