ИИ и Natural Language Processing: большой обзор рынка. Часть 3
Мы продолжаем цикл статей про рынок Natural Language Processing рассказом о самых успешных российских разработчиках и их продуктах. Уже в этом году отечественные команды в сфере NLP смогут протестировать свои решения по анализу текстов в ходе технологического конкурса Up Great «ПРО//ЧТЕНИЕ». Призовой фонд соревнований — 200 млн рублей.
В сентябре 2019 года Центр компетенций НТИ по искусственному интеллекту на базе МФТИ опубликовал очередной выпуск профильного Альманаха. В исследовании собран актуальный список отечественных разработчиков в сфере NLP. Приводим краткое резюме отчета.
Российские компании, ведущие разработки в области NLP, представлены на рынке в нескольких категориях. Прежде всего, это поисковики и компании, которые уже много лет занимаются текстовыми технологиями: «Яндекс», ABBYY, Mail.ru, PROMT и RCO (часть группы Rambler).
Вторая категория — крупные корпорации, которые лишь в последние 3‑4 года начали формировать свои компетенции в области ИИ. Например, Сбербанк, «Тинькофф банк», МТС. Все они добились впечатляющих результатов, несмотря на то, что делают в основном технологии для внутреннего пользования.
1. «Яндекс»
Продукты и проекты:
«Алиса» — виртуальный голосовой помощник, доступный во всех устройствах с программным обеспечением «Яндекс». На начало 2019 года ежемесячная аудитория «Алисы» составила около 35 млн человек.
«Яндекс.Переводчик» — сервис автоматического перевода слов, фраз, целых текстов, а также веб-страниц. Сервис использует технологию машинного перевода, разработанную в «Яндексе». В 2019 году осуществлялась поддержка более 90 языков.
«Яндекс.Толока» — краудсорсинговая платформа для сбора и обработки данных для ML-проектов, обучения поисковых алгоритмов и нейронных сетей, развития речевых технологий и компьютерного зрения. В «Толоке» зарегистрировано более 5 млн исполнителей и 20 тыс. заказчиков. Собранные оценки используются для разработки голосовых помощников и чат-ботов и проведения научных исследований в разных предметных областях.
Yandex SpeechKit — комплекс технологий распознавания и синтеза речи, предоставляемый как сервис для внешних разработчиков. C 2019 года технология синтеза и распознавания речи Yandex SpeechKit доступна по модели SaaS на платформе «Яндекс.Облако». Технологию уже активно используют более 300 государственных и частных компаний из отраслей телекоммуникаций, финансов, услуг, медицины. Самые популярные сценарии применения Yandex SpeechKit — это роботизация колл-центров и речевая аналитика.
Продукты и проекты:
Voice Navigator — позволяет клиенту в кратчайшие сроки и удобным для него способом получить информацию о том, как добраться до нужного места.
«Незабудка II» — многоканальная система регистрации телефонных вызовов и речевых сообщений, позволяющая анализировать и сохранять данные вызовов.
«Варвара» — платформа для создания голосовых ассистентов с поддержкой технологий голосовой биометрии.
3. ABBYY
Продукты и проекты для корпоративных заказчиков:
«Сбербанк» — мониторинг и автоматический анализ содержания новостей о 1000 банков-контрагентов на русском языке. NLP-решение ABBYY отбирает значимые сообщения, классифицирует новости по различным рисковым факторам и собирает релевантные данные досье о банках.
НПО «Энергомаш» — интеллектуальный корпоративный поиск. Компания тестирует решение ABBYY Intelligent Search, которое объединит в общую систему миллионы документов из множества информационных систем.
Банк ВТБ — автоматизированное открытие счета для юридических лиц с помощью решения ABBYY FlexiCapture. Технологии определяют типы документов, проводят проверку их наличия, извлекают необходимые данные и экспортируют информацию в банковские системы.
Продукты и проекты:
«Прометей» в социальной сети «ВКонтакте» — система для выбора релевантного контента для аудитории.
«Маруся» — голосовой помощник, разрабатываемый экспертами Mail.ru Group Tech Lab. Представлен в июне 2019 года. Планируются выпуск собственной колонки с «Марусей» и интеграция технологии в другие продукты Mail.ru Group и сторонние сервисы.
Mail.ru Sounds — технология распознавания звуков и речи на базе машинного обучения. Обнаруживает и анализирует любые звуки или их сочетание в аудиопотоке.
Сервис для быстрой разработки приложений на основе машинного обучения Mail.ru Cloud Solutions — технология помогает разработчикам и исследователям быстро создавать приложения на основе глубокого обучения без приобретения, конфигурирования и поддержки собственной инфраструктуры.
5. Just AI
Продукты и проекты:
Just AI Conversational Platform — платформа enterprise-уровня для разработки разговорных чат-ботов и ассистентов, понимающих естественный язык. Чат-боты, созданные в платформе, решают комплексные задачи бизнеса: поддержка клиентов, найм и обучение сотрудников, оформление заказов и продажа товаров.
Aimylogic — конструктор навыков и интеллектуальных ботов для независимых разработчиков.
Aimybox — готовые наборы навыков и лицензионный контент для умных устройств.
Детский робот «Емеля» — устройство на русском языке, понимающее естественную речь.
6. PROMT
Продукты и проекты:
PROMT Translation Server Developer Edition — автоматический перевод текстов, документов и веб-страниц целиком с помощью API.
PROMT Analyzer SDK — компонент для информационно-аналитических систем. Позволяет автоматически анализировать Big Data на разных языках, выделять факты, упоминания персон, организаций, событий и другие сущности, определять тональность высказываний и документов.
PROMT Cloud API — облачный интерфейс, который позволяет использовать технологию онлайн-перевода PROMT в других программах или на сайтах.
PROMT Mobile SDK — многофункциональный элемент для встраивания в мобильные приложения, позволяющий использовать технологию перевода PROMT полностью офлайн.
7. «Тинькофф»
Продукты и проекты:
Голосовой помощник «Олег» — первый в мире голосовой помощник в сфере финансов и лайфстайл-услуг. «Олег» отвечает на вопросы клиентской поддержки, обрабатывая более 30% обращений, еще в 30% случаев отвечает на часть вопросов, в половине случаев ответы персонализированы. Используются как нейросетевые подходы, так и классические методы.
Tinkoff VoiceKit — сервис речевых технологий «Тинькофф», включающий глубокие нейросетевые модели для синтеза и распознавания речи; использовались для создания голосового помощника «Олега», а с июля 2019 года доступны всем желающим по SaaS модели.
Кредитный скоринг — основа кредитного бизнеса «Тинькофф», сочетает в себе как классические робастные скоринговые модели, так и новое экспериментальное направление на основе обучения с подкреплением.
Голосовая биометрия — система для быстрой идентификации клиентов по голосовому отпечатку в колл-центре, сокращает время идентификации клиента в несколько раз.
Продукты и проекты:
За 15 лет реализовано более 90 коммерческих проектов для следующих компаний: «Сбербанк», Ford, BMW, Beeline, Headhunter, Webmoney, ВШЭ, «Газпром нефть», «МТС Беларусь», «Банк «Санкт-Петербург», «Ростелеком» и др.
«Элиза» — виртуальный консультант компании.
Продукты и проекты:
BRAND ANALYTICS — система анализа социальных медиа.
BA EXPRESS — система мониторинга соцмедиа и СМИ для компаний с небольшим объемом упоминаний и персонального использования.
BRAND VISOR — дашборд для быстрого контроля инфополя компании топ-менеджментом. Отслеживает сообщения о компании и её первых лицах в СМИ и социальных медиа, выделяет значимые публикации и визуализирует данные в виде трендов и зон риска.
EVENT WALL — соцмедиа-дашборд для мероприятий. Делает мероприятие интерактивным, собирает впечатления участников мероприятия и собственный контент организаторов в соцсетях на одном динамическом экране.
EUREKA ENGINE — высокоскоростная система лингвистического анализа текстов модульного типа, позволяющая извлекать новые знания и факты из неструктурированных данных огромных объемов в режиме реального времени.
10. Сбербанк
Продукты и проекты:
На основе единых технологических платформ для NLP и Speech Analytics, позволяющих ускорить разработку и внедрение новых продуктов, реализуются инициативы по созданию чат-ботов, автоматического голосового меню, автоматизированной подготовке юридических документов, обработке жалоб и обращений и др.
11. RCO
Продукты и проекты:
RCO Fact Extractor SDK — инструмент компьютерного анализа текстовой информации. Пакет предназначен для разработчиков информационно-аналитических и поисковых систем.
RCO Text Categorization Engine — библиотека для разработчика информационно-поисковых систем, позволяющая на основании лексических профилей определять принадлежность текста к заданному множеству категорий, получать количество вхождений и позиции выбранного термина в тексте.
RCO Досье — информационно-аналитическая система «Система ведения досье» (ИАС СВД) — программа, предназначенная для автоматизированного сбора информации из различных источников, содержащих сведения о юридических лицах, в структурированную базу данных фактографической информации.
RCO Zoom — специализированная поисковая система, сочетающая функционал традиционных поисковых систем и анализа информации.
12. «АСМ Решения»
Продукты и проекты:
Онлайн классификация и постклассификация обращений — автоматическое определение причин обращений и выявление горячих тем, тегирование вызовов.
Чат-бот — голосовой интерфейс и классификация обращений для чат-помощника.
Голосовая аналитика — инструменты анализа ситуации в голосовом канале контакт-центра. За последние три года компания «АСМ Решения» расширила опыт внедрения и использования речевых технологий в совместных проектах с компаниями: «Почта России», ЦИАН, Skyeng, «Речевая Аналитика», «Передовые Системы», «Алексэн», «Фонемика» и др.
13. «Медиалогия»
Продукты и проекты:
Мониторинг и анализ СМИ для PR — «Медиалогия» предоставляет онлайн доступ к базе СМИ с возможностью производить самостоятельный мониторинг СМИ и экспресс-анализ полученных сообщений.
«Медиалогия» для SMM — автоматическая система мониторинга, анализа и реагирования в соцмедиа.
«СМ Инцидент» — отработка негатива в соцмедиа, реагирование на значимые упоминания, контроль скорости и качества коммуникаций.
Анализ цитируемости для медиа — «Медиалогия» автоматически анализирует цитируемость каждого сообщения и оценивает источник по Индексу Цитируемости (ИЦ).
14. Kribrum
Продукты и проекты:
Система мониторинга и анализа социальных медиа «Крибрум» — собирает упоминания объекта (компания, персона, продукт компании) из русскоязычных ресурсов Интернета: социальных сетей, онлайн-СМИ, блогов, тематических и региональных форумов и других ресурсов. После этого система автоматически определяет эмоциональную окраску высказываний и распределяет публикации по тегам и категориям.
Один из проектов компании — регулярное исследование «рейтинг травли медиаперсон», составленный на основе мониторинга онлайн-ресурсов. В рейтинге анализируются негативные упоминания различных публичных персон в социальных сетях.
15. МТС
Продукты и проекты:
В 2018 году МТС запустила умного бота клиентской поддержки в личных кабинетах пользователей на сайте компании, сейчас бот консультирует клиентов также в приложении «Мой МТС». На сегодняшний день восемь из десяти клиентских запросов обрабатываются без привлечения специалистов поддержки. В июне 2019 года МТС представила решение для внешнего рынка — разработку чат-бота, адаптирующуюся под необходимый конкретной компании пул задач.
16. Naumen
Продукты и проекты:
Naumen KnowledgeCat — интеллектуальная система, объединяющая в себе функции умного поиска в больших массивах информации, управления знаниями и формирования карт компетенций. Предлагает точные и развернутые ответы на сложные вопросы, связанные с производственными процессами, оказанием услуг и прикладными исследованиями.
Naumen Erudite — позволяет создавать роботов, которые общаются с человеком на естественном языке. С помощью специальных интерфейсов заказчик может самостоятельно обучать и тестировать робота, а также оценивать качество его работы.
Naumen Service Management Intelligent Automation (SMIA) — позволяет комплексно интеллектуализировать сервисную деятельность предприятий, автоматизировано решать проблемы и давать рекомендации специалистам сервисных служб и конечным пользователям, снижая стоимость поддержки систем и устраняя неэффективность процессов при ручной обработке данных.
17. МФТИ
Продукты и проекты:
Проект iPavlov — преодоление технологического барьера в области содержательного человеко-машинного общения на естественном языке через создание и введение в бизнес-практику инструментов, снижающих порог входа на рынок текстовых диалоговых систем. Цель реализуется через следующие задачи: исследование и разработка нейросетевых архитектур для работы с текстом на естественном языке.
Создание open-source библиотеки нейросетевых архитектур DeepPavlov для быстрого прототипирования диалоговых систем (программ, позволяющих автоматизировать человеко-машинное общение на естественном языке – чат-ботов, персональных ассистентов, экспертных систем). Разработка технологической платформы на базе обученных в доменных областях моделей для автоматизации ведения целенаправленного диалога с пользователем (для Сбербанка). Коллаборация с глобальным научным и бизнес-сообществом для создания и распространения библиотеки DeepPavlov.
Продолжение следует.
Куда делась часть 1?
КТОНИТЬ ВИДИТ ЭТО? ^)
https://vc.ru/u/436018-maksim-fedorov/105874-udalili-dovolno-kachestvennyy-kontent-hochetsya-pod-skrinom-razmestit-svoy-kamment
АХ АДМИНЫ ШУТНИКИ :)