Вторая робохроника ИИ: BERT и ERNIE 2.0 поделят $28 млрд, усталые водители «Яндекс.Такси» и сколько Visa тратит на ИИ

Роботы из Redmadrobot Data Lab рассказывают про новости, кейсы и подходы в ИИ, которые можно переложить на нашу действительность и реально использовать.

BERT и ERNIE 2.0 думают, что делать с RoBERTa
BERT и ERNIE 2.0 думают, что делать с RoBERTa

Искусственный интеллект и роботов не остановить, а сомневающиеся пусть смотрят на самый послушный в мире китайский беспилотный велик!

Эрни и Берт дата-сайентиста

За последние время было несколько анонсов новых технологий в области обработки естественного языка. Мы обязаны объяснить, зачем это надо и чем эти новости важны. Да-да, речь об NLP-технологиях, позволяющих людям и машинам общаться без посредников.

Вкратце: многослойная нейросеть находит в текстах на естественном языке семантические связи, улавливает логику и смысл, а дальше на основе этой технологии уже появляются продвинутый спам-фильтр и классификация сообщений, чат-боты, Siri, «Алиса», «умные» холодильники и SkyNet (если человечество будет себя плохо вести).

История вопроса

В 2018 году подразделение Google AI показало миру BERT (Bidirectional Encoder Representations from Transformers) — инструмент обработки естественного языка на основе нейронных сетей.

BERT тренировали на статьях «Википедии» и научили работать со 104 языками! И до последнего времени именно BERT был state of the art, или главным ориентиром, который показывал лучшие результаты на тестах по работе с естественным языком.

Зачем это вообще надо

С нуля решать задачу с естественным языком на ИИ — создавать чат-ботов, вопросно-ответные системы, — долго и дорого. Но спасибо парням из Google AI (у которых свои интересы на эту историю) — BERT бесплатный.

Поэтому можно взять BERT и на его основе дообучить алгоритмы под свои, более узкоспециализированные задачи. В результате получится решение достойного качества, заточенное специально под вас.

Что нового

Появилось несколько технологий, которые превосходят BERT в качестве обработки языка (правда, только английского и китайского, в других BERT пока в лидерах).

Поясним: модели сравнивают в качестве и точности решения стандартных задач — анализа тональности текста (SST-2 в таблице ниже), способности понять смысл текста или ответить на вопросы по проанализированному тексту.

  • Сначала показали SpanBERT, который обошёл BERT в решении двух задач.
  • Потом ребята из Университета Карнеги — Меллона выложили в свободный доступ XLNet. XLNet обошла BERT уже более чем по 20 задачам. Секрет успеха — обучение модели на большем количестве данных и дольше. GitHub и материалы.
  • Facebook рассказала про RoBERTa — доработку BERT (или Robustly optimized BERT approach). Ребята из Facebook доработали BERT и получили модель ещё лучше. Как они это сделали? Взяли ещё больше данных и обучали ещё дольше, ну и заодно немного улучшили сам алгоритм. GitHub и материалы.
Вторая робохроника ИИ: BERT и ERNIE 2.0 поделят $28 млрд, усталые водители «Яндекс.Такси» и сколько Visa тратит на ИИ
  • Baidu разработала ERNIE 2.0. К сожалению, нет прямого сравнения ERNIE 2.0 и RoBERTa. Результаты модели Baidu сильно лучше всех остальных для китайского языка и опережают остальных по ряду задачек для английского. При этом компания выложили свою нейронную сеть в открытый доступ, поэтому на ближайшее время у них есть все шансы стать бенчмарком для работы своей «небольшой» аудитории. GitHub и материалы.
Вторая робохроника ИИ: BERT и ERNIE 2.0 поделят $28 млрд, усталые водители «Яндекс.Такси» и сколько Visa тратит на ИИ

Что нас ждёт

Судя по тенденции стремительного развития NLP-технологий, намечается бум «умных» роботов, которые действительно смогут понимать человеческую речь. Отчасти всё это возможно благодаря снижению стоимости оборудования и работы на нём, ведь обучение нейросетевых моделей требует больших вычислительных ресурсов.

BERT, ERNIE, RoBERTa и XLNet — основа не только для чат-ботов, но и голосовых помощников, которые будут становится умнее и человечнее.

Стоит только посмотреть на Polly от Amazon или WaveNet от Google, которые избавляют роботов от бездушного механического голоса. Для большей человечности в речь голосовых помощников добавляются естественные человеческие слова-паразиты, звуки, дыхание, интонация, эмоции, экспрессия. И вот уже человек не способен отличить голос робота от человека.

Просто зацените видео с Google I/O! Чтобы это стало возможно, необходимо «понимание» роботом смысла сказанного, и здесь снова важны NLP-алгоритмы. Технологии-лидеры можно посмотреть тут. По оценкам аналитиков, к 2026 году объём рынка для решений в области обработки естественного языка достигнет объёма в $28,6 млрд!

Лидеры Glue Benchmark — претенденты на рынок NLP-решений в $28,6 млрд
Лидеры Glue Benchmark — претенденты на рынок NLP-решений в $28,6 млрд

На чужих берегах

Алгоритмы для предсказания цен, борьбы с обманщиками и лечения почек.

ИИ поможет Nasdaq найти сделки с нарушениями

Вторая робохроника ИИ: BERT и ERNIE 2.0 поделят $28 млрд, усталые водители «Яндекс.Такси» и сколько Visa тратит на ИИ

Nasdaq, одна из крупнейших технологических бирж, капитализация которой около $16 млрд, тестирует технологию для поиска новых форм манипулирования рынком и сделок с нарушениями.

Майкл О'Рурк, руководитель отдела ИИ в Nasdaq, говорит, что проект отчасти появился случайно: они создавали модель для поиска исторических злоупотреблений на рынке, а затем заметили, что система выдаёт странные данные, которые выглядят подозрительно и не похожи на известные незаконные схемы.

При этом, отмечает О'Рурк, что не все подозрительные активности незаконны, но по некоторым операциям, которые были выделены ИИ, уже идут расследования.

Алгоритм обучается на комбинации из исторических торговых данных Nasdaq и моделях актуальных методов злоупотребления рынком. Ежедневно Nasdaq обрабатывает информацию о сделках с миллиардами акциями. В целом компания давно занимается ИИ и машинным обучением — она даже продала одно из своих ИИ-решений Гонконгской бирже.

У Nasdaq уже была сильная экспертиза в данных и машинном обучении, поэтому проект могла сделать команда из десяти человек. Ловить какие-то обоснованные отклонения они начали примерно через три-шесть месяцев после старта пилота. При этом надо понимать, что речь о сложном проекте с ансамблем моделей, состоящем из множества подходов и вороха технологий.

И, конечно, надо будет учитывать деградацию модели из-за устаревания данных — скорее всего, это решается за счёт того, что модели перманентно дообучаются.

Лёша Соколов, железный из Redmadrobot Data Lab

Visa поборется с фродом

Visa рассказала, что потратила $500 млн за последние пять лет на ИИ-проекты и инфраструктурные проекты для работы с данными! Только внутри компании ИИ занимается группа из 56 человек.

В основном они сосредоточены на алгоритмах для предотвращения фрода. Например, одна из таких систем только в прошлом финансовом году позволила предотвратить мошеннические операции на $25 млрд.

Предсказание цены для Airbnb

Аспиранты из Стэнфордского университета попытались предсказать цену апартаментов на Airbnb. Идея была в том, что ценообразование — сложная задача и для клиентов, и для хозяев. Как им точно понять, выгодный ли это вариант, не продешевили ли они, сдавая апартаменты в это время года?

Для обучения модели исследователи использовали данные по Нью-Йорку. После перебора нескольких подходов удалось достигнуть точности 69%! GitHub и материалы.

ИИ поборется с болезнью почек

DeepMind Health (подразделение Google) и Федеральное агентство по делам ветеранов США создадут совместное решение на основе ИИ.

По статистике Financial Times, почечная недостаточность в США и Великобритании ежегодно уносит жизни 1,4 млн человек, а каждый пятый пациент в стационаре страдает от неё.

Новый алгоритм от DeepMind даст врачам и пациентам дополнительные 48 часов, предупреждая о высокой вероятности смертельного исхода.

Модель построена на 700 тысячах историй болезней ветеранов, некоторые из которых наблюдались около десяти лет. По данным CB Insights, ИИ для медицины — самый быстрорастущий сегмент ИИ-стартапов во втором квартале 2019 года: 75 из 488 сделок с ИИ-проектами объёмом $864 млн!

В нашем городке

Такси и беспилотные комбайны.

«Яндекс.Такси» присмотрит за усталостью водителей

VisionLabs (аффилирован со «Сбербанком» и Sistema VC) поможет «Яндекс.Такси» создать и внедрить систему для мониторинга усталости водителей.

Система будет следить за состоянием человека за рулём по 68 точкам на лице с помощью инфракрасной камеры, определяя степень усталости по характерным признакам: частоте и длительности моргания, зеванию и наклонам головы.

Если система решит, что водитель слишком устал, она ограничит возможность принимать заказы. Другие участники рынка тоже будут смотреть в сторону подобных решений, так как власти хотят зарегулировать режим работы таксистов.

Беспилотные комбайны от Cognitive

«Русагро» закупит у Cognitive Technologies комплекты для превращения комбайнов в беспилотные. Пилотный проект пройдёт в Белгородской области, пока система установлена на двух комбайнах.

В течение нескольких лет планируется установить систему на все комбайны «Русагро», которых сейчас около 800. Первые полноценные испытания системы Cognitive провела в 2017-м, совместно с «Ростсельмашем».

Испытания беспилотного комбайна

Спойлеры из будущего:

  • Чем больше кода пишется, тем быстрее он должен проходить ревью. Швейцарская DeepCode, разрабатывающая ИИ-инструмент для код-ревью, недавно получила $4 млн инвестиций.
  • Больше ИИ требует больше размеченных данных. Scale AI, которая занимается полуавтоматической разметкой данных, привлекла $100 млн при оценке в $1 млрд. А незадолго до этого издание Wall Street Journal писало про растущий рынок разметки данных.
  • «Газпромнефть» создала суперкомпьютер для создания цифровых моделей меторождений.

Fun AI

Дожившим до конца дайджеста крутейшее видео, в котором ИИ в баре выстраивает людей в очередь. И если ИИ усомнится в чьём-то совершеннолетии, то предложит бармену проверить паспорт!

Помните, что чрезмерное употребление алкоголя вредит здоровью белковых!

Если понравилось или не понравилось — пишите в комментариях. Ведь без обратной связи робота не переобучить. Самые свежие новости про ИИ и не только — в нашем Telegram-канале. Всем ИИ!

P. S. На самом деле каждую неделю выходит ещё больше новостей про искусственный интеллект. Например Sony запилила ИИ, заменяющего барабанщика, или Nike купила ИИ-стартап для прогнозирования спроса со стороны покупателей. Напишите, если стоит писать про такие новости хотя бы одной строкой.

3131
6 комментариев

Комментарий недоступен

1
Ответить

Классный дайджест! Ссылка почему-то не открывается (пробую через приложение).

Ответить

Какая именно ссылка?)

Ответить

Стоит писать про такие новости хотя бы одной строчкой

Ответить

спасибо)

Ответить