Тренды ИИ: что происходит в сфере искусственного интеллекта в 2021 году
Аналитический центр red_mad_robot и разработчик ИИ-решений RDL by red_mad_robot собрали важные тренды этого года: NLP, компьютерное зрение, беспилотники и многое другое. Прокомментировали новости эксперты «Тинькофф», «Полиметалл», «Яндекс», Lisa Device, «Сбер» и BestDoctor.
Если посмотреть на картину в целом, то ML-вычисления дешевеют, регулирование сферы ИИ становится прозрачнее, а многие решения на основе больших данных и нейросетей выходят на плато эффективности. Всё это приводит к росту инвестиций, увеличению числа компаний и команд и появлению большего числа Open Source-моделей. Но главное — к реальному влиянию технологий из области искусственного интеллекта на жизни людей и работу компаний.
Какие направления ИИ будут менять мир сильнее в ближайшее время?
NLP: уже роботы шутят над людьми, а не наоборот
Пожалуй, самый горячий ИИ-тренд 2021-го, а возможно, и нескольких следующих лет — технологии NLP. И это не псевдонаучная теория о манипуляции сознанием человека, а Natural Language Processing — обработка естественного языка. К этому направлению относится всё, что касается речевой аналитики, обработки и синтеза речи. Говоря проще — то, что позволяет людям и машинам общаться и взаимодействовать без посредников.
Зачем это нужно? NLP — базовая технология, на основе которой можно создавать цифровые продукты. «Умный» спам-фильтр, классификатор сообщений, оценка пользовательских отзывов и запросов, чат-боты, Siri, «Алиса» и «умные» предметы обихода, управляемые голосом, — это всё работает благодаря NLP-технологиям.
В последние годы NLP-технологии получили дополнительную динамику. ИИ-вычисления постоянно дешевеют, большие компании «дозрели» до вложений в эту область, а практические успехи уже позволяют применять наработки в продуктах и создают позитивный новостной фон. Всё это положительно сказывается на оценке рынка NLP-решений. Так, в 2019 Research and Markets прогнозировали рост объёма данного рынка к 2026 году до $28,6 млрд, а в 2021 они же скорректировали этот свой прогноз уже до $35,1 млрд.
История вопроса. В 2018 Google AI показала миру BERT (Bidirectional Encoder Representations from Transformers) — инструмент для обработки естественного языка на основе нейросетей. BERT тренировали на статьях «Википедии» и научили работать со 104 языками! Довольно продолжительный период именно BERT был state of the art или главным ориентиром, который показывал лучшие результаты на тестах по работе с естественным языком.
Если опускать технологические ноу-хау, то секрет успеха BERT — обучение модели на бОльшем количестве данных и дольше (ведь ценник на вычисления упал, а скорость обработки данных выросла). Потом была череда других моделей, разработчики которых действовали по тому же принципу, «ещё больше текстовых корпусов и времени для обучения»: SpanBERT, XLNet, RoBERTa (Facebook), ERNIE 2.0 (Baidu).
Лидер в NLP-гонке 2020. Конечно, NLP-модели были и до BERT. Да и BERT — это усовершенствованный вариант другой сети, GPT от компании OpenAI. И в мае 2020 ребята из OpenAI нанесли ответный удар с помощью GPT-3 — новой языковой модели, которая на текущий момент является лучшей в своём классе.
GPT-3 одна из самых «натренированных» сетей, но, помимо этого, у неё 175 миллиардов параметров для настройки, что говорит о вычислительной мощности и точности результатов при решении задач. Для сравнения, самая крупная версия GPT-2 включала 1,5 миллиардов параметров, а предыдущая крупнейшая нейросеть от Microsoft — 17 миллиардов параметров.
Цена вопроса. Стоимость обучения GPT-3 оценивается от $3,8 миллиона до $12 миллионов. Сложности подсчетам добавляют условно «неизвестные» параметры. Например, точные затраты на вычислительные ресурсы или затраты на подготовку корпусов текстов для обучения.
Почём NLP для народа? BERT от Google бесплатный и есть в свободном доступе — можно брать его и дообучать под свои, узкоспециализированные задачи. OpenAI же держит GPT-3 под контролем, предоставляя доступ только избранным лицам и лицензируя свое ПО, — записаться в лист ожидания на доступ к API можно тут. Для задач на русском языке можно попробовать модели DeepPavlov или ruGPT-3 от Сбера.
Microsoft и NLP. Ребята из Редмонда давно занимаются NLP-проектами, но в последние годы привлекли к себе дополнительное внимание:
- Инвестиции в OpenAI. Летом 2019 Microsoft рассказала, что вложит $1 млрд в разработчика NLP-решений в рамках партнёрства. Выгода Microsoft — доступ к продвинутым технологиям и прокачка Azure AI новым конкурентным преимуществом, по сравнению с облаками от Google, Amazon и других. OpenAI в рамках соглашения получил льготный доступ к серверам MS Azure — в 2017 году четверть расходов проекта ($7,9 млн) приходилась на инфраструктуру для облачных вычислений, и за последние годы эти затраты только возросли.
Тогда же, в июне 2019, партнёры заявили, что займутся разработкой AGI (Artificial General Intelligence) — это такой ИИ на стероидах. Зарабатывать на этой технологии также будут вместе.
Эксклюзивная лицензия на GPT-3. В сентябре 2020 стало известно, что Microsoft получила эксклюзивную лицензию на созданный в OpenAI нейросетевой алгоритм генерации текста GPT-3. Это возмутило Илона Маска, одного из сооснователей OpenAI, который оставил организацию из-за конфликта интересов с Tesla.
- Покупка за $16 млрд Nuance Communications — одного из самых известных в мире разработчиков технологий в области распознавания речи. Именно технологии Nuance были базой для создания Siri. У Nuance и Microsoft много общих корпоративных клиентов в здравоохранении, финансовом секторе и ряде других — это упростит интеграцию их решений.
Что дальше? Пока NLP-технологии позволяют решать сложные, но всё ещё довольно приземлённые задачи. Продвинутые голосовые помощники, пусть даже имитирующие человеческую речь, чат-боты, классификаторы информации и умный поиск по документам, генерация контента и создание простых веб-макетов по описанию, а также пранки пользователей (куда же без них) — это хорошо, но ожидания от этого направления гораздо выше.
Например, одно из больших ожиданий игроков рынка, что NLP-технологии станут основой для новых интерфейсов взаимодействия людей и машин. И, конечно, качество реализации и уровень удобства для пользователей должны обеспечить этим интерфейсам максимально широкое распространение, наравне с используемыми повсеместно графическими интерфейсами.
P.S. Некоторые примеры NLP-технологий могут ввести в заблуждение, что алгоритмы «понимают текст, делают логические выводы» и «настоящий» ИИ где-то рядом. Но мы вынуждены разочаровать: если упрощать, то система руководствуется правилами построения предложений и математически вычисляет подходимость каких-то слов для соседних слов, исходя из примеров, на которых её обучили и т.д. Именно по этой причине NLP-модели могут выдавать смешные или несуразные для людей ответы, когда область применения, контекст оказываются для них слишком большими. Это подтверждают и в OpenAI:
Искусственный интеллект изменит мир, но GPT-3 — это лишь очень ранний проблеск. Нам ещё многое нужно понять.
Сэм Альтман, Twitter сооснователя OpenAI.
Компьютерное зрение и системы распознавания на его основе
Компьютерное зрение — это обнаружение, отслеживание и классификация объектов с помощью обработки изображений или визуальных данных.
Люди уже давно применяют технологии компьютерного зрения. Первый товар по штрихкоду продали в магазине в 1974 году, а автоматическая сортировка писем на основе распознавания почтового индекса в СССР появилась ещё в 60-е годы и, пусть с доработками и улучшениями, применяется в России до сих пор. Развитие каналов связи и облачной инфраструктуры, а также одновременный рост и удешевление вычислительной мощности позволили решать задачи с помощью компьютерного зрения совершенно на другом уровне.
Факты. По оценкам Grand View Research, рынок систем компьютерного зрения к 2027 году достигнет $19 млрд. Вероятно, сейчас у многих людей это направление ИИ ассоциируется с системами распознавания лиц. Но, по данным тех же аналитиков, в 2019-м больше 50% рынка систем Computer Vision приходилось на решения для промышленности.
Например, недавно RDL by red_mad_robot совместно с компанией «Полиметалл» закончили внедрение системы на основе компьютерного зрения на перерабатывающем предприятии.
Похожий проект также сделали RDL by red_mad_robot вместе с ERG (Евразийская группа) — внедрили предиктивные модели на производство, которые прогнозируют гранулометрический состав сырья, в том числе часть, которая находится в нижнем невидимом слое.
Компьютерное зрение применяют и для охраны промышленных и других объектов, как это сделала госкорпорация «Ростех». Интеллектуальная система мониторинга в режиме реального времени обеспечивает поддержку принятия решений для операторов и должностных лиц. На основе видеоаналитики и прогнозирования.
Кто и как ещё применяет этот класс технологий?
Какие-то компании и государства используют системы распознавания лиц, какие-то — отказываются, но технология точно находится на пути развития. Поэтому даже те, кто говорят, что отказываются, нет-нет, да и применят технологию в частных случаях.
Пример: в штате Миннеаполис (США) запретили использовать системы распознавания лиц — жители США вообще против использования распознавания лиц властями и особенно силами правопорядка, — но для поиска людей, участвовавших в штурме Конгресса, технологию применяли.
Конечно, разные страны выбирают различные стратегии. В Китае система распознавания лиц — это один из важных компонентов системы социального рейтинга.
В России власти решились на использование подобных систем: Департамент информационных технологий (ДИТ) Москвы приобрел у компании NtechLab (входит в госкорпорацию «Ростех») технологию поиска лица в видеопотоке.
В МВД ведут разработку системы камер, способных распознавать человека с помощью анализа не только его лица, но и голоса, радужной оболочки глаза и походки. Это поможет искать преступников и находящихся в розыске подозреваемых.
При этом отношение людей к системам распознавания лиц достаточно лояльное: сторонников (47%) больше противников (42%) (социологическое исследование проводили в Москве — прим.)
Вообще, распознавание по «косвенным» признакам довольно «популярная» технология. Распознавание по походке применяется в Китае, технологии распознавания по татуировке есть в США. Кроме того, не стоит забывать и о распознавании по тепловой маске лица.
Компьютерное зрение в ретейле
Ретейл — ещё одна сфера, в которой активно применяются системы компьютерного зрения. Например, российский ИИ-стартап Intelligence Retail недавно привлек $1,5 млн инвестиций. Компания разработала технологию распознавания изображений на базе ИИ для FMCG и ретейла. Если проще, то платформа с помощью компьютерного зрения распознает ассортимент, что снижает трудозатраты персонала.
На сегодняшний день системы видеоаналитики с элементами ИИ — это насущная необходимость любой более-менее развитой торговой сети. И ретейлерам не обязательно в срочном порядке нанимать штат разработчиков — они вполне могут воспользоваться готовым решением, например, от Ivideon.
Системы, которые предлагает компания, в режиме реального времени анализируют очереди, активность касс и нагрузку кассиров. Можно ещё добавить мониторинг действий покупателей: выделять паттерны покупок или предотвращать кражи, особенно на кассах самостоятельного обслуживания.
С последним поможет проект компании Sequence Enforcement, который X5 Retail Group запустил в петербургских супермаркетах сети. В торговых и кассовых зонах скоро появятся камеры, следящие за возможным недобросовестным поведением покупателей. Так, если система увидит, что покупатель спрятал товар в карман, то сможет отследить траекторию его перемещения. Это решение на основе искусственного интеллекта различает до 15 вид краж.
Алгоритмы на дорогах
Еще один вариант применения компьютерного зрения — поддержание дорожной инфраструктуры. В Британии власти используют искусственный интеллект для отслеживания качества дорог. Алгоритмы анализируют спутниковые снимки: участки дороги, требующие ремонта, помечаются цветом, коммунальным службам остается лишь добраться до них и приступить к ремонту. Похожие системы запущены в Индии и в России.
Но безопасность на дорогах — это не только про отсутствие ям и снега. Компания VisionLabs (аффилирована со «Сбербанком» и Sistema VC) помогла «Яндекс.Такси» создать и внедрить систему для мониторинга усталости водителей. С помощью инфракрасной камеры она будет следить по 68 точками на лице, определяя степень усталости водителя: по частоте и длительности моргания, зевкам и наклонам головы. Если система поймет, что человек за рулём устал, она ограничит возможность принимать заказы.
Как ещё
Парочка неочевидных примеров, как применяют компьютерное зрение. Alphabet, компания, владеющая Google, научила алгоритмы распознавать рыб. Такую систему применяют на рыбных фермах, чтобы отслеживать показатели здоровья особей.
А в Google создали «умные» очки, которые помогают слабовидящим и незрячим ориентироваться в пространстве. Гаджет анализирует происходящее вокруг пользователя и рассказывает ему об этом.
Facebook разработал алгоритм, определяющий по видео предметы и области, с которыми может взаимодействовать человек. Нейросеть «понимает», что человек сделает с книгой, как возьмётся за ручку двери или нажмёт на кнопку.
«Потенциально интерактивные» области обозначаются в виде специальных областей взаимодействия. Так сеть фактически учится в той или иной мере предугадывать действия человека и, как следствие, предсказывать его поведение.
Компьютерное зрение успешно применяется и в спорте: команды Национальной футбольной лиги США используют ИИ-системы для выбора новичков на драфте, а НФЛ использует алгоритмы, чтобы анализировать игру футболистов по видео.
Что будет дальше? Компьютерное зрение и решения в этой области чаще всего становятся источником данных или основой для рекомендательных или управляющих систем. А они, в свою очередь, способны учитывать показания других «внешних» систем. Такие сложные схемы используются, например, в беспилотниках.
Сейчас камеры становятся всё меньше и пыле/взрыво/шумозащищённее, показатели качества съёмки улучшаются. Да и сами алгоритмы позволяют улучшать и восстанавливать изображения, чтобы снижать нагрузку с каналов передачи данных. А поскольку большая часть решений на основе компьютерного зрения даёт относительно предсказуемый экономический эффект, число вариантов применения будет только расти.
Стоит отметить, что и в распознавании звуков происходят не менее интересные вещи. Просто их не так...«видно».
Куда же без беспилотников
Ещё одна важная тема 2020-го — беспилотный транспорт — активно развивается и в 2021.
На данный момент рынок готов к консолидации: Amazon купила Zoox, а Uber продал беспилотное подразделение стартапу Aurora, в который уже вложились Amazon и Sequoia Capital (общий объем привлеченных инвестиций — $690 миллионов). А Woven Planet, «дочка» Toyota, приобрела подразделение Lyft, которое специализировалось на беспилотных автомобилях, за $550 миллионов.
Уже в начале этого года несколько изданий сообщали о партнерстве Apple и Hyundai по вопросам создания беспилотных электромобилей. Но переговоры приостановились из-за утечки информации со стороны корейского производителя. При этом Apple, разумеется, не планирует сворачивать производство — компания параллельно ведёт переговоры с шестью японскими автопроизводителями.
Почему компании объединяются? Основная причина — высокая сложность реализации автономного беспилотного автомобиля или других транспортных средств. Да, скачок в технологиях, беспроводной связи и вычислительных мощностях позволил сделать прорыв в реализации. Но одного энтузиазма и текущих успехов мало, кажется, нужно ещё время для разработок и исследований.
Как компании, так и люди уже вложив в исследования немаленькие суммы, понимают, что этот забег будет гораздо длиннее марафонского и потребует ещё больших инвестиций. Для понимания, по итогам 2019-го, в сегменте беспилотных автомобилей компании инвестировали 10,4 млрд долларов более чем в 140 сделках.
Законодательные ограничения. Чтобы беспилотные автомобили могли свободно (насколько это возможно) передвигаться по общим дорогам, необходимо разработать стандарты, регулирующие их передвижение. Этим уже занимаются страны ООН: они планируют пересмотреть Конвенцию о дорожном движении. Государства предлагают добавить в неё понятие «автоматизированной системы вождения» — комплекса, который осуществляет контроль за машиной. Также страны хотят признать водителем автоматизированную систему, если транспортное средство соответствует требованиям признавших поправки государств.
В это же время NHTSA (Национальное управление безопасностью движения на трассах) начало разработку стандартов для беспилотных автомобилей. Ожидается, что работа над одним из проектов будет завершена к концу 2021 года (или хотя бы в 2022 году).
Также в этом году правительство РФ планирует разрешить беспилотникам ездить по дорогам без страхующего водителя.
Остается надежда, что страны, в которых есть компании-разработчики беспилотников (в том числе Россия), начнут более организованно действовать на международной арене, чтобы быстрее убрать барьеры для развития технологии.
Какие беспилотники ждут нас в ближайшем будущем?
- В личных автомобилях будут и дальше развиваться более продвинутые системы помощи вождения, но полноценной беспилотности скорее всего в ближайшие годы ждать не стоит.
- Грузовые автоперевозки, особенно междугородние, с бОльшей долей вероятности получат более продвинутые, а возможно, и какие-то гибридные системы, соединяющие беспилотный модуль и удалённого оператора, который сможет вмешаться в случае необходимости.
- Автономная техника — от комбайнов до самосвалов и другой колёсной или летающей спецтехники — для эксплуатации в условиях бездорожья и замкнутых систем или маршрутов должна появиться гораздо раньше.
- Беспилотники на закрытых территориях или маршрутах. Велика вероятность появления беспилотных авто, в том числе такси, или спецтехники, поездов или техники для перевозки грузов на закрытых и подконтрольных территориях: заводах, аэропортах, при разработке месторождений или в каких-то парках и так далее. Например, на закрытой/контролируемой, ограниченной территории можно запустить и беспилотное такси. Маршрут движения замкнутый, и логика организации движения хорошо контролируется.
- Роверы-доставщики. Эта тенденция закономерно вытекает из 2020 года. Например, в период пандемии несколько компаний запустили роботов-доставщиков для передвижения в спальных районах. В Китае такой доставкой занялись JD.com, Meituan Dianping и Ele.me. В России технологию пока тестирует «Яндекс», который, кстати, в апреле 2021-го подключил свои «Яндекс.Роверы» к доставке из сторонних магазинов и ресторанов в московском районе Хамовники.
В общем в ближайшем будущем нас ждут инвестиции в развитие технологии, альянсы, слияния и поглощения разработчиков беспилотников технологическими компаниями и автопроизводителями, которые тоже не хотят превращаться в производителей «подставок для умных гаджетов».
Медтех и цифровая медицина
Период пандемии заставил всех обратить внимание на секторы, связанные с медициной, в том числе те, в которых используется машинное обучение.
Как технологии ИИ помогают медицине? Например, повышают эффективность и качество работы: уменьшают сроки разработки лекарств, упрощают диагностику и постановку диагнозов. Алгоритмы уже сейчас с успехом увеличивают эффективность колоноскопии и сокращают сроки разработки новых препаратов.
А в каких-то странах и регионах проекты на основе ИИ сделают медицину доступнее, поскольку помогут снизить нагрузку на врачей: от анамнеза до предположений по диагнозу. Это позволит им помочь бОльшему количеству пациентов.
В каких областях внедрение наиболее перспективно?
Открытие новых лекарств
Это позволит значительно ускорить работу исследователей. И примеров такого ускорения на сегодняшний день уже много. Во-первых, американские биологи с помощью технологий ИИ открыли новый антибиотик халицин, который способен уничтожить до 35 различных видов бактерий.
Во-вторых, исследователи из IBM тоже отличились в этой области — создали алгоритм на основе глубоких генеративных моделей и моделирования молекулярной динамики, который способен «придумывать» новые антимикробные препараты.
А в-третьих, Facebook AI и Helmholtz Zentrum München разработали новый метод, который с помощью ИИ ускорит поиск эффективных комбинаций лекарств. Это приведет к снижению доз лекарственных средств, ослаблению побочных эффектов, а также снизит вероятность лекарственной устойчивости.
Решение серьёзных биологических проблем
В 2020-м алгоритмам удалось совершить настоящий научный прорыв: с помощью системы ИИ AlphaFold от DeepMind исследователи смогли предсказать пространственную структуру белка из его аминокислотной последовательности. Над решением этой задачи биологи трудились последние 50 лет!
Зачем это нужно? Быстрые и дешевые способы предсказания структуры белков позволяют эффективнее вести биомедицинские исследования самого широкого спектра: от разработки механизмов блокировки распространение инфекций в организме до исправления ошибок в сворачивании, которые приводят к нейродегенеративным и когнитивным расстройствам.
Новые способы диагностики
Раз уж мы заговорили о Facebook, нельзя не упомянуть о его сотрудничестве с рентгенологами Нью-Йоркского университета Langon Health, которое вылилось в проект fastMRI. Он способен прогнозировать результаты МРТ на основе данных, взятых из уже существующих снимков. И этот пример приводит нас к следующему перспективному направлению — поиску новых способов диагностики и постановки диагнозов.
А исследователи из МТИ создали нейросеть, которая способна обнаружить меланому. В основе модели — использование изображений с широким полем зрения и глубокое обучение. Система исследует пигментные пятна для эффективного и действенного обнаружения рака кожи.
Больше примеров медицинских проектов этого года можно посмотреть в последних «Робохрониках».
Многие мировые компании сейчас вкладываются в медицинские проекты. Это и Alibaba, который борется с заболеваниями сердечно-сосудистой системы, и IBM, который помогает бороться с раком, а также другие.
Важно, что искусственный интеллект не ставит окончательный диагноз самостоятельно. Он помогает врачу обратить внимание на течение болезни и поставить диагноз с большей точностью.
Планирование потребностей лечебного учреждения
С помощью искусственного интеллекта можно спрогнозировать потребности больницы. И компания Ericsson занялась этим вопросом.
Поскольку из-за пандемии ресурсы больниц были на грани, планирование стало более важным и сложным, чем в обычных обстоятельствах. Так Ericsson совместно с сотовым оператором Telia и шведским госпиталем при университете Сальгренска запустила систему на основе моделей искусственного интеллекта, которая может предсказать, например, сколько пациентов с COVID-19 будут госпитализированы. Для этого алгоритмы изучают анонимные данные, предоставленные Telia.
Почему «ИИ-доктора Хаусы» ещё не в каждой больнице? Существует ряд причин, которые тормозят внедрение технологии. Во-первых, естественная консервативность регуляторов ограничивает скорость внедрения новых технологий. Так просто вывести новый продукт на рынок не получится — необходимы клинические испытания. Плюс решения ИИ должны быть интерпретируемы. Часто добиться этого сложно.
Во-вторых, для тренировки качественной нейросети нужна большая и хорошо размеченная база примеров, на которых она учится. А для хорошей разметки нужно привлекать высококвалифицированных врачей, которые займутся разметкой данных и сформируют обучающие выборки. Подобных специалистов не так много, у них есть собственная работа.
Конечно же, риск ошибки — это жизнь человека, поэтому количество проверок и скорость внедрения технологии сильно ниже, чем при решении установить на заводе систему на основе компьютерного зрения (хотя и это далеко не простая задача). Все это дополняется тем, что доступ к медицинским данным затруднен по законодательным причинам. Поскольку это персональные данные, оборот которых тщательно регулируется.
Тем не менее остановить прогресс невозможно, и крупные ИТ-компании постепенно решают эти задачи. В ближайшие годы мы наверняка увидим прорывы в области прогностической медицины, интеллектуальной диагностики и нахождении с помощью ИИ средств для лечения ранее неизлечимых болезней.
Что нас ждёт? Ожидается, что стартапы в медтехе получат больше инвестиций, а новые технологические решения сделают помощь персонализированной и доступной для каждого пациента. Эксперты Crunchbase считают, что в будущем здравоохранение станет больше похоже на работу Netflix и Amazon: компании будут собирать данные и вовлекать пациента (=клиента) в процесс принятия решений. Насколько эти прогнозы реальны — увидим через несколько лет.
В основе системы будет пациент, его медицинские данные и данные образа жизни. Если он здоров, то это — SPO2 (насыщение крови кислородом), давление, температура, а ещё желательно анализ крови и анализ шумов легких и сердца. Так можно предсказать 99,3% возможных заболеваний заблаговременно.
Если пациент уже лечится или хронически чем-то болен, добавятся ещё и специфические данные для мониторинга за процессом выздоровления или для наблюдения и недопущения перехода в более осложненную фазу заболевания.
Дипфейки: регулирование и законные способы монетизации
О дипфейках не знает, наверное, только тот, у кого нет интернета. Это ИИ-технология, появившаяся достаточно спонтанно. Долгое время дипфейк «чувствовал себя уютно» в области развлечений и фана, но за последние пару лет ситуация изменилась. Теперь это мощный инструмент, технологически бороться с которым крайне сложно.
Ещё в прошлом году мы писали: «О нём [дипфейке] много говорили уже в этом году, но в следующем году дипфейк станет действительно массовым явлением». И это предсказание сбылось. В 2020-м технология мелькала практически во всех выпусках «Робохроник». И текущий год не станет исключением — агентство Wunderman Thompson называет его одним из технологических трендов на 2021 год.
И если раньше дипфейки хоть и выглядели впечатляюще, но всё же не были до конца правдоподобными, то сейчас технология вышла на новый уровень. Фейковая реклама с CEO Dbrain, TikTok-аккаунт Deeptomecruise, в котором публикуются видео якобы от лица Тома Круза, — и это не единственные примеры резонансных дипфейков. Подделки зачастую настолько реалистичны, что их не могут распознать даже алгоритмы соцсетей, что уж говорить об обычных пользователях.
Одно можно сказать — ситуация с регулированием технологии должна измениться. Законодательная комиссия Великобритании уже планирует регулировать использование дипфейков в ближайшее время. А в Вашингтоне, например, приняли Deepfake Report Act. Он обязывает Министерство внутренней безопасности США ежегодно докладывать об использовании дипфейк-технологии.
Может ли дипфейк реально навредить? И такое бывает. Например, в Китае мошенники скупали изображения сограждан на «чёрном рынке в Интернете», пропускали их через дипфейк-приложения и загружали в госсистему распознавания лиц для регистрации поддельной компании, которая выдавала фейковые налоговые накладные. Эта схема обошлась государству в $76,2 миллиона.
А полезен-то он чем-нибудь может быть? У технологии есть огромный коммерческий потенциал. Дипфейки уже используются в производстве видео и рекламы, а для известных людей это довольно удобно. Ведь, по сути, это их цифровое присутствие в нескольких проектах одновременно без необходимости физического участия.
Вариант «мирного» применения дипфейков — это производство фильмов. Например, технология, которая автоматически адаптирует артикуляцию актёров в соответствии с текстом, что должно упростить работу локализаторов и команды озвучки.
Другой пример — предвыборный ролик индийского политика, в котором он обращается к избирателям на разных языках. Видео посмотрели около 15 млн человек, что значительно повысило его охват и эффективность работы с аудиторией.
Коммерциализация дипфейков может ускорить рост числа сервисов по созданию виртуальных медиаперсонажей. Пример уже есть: сервис Rephrase.ai создает ролики с «клонами» известных личностей для рассылок. А Epic Games представила MetaHuman Creator — конструктор, который позволяет за несколько минут создавать реалистичные цифровые модели человека.
Ложка дёгтя. Отчёт The State of Deepfake утверждает, что с декабря 2018 года число фейковых роликов удвоилось с 7964 до 15 тысяч. И 96% этих видео — порно. Reddit и Pornhub их отслеживают и удаляют. Но качество дипфейков улучшается, а создание упрощается.
Как компании пытаются обезопасить себя? Facebook, например, собирается удалять дипфейки, чтобы не дезинформировать пользователей. Под действие санкций попадет контент, созданный с помощью технологий ИИ, в котором изменены лица и голоса. При этом сатирические и пародийные материалы удалять не будут.
Компания вообще предпринимает много усилий, пытаясь защитить пользователей (и себя) от дипфейков. Она и разработала защитную технологию, которая создаёт дипфейк-видео с пользователями, чтобы сторонние программы не смогли идентифицировать на этих роликах людей, и объявила конкурс с призом в $10 млн, чтобы найти эффективные способы отличать дипфейковые видео и фото.
Тот же вопрос волнует и Twitter — компания создает механизмы для обнаружения недостоверного контента.
Google также ищет способы борьбы с дипфейками: компания представила проект для обнаружения аудиофейков и опубликовала дипфейк-датасет, к съемке которого привлекла актеров.
А Reddit просто запретил публиковать материалы, которые могут ввести в заблуждение, и дипфейки. За нарушение — бан. На сатирические и пародийные материалы, как и Facebook, эта история не распространяется.
Что будет? Как мы уже говорили, технологически бороться с дипфейками почти невозможно. Это же GAN-сети (генеративно-состязательные сети), биться с которыми с помощью «состязания» практически бесполезно, — вся суть этого метода и есть «состязание».
Единственный выход – законодательное регулирование, ограничение недопустимых применений и надежда на человеческую сознательность. В целом, именно дипфейки приводят как пример того, что ИИ — это джин, который почти вырвался из бутылки и в недобропорядочных руках может привести к непредсказуемым последствиям.
Эмоциональный ИИ
Человеческие эмоции — штука сложная. И полезная для компаний: многие уже планируют, как заявляет CB Insights, создать ИИ, который сможет интерпретировать эмоции, чтобы установить близкие отношения с клиентами. Так же считают и эксперты Telenor, по их мнению, в ближайшем будущем появятся персонифицированные помощники, которые будут помогать страдающим от одиночества людям. Эти устройства смогут отвечать на вопросы, звонить и предлагать развлечения.
Интересно, что во время карантина спрос на эмоциональных чат-ботов вырос в разы. Один из ярких примеров — стартап Replika, ИИ-сервис для разговора о личном, и Xiaoice, голосовой помощник с приятным женским голосом, персонализированным подходом и высоким уровнем эмоционального интеллекта.
Но не чат-ботами едиными. Распознавание эмоций можно применять и в развлекательной индустрии. Например, Facebook и Университет Карнеги-Меллон разработали бота по имени Pluribus, который смог выиграть в покер у профессиональных игроков. И если бы он просто просчитывал комбинации, мы бы о нём сейчас не писали. Pluribus «понимал», когда стоит блефовать и эффективно делал это.
В общем, чтобы усовершенствовать ИИ в 2021 году, стоит расширить его «чувства», считают ученые из МТИ.
Этика и регулирование
2020-й был своеобразным вызовом для всех. Пандемия отодвинула на задний план тему этики и регулирования технологий. Но подходы в регулировании технологий из стека ИИ и вопросы по этике их применения точно будут в тренде в ближайшие годы.
Без этого никак? Без чёткой позиции регуляторов многие направления просто не могут рассчитывать на выход на рынок, а какие-то проекты, в том числе уже действующие, находятся в зоне риска из-за появления или изменения правил регулирования.
Яркий пример последнего — инициатива ЕС, аналогичная GDPR. Или, например, прекращение сотрудничества американских ИТ-компаний с органами правопорядка в США.
В силу особенностей технологии и нетривиальности её работы могут появиться иллюзорные ожидания в стиле «серебряной пули». Тем более, что решения на базе нейросетей и машинного обучения могут быть предвзяты и дискриминировать какие-то группы населения.
Примеры этого встречаются — от условно безобидных, ненадолго вышедших из-под контроля чат-бота с «радикальными взглядами» и с большей долей ошибок срабатывающих систем распознавания до упомянутых выше медицинских систем, которые могут дискриминировать людей, что потенциально может привести к риску преждевременной смерти.
Компании предлагают собственные решения, связанные с этикой. Так, Google к концу 2020-го планировала запустить новые сервисы по этике ИИ, в которых опубликует советы по задачам выявления расовых предубеждений в системах компьютерного зрения или разработке этических принципов, регулирующих проекты ИИ.
Facebook опубликовал набор данных, призванный помочь исследователям ИИ оценить свои алгоритмы компьютерного зрение и аудиомодели на предмет потенциальных ошибок. Набор данных «Случайные разговоры» состоит из видеороликов с тремя тысячами участников с разным оттенком кожи, разного возраста и пола. Это должно восполнить нехватку высококачественных наборов обучающих данных.
А «Сбербанк» представил федеральный проект «Искусственный интеллект», в котором рассказал, как распорядиться 120 млрд рублей до 2024 года в сфере ИИ.
К контролю ИИ призывали гендиректор Google Сундар Пичаи и глава Tesla и Space X Илон Маск.
Не только бизнес предлагает варианты регулирования ИИ. За защиту людей на государственном уровне взялись власти Татарстана. В республике учредили должность уполномоченного по технологиям искусственного интеллекта. Подобная практика в мире не нова. Например, в США есть комиссии по ИИ, в Канаде правительство финансирует Институт ИИ, а в ОАЭ есть министр по искусственному интеллекту.
Государства пытаются как-то регулировать этические аспекты внедрения ИИ. В России, например, эксперты настоятельно рекомендуют разработать этический кодекс «поведения» ИИ. А в Ватикане уже разработали документ, призывающий к защите прав человека. Даже Пентагон представил собственное видение регулирования искусственного интеллекта.
На местном уровне можно привести пример московских властей — в июле 2020-го в столице ввели экспериментальный правовой режим для развития ИИ.
Что ещё ждёт в 2021-м?
Демократизация ИИ станет одним из главных трендов для бизнеса. Так считает Gartner, так же говорят и в отчете State of AI 2020.
Пандемия значительно повлияла на общество — ИИ стал гораздо активнее, по мнению Gartner, внедряться в повседневную жизнь: системы компьютерного зрения помогали в соблюдении социального дистанцирования, чат-боты отвечали на вопросы и помогали справиться с одиночеством. В итоге все идет к тому, что алгоритмы станут дешевле (что уже происходит — вспомним 3D-модели MeInGame или алгоритмы для улучшения качества видео) и распространятся на широкую аудиторию.
В отчете State of AI 2020 демократизация ИИ воспринимается иначе — как расцвет и популяризация МLOps (объединение технологий и процессов машинного обучения и подходов к внедрению разработанных моделей в бизнес-процессы).
Сегодня основателям стартапов проще начинать работу с ИИ, поскольку инструменты стали доступнее, а инфраструктура более зрелая.
Согласно отчету ARK Invest, с 1960 по 2010 год мощности, затрачиваемые на машинное обучение, удваивались в соответствии с законом Мура.
В то же самое время затраты на обучение конкретного алгоритма последние три года снижались, что естественно при снижении стоимости вычислительных мощностей: в 2017 году обучение классификатора изображений, например, ResNet-50, стоило около $1000, а в 2019 году — около $10.
Российские CDO также отмечают, что ИИ-инжиниринг станет одной из актуальных тенденций из списка Gartner для большинства российских отраслей. Этот тренд предполагает подразделение, которое следит за развитием ИИ-проектов, их масштабированием и переходом в производство.
Ну и напоследок предсказания, которые не сбылись
Немало, на первый взгляд, интересных систем и алгоритмов обсуждалось и создавалось в 2020 году. Но не всем им суждено сохранить ту же популярность в 2021-м.
Много надежд возлагалось на цифровых двойников, поскольку они считались «неотъемлемой частью гиперавтоматизации», как многие считали в 2020-м. Но реальность прошедшего года показала, что этому тренду не суждено остаться на волне.
В 2019-м много говорили и о чат-ботах. Они, в свою очередь, не то чтобы не оправдали надежд в ушедшем году, но тренд явно идет на спад. По мнению Юрия Чайникова, руководителя RDL by red_mad_robot, произошел классический переход по кривой Гартнера от пика завышенных ожиданий в долину разочарований. Появился опыт реального применения, стали понятны ограничения разных моделей и технологий и масштабы, на которых имеет смысл применять те или иные подходы к созданию чат-ботов.
Что касается платформ для работ с ИИ, в том числе тех, что можно собрать самостоятельно, то они займут свою нишу.
Немного пугающие нейрочипы и нейроинтерфейсы, будто сошедшие с экранов фантастических фильмов и сериалов, тоже не станут трендом этого года. Как проект NextMind, (они создали неинвазивное устройство, преобразующее сигналы мозга в цифровые команды, позволяя визуально управлять компьютерами, гарнитурами AR/VR и IoT-девайсами), так и чипы Neuralink, которые Маск планирует вживлять напрямую в мозг, тем самым «объединив» его с компьютером.
Дело в том, что эти технологии все еще находятся на очень ранних стадиях развития.
Материал вышел объёмный, но надеемся, что полезный. Если вам хочется узнать, каким был 2020-й в сфере ИИ, то читайте предыдущий материал с итогами года.
Чтобы не пропустить актуальные новости и новые материалы, подпишитесь на нас в Telegram.
#ai #ии #ml #нейросети #алгоритмы #машинноеобучение #компьютерноезрение #промышленность #полиметалл #беспилотники #ретейл #redmadrobot
Мощно!
Спасибо :)
обожаю такие статьи
поскольку с естественным интеллектом в стране жопа
то про успехи искусственного интеллекта всегда приятно почитать
тикток клонТома Круза deeptomcruise - фантастика! но нам нужен свой герой, отечественный дип-фейк Милонов, или хотя бы молодой Жириновский...
Да, Круз — и не отличишь практически. А по поводу Милонова — интернет богат на чудные вещицы, думаю, что такое можно найти))
Есть же с любителем дворцов
1facerussia
Вроде так называется
Замечатеная статья
Спасибо)
Говорю вчера гугл ассистенту, "поставь таймер 4 минуты", он отвечает внезапно что не понял запроса (обычно работало), в тексте видно что слова правильно распознаны, в подсказках можно нажать на... "Поставь таймер 8 минут" :D
Спасибо автору за проделанную работу, огонь!
Видимо ИИ не плохо работает, коли на днях подумал о погружении в эту тему, а сегодня статья в выдаче))))
Звонящие рекламные боты, которые просто задалбывают звоня каждый час и ожидая каких-то контрольных слов это так круто!
Надеюсь их станет больше намного и они станут более развитыми.
Статья трудовая. Полезная. Спасибо.
Хорошее изложение, спасибо за обзор ситуации.
Что не сбылось? Робот Борис оказался ряженым человеком :) Пробовал тестировать наработки Сбера по медицине - мне кажется еще очень сыровато. Кстати, в блоге John Morris есть статья об ИИ, которую написал GPT-3. Думаю, что в ближайшее время усилия по внедрению ИИ будут направлены преимущественно на медицину, поскольку человеческий разум пока не справляется с COVID-19 и его "потомками". Тут не ровен час и вымереть можно :)
Комментарий недоступен
Что то вы путаете все. Продукт эволюции вообще не обязательно хорош. Вот например крестовые..., или то как сетчатка приделана к мозгу. И вы такой - "это слепое пятно неспроста, проклятые еретики...". Рудименты называется. В философии, этике и политике такое тоже бывает.
Комментарий удален модератором
Чудны дела Твои, Господи! )
можно создавать цифровые продукты. «Умный» спам-фильтрНачните, пожалуйста, с фильтрации комментариев хотя бы на этом сайте.
Пущай естественный интеллект запретит публикацию комментов с более чем одной ссылкой — для начала? )
А то прям отвращающий спам уже задрал.
Статья классная, но это всё-таки не про ИИ.
Нейросети и машинное обучение — это лишь предпосылки к созданию ИИ, равно как и искусственно выращенные органы — не отдельное разумное существо.
А как же творческий ИИ и роботы-художники?
Комментарий удален модератором
Комментарий удален модератором
Лучше бы с женой и тёщей разговаривал.
Не, ну про рыб чего то прям перефантазировали. Они ж все ОДИНАКОВЫЕ !
Вы еще скажите, что все китайцы одинаковые! Хотя....
Комментарий недоступен
Комментарий удален модератором
Комментарий удален модератором
@Инспектор
Комментарий удален модератором
Интересно и очень полезно, спасибо!
Статья интернетная
Комментарий удален модератором
Еще рисует, делает генерирует фото лиц и прогнозирует белки - тренд 2021 года https://sciencemagweb.blogspot.com/. Скоро кожаными мешками всерьез займется...