Что Ждет Искусственный Интеллект в 2024 Году

В этом обзоре издание MIT Technology Review рассматривает четыре ключевых направления, на которые стоит обратить внимание в текущем году.

В предыдущем году мы сделали несколько смелых предположений. В мире, где все постоянно меняется, мы решили заглянуть в будущее. Вот что мы предсказывали на 2023 год:

  • Следующим важным шагом в развитии чат-ботов будет мультимодальность (и оказалось, мы были правы: мощные языковые модели, такие как GPT-4 от OpenAI и Gemini от Google DeepMind, успешно работают с текстом, изображениями и аудио).
  • Политики разработают новые строгие правила (и это тоже оказалось верным: в октябре был выпущен указ Байдена, а в декабре был окончательно принят закон Европейского союза об искусственном интеллекте).
  • Крупные технологические компании почувствуют давление от опенсорсных стартапов (это оказалось частично верным: опенсорсный бум продолжается, но компании, такие как OpenAI и Google DeepMind, все еще остаются в центре внимания).
  • Искусственный интеллект навсегда изменит фармацевтическую индустрию (пока что рано говорить: разработка лекарств с использованием ИИ активно продвигается вперед, но до появления первых препаратов, созданных при помощи ИИ, еще немного времени).

Теперь мы готовы попробовать снова.

Мы решили не ограничиваться очевидным. Мы понимаем, что большие языковые модели будут оставаться основным элементом. Регуляторы будут становиться все более смелыми. Проблемы, связанные с искусственным интеллектом — от предвзятости до авторских прав и думерства — будут оставаться на первом плане в повестке дня для исследователей, законодателей и общественности не только в 2024 году, но и на протяжении многих лет.

Вместо этого мы сфокусируемся на нескольких более конкретных трендах. (Подождем до 2025 года, чтобы увидеть, насколько мы были правы).

1. Персональные чат-боты

Чат-боты для всех! В 2024 году технологические компании, которые инвестировали значительные средства в генеративный искусственный интеллект, будут вынуждены доказать, что они могут зарабатывать на своих продуктах. Гиганты ИИ, такие как Google и OpenAI, делают ставку на разработку продуктов для более узкой аудитории: обе компании создают удобные платформы, которые позволяют людям настраивать мощные языковые модели и создавать собственные персональные чат-боты, отвечающие их конкретным потребностям — и не требующие навыков программирования. Обе компании запустили веб-инструменты, позволяющие любому желающему стать разработчиком приложений для генеративного искусственного интеллекта.

В 2024 году генеративный искусственный интеллект может стать по-настоящему полезным для обычных людей, не связанных профессионально с технологиями. И вероятно, все больше людей начнут экспериментировать с созданием миллионов небольших моделей искусственного интеллекта. Современные модели ИИ, такие как GPT-4 и Gemini, мультимодальны, то есть они могут обрабатывать не только текст, но и изображения и даже видео. Это может привести к появлению множества новых приложений. Например, агент по недвижимости может загрузить текст из предыдущих объявлений, настроить мощную модель на генерацию аналогичного текста одним нажатием кнопки, загрузить видео и фотографии новых объявлений и просто попросить настроенный искусственный интеллект сгенерировать описание объекта.

Однако успех этого плана зависит от надежности этих моделей. Языковые модели часто допускают ошибки, а генеративные модели подвержены предвзятости. Кроме того, их легко взломать, особенно если разрешить им просматривать веб-страницы. Технологические компании пока не решили ни одну из этих проблем. Когда новизна пройдет, им придется предложить своим клиентам способы решения этих проблем.

2. Вторая волна генеративного искусственного интеллекта: видео

Удивительно, как быстро фантазия становится реальностью. Первые генеративные модели для создания фотореалистичных изображений появились в 2022 году и вскоре стали обыденностью. Инструменты, такие как DALL-E от OpenAI, Stable Diffusion от Stability AI и Firefly от Adobe, насытили интернет потрясающими изображениями всего — от Папы Римского в Balenciaga до произведений искусства, удостоенных наград. Но не все так хорошо: на каждый мопса, размахивающего помпонами, приходится еще один поддельный фэнтези-арт или проявление сексистских сексуальных стереотипов.

Следующий этап — генерация видео по текстовому описанию. Мы ожидаем, что это улучшит исходную концепцию и сделает ее более доступной для широкой аудитории.

Что Ждет Искусственный Интеллект в 2024 Году

Год назад мы впервые увидели, на что способны генеративные модели, когда они были научены сшивать несколько статических изображений в короткие клипы. Результаты были искаженными и рваными. Но технология быстро развивалась.

Стартап Runway, создающий генеративные видеомодели (и компания, которая стала одним из создателей Stable Diffusion), выпускает новые версии своих инструментов каждые несколько месяцев. Последняя модель под названием Gen-2 по-прежнему генерирует видео длиной всего в несколько секунд, но их качество поражает. Лучшие ролики уже почти неотличимы от того, что создает Pixar.

Компания Runway организовала ежегодный ИИ-инофестиваль, на котором демонстрируются экспериментальные фильмы, снятые с помощью различных инструментов искусственного интеллекта. В этом году призовой фонд фестиваля составляет 60 000 долларов, а 10 лучших фильмов будут показаны в Нью-Йорке и Лос-Анджелесе.

Неудивительно, что это привлекло внимание ведущих кинокомпаний. Гиганты индустрии, такие как Paramount и Disney, сейчас изучают возможности использования генеративного искусственного интеллекта на всех этапах производства. Технология применяется для синхронизации выступлений актеров с многочисленными дублированиями на различных языках. А также для создания новых спецэффектов. В 2023 году в фильме «Индиана Джонс и колесо судьбы» будет использоваться дипфейк молодого Харрисона Форда. И это только начало.

В сферах маркетинга и обучения дипфейки становятся все более популярными. Например, британская компания Synthesia разработала инструменты, которые преобразуют одно выступление актера в бесконечный поток дипфейк-аватаров. Эти аватары могут воспроизводить любой скрипт с помощью нажатия всего одной кнопки. Согласно данным компании, эту технологию уже используют 44% компаний из списка Fortune 100.

Такая способность вызывает серьезные вопросы у актеров. Из-за беспокойства о возможном злоупотреблении этой технологией прошлого года произошла забастовка SAG-AFTRA. Однако истинное воздействие технологии становится очевидным только сейчас. Как отмечает Соуки Мехдауи, независимый режиссер и соучредитель консалтинговой компании Bell & Whistle, специализирующейся на креативных технологиях, "Ремесло кинематографа в корне меняется".

3. Рост дезинформации на выборах, создаваемой искусственным интеллектом

По результатам последних выборов, дезинформация и фальсификации, порожденные искусственным интеллектом, становятся серьезной проблемой, особенно когда на избирательные участки выходит рекордное количество избирателей. Политики уже активно используют эти инструменты. В Аргентине два кандидата в президенты создали сгенерированные искусственным интеллектом изображения и видеоролики своих оппонентов с целью дискредитации. Аналогичные случаи были зафиксированы и в Словакии, где во время выборов распространились дипфейки с изображением лидера партии, угрожавшего поднять цены на пиво и шутящего о детской порнографии. В США Дональд Трамп поддержал группу, использующую искусственный интеллект для создания мемов с расистскими и сексистскими сюжетами.

Эти примеры вызывают серьезные опасения. Определение, что является правдой в интернете, а что - ложью, становится все сложнее. В таком политическом климате это может иметь далеко идущие последствия.

4. Многозадачные роботы

Инновации в области генеративного искусственного интеллекта вдохновляют робототехников на создание более универсальных роботов, способных выполнять различные задачи. Отход от использования нескольких маленьких моделей в пользу единой монолитной модели позволяет роботам обучаться многозадачности. Например, компания DeepMind разработала Robocat, который способен на основе проб и ошибок генерировать собственные данные и управлять различными руками робота. Другие исследовательские группы, такие как RAIL из Калифорнийского университета в Беркли, также работают над подобными технологиями.

Проблема заключается в ограниченном доступе к данным. Генеративный искусственный интеллект требует обширных наборов данных из текстов и изображений, которые можно найти в интернете. В отличие от этого, у роботов доступ к качественным данным ограничен, что затрудняет их обучение для выполнения различных промышленных или домашних задач.

Леррел Пинто из Нью-Йоркского университета возглавляет группу, работающую над этой проблемой. Он и его коллеги разрабатывают методы, позволяющие роботам учиться на примерах и создавать собственные обучающие данные в процессе. В одном из более скромных проектов Пинто набрал добровольцев, чтобы собрать видеоданные вокруг их домов с использованием камеры iPhone, установленной на мусорном контейнере. За последние несколько лет крупные компании также начали выпускать обширные наборы данных для обучения роботов, такие как Ego4D от Meta.

Этот подход уже демонстрирует свою эффективность в области беспилотных автомобилей. Стартапы, такие как Wayve, Waabi и Ghost, становятся пионерами новой волны использования ИИ для автономного управления, где одна большая модель управляет транспортным средством, вместо использования нескольких маленьких моделей для управления отдельными задачами. Это позволило небольшим компаниям догнать таких гигантов, как Cruise и Waymo. В настоящее время Wayve тестирует свои беспилотные автомобили на узких и оживленных улицах Лондона, что обещает ускорить развитие робототехники в целом.

*********

Больше об инновациях и искусственном интеллекте в моем ТГ-канале - https://t.me/Iconi_Ai. Пишу о новых технологиях и их влиянии на бизнес – подписывайтесь!)

Спасибо, что прочитали до конца! Задавайте свои вопросы в комментариях – буду рад ответить.

Начать дискуссию