ChatGPT 4 — не просто чат-бот. Картинки, аудио, видео: бесшовный переход между моделями меняет принципы работы с ИИ

Картинка для привлечения внимания. Кто кем управляет? Мы роботами или роботы нами? Сделал в Midjourney.

Автор текста — создатель телеграм-канала "Нейронутые". Здесь — самые крутые креативы, очень много лайфхаков, полезные эфиры о будущем ИИ и много других ярких историй. А еще у меня есть курс по Midjourney.

Итак, новость: последнее обновление OpenAI предоставляет ChatGPT мощные новые возможности, которые выходят за рамки текста. Отныне ChatGPT может рассказывать сказки перед сном своим собственным голосом, определять объекты на фотографиях и отвечать на аудиозаписи. Эти возможности представляют следующий большой шаг в AI: мультимодальные модели.

«Мультимодальность— следующее поколение больших ИИ-моделей. Суть в том, что обрабатывается не только текст, но и изображения, аудио, видео и даже другие модальности», — рассказывает Линкси «Джим» Фан, старший научный сотрудник по искусственному интеллекту в Nvidia.

Обновление ChatGPT — это заметный пример мультимодальной системы AI. Вместо использования одной модели AI, предназначенной для работы с одной формой ввода, такой как большая языковая модель (LLM) или модель реч-в-голос, несколько моделей работают вместе, чтобы создать более связный инструмент AI.

Сейчас OpenAI предоставляет три мультимодальных функции. Пользователи могут общаться с чат-ботом текстом, изображениями или голосом. И получать ответы одним из пяти голосов AI.

Ввод изображений доступен на всех платформах, в то время как голос ограничен приложением ChatGPT для Android и iOS.

Справедливости ради, тмечу, что эти мультимодальные функции не совсем новы.GPT-4 научился понимать изображения еще в марте 2023 года. Но к этой функции получили доступ в основном партнеры OpenAI, включая чат Bing от Microsoft. Использование функций требовало доступа к API — неудивительно, что "плюшку" зарезервировали для крупных партнеров и не менее крупных разработчиков. Неудивительно и то, что мультимодальные функции GPT4 появились в чате Bing летом 2023 года.

Теперь же они доступны всем, кто готов заплатить $20 США в месяц за подписку на ChatGPT Plus. Синтез с дружественным интерфейсом ChatGPT - еще один бонус. Ввод изображений так же прост, как открытие приложения и нажатие на значок для съемки фотографии.

Простота — убийственная функция мультимодального AI.

Да, сейчас много AI-моделtq для распознавания изображений, видео и голоса. И многие их них впечатляют. Одна проблема — не всегда удобно работать с разными интерфейсами. Вы ведь сталкивались с ситуацией: надо написать текст, к нему надо сгенерить изображение и все это нужно еще придумать. Мультимодальный AI устраняет эти проблемы. Пользователь может подсказывать агенту AI различными медиа, что он хочет — а затем бесшовно переключаться между изображениями, текстом и голосовыми подсказками в рамках одного разговора.

Нет, это не реклама.

Я лично использую ChatGPT не так уж и часто, потому что считаю, что ИИ подтупливает, галлюцинирует и вообще не выдает нужного мне результата. И все же, я радуюсь, мультимодальности. Значит скоро и любимые мной нейросети научаться всему, что нужно для полноценной работы.

Хотите узнать, какой получилась DALL-E 3, которая недавно вышла в открытый доступ? Подписывайтесь на телеграм-канал "Нейронутые", где в ближайшее время я выложу большой обзор.

3 комментария

Рвущий гармонь

09.10.2023

Если вы не пользуетесь ChatGPT, возможно вы пользуетесь другими нейросетями, или вы просто против ИИ

Ответить

Егор Апполонов

Автор

Я пользуюсь ChatGPT, но мало, потому что для моих задач (создвать хорошие тексты) этот сервис пока еще "туповат". Я не против ИИ и очень даже ЗА. И активно пользуюсь всеми возможными и доступными нейросетями.

Alexey Ivanov

Ну может быть нейросети дадут второе дыхание технологии виртуальных ассистентов. А то она дала ощутимый фальстарт несколько лет назад