GPT-4 уже здесь. Распознает картинки и сильно поумнел. Все ли так хорошо? Нет. Сервис все еще «галлюцинирует» факты

Автор текста — создатель телеграм-канала "Нейронутые". Здесь — самые крутые креативы, очень много лайфхаков, полезные эфиры о будущем ИИ и много других ярких историй. А еще у меня есть курс по Midjourney.

OpenAI представила новую мощную модель ИИ для распознавания изображений и текста, GPT-4. Вроде бы все прекрасно, но без глюков не обошлось.

GPT-4 уже доступен платным пользователям OpenAI через ChatGPT Plus ($20 в месяц).

Разработчики назвали GTP-4 самой продвинутой языковой моделью<br />
Разработчики назвали GTP-4 самой продвинутой языковой моделью

Что же умеет GPT-4?

Без сомнения, одним из наиболее интересных аспектов GPT-4 стала его способность понимать изображения так же, как и текст. GPT-4 может подписывать и даже интерпретировать относительно сложные изображения, например, идентифицировать адаптер кабеля Lightning — по изображению iPhone, в который воткнут кабель.

GPT-4 уже здесь. Распознает картинки и сильно поумнел. Все ли так хорошо? Нет. Сервис все еще «галлюцинирует» факты

Вот еще один пример:

GPT-4 уже здесь. Распознает картинки и сильно поумнел. Все ли так хорошо? Нет. Сервис все еще «галлюцинирует» факты

В следуюшщей презентации ИИ видно, что может читать изображения вместе с фото. Например, изображение часов, показывающих 10:10, вводится в ИИ с вопросом «Который час?» На что ИИ отвечает: «10:10 на больших часах». Также GPT-4 понимает смысл изображений.

"Почему плачет мальчик?" Ответ GPT-4: "Потому что его самокат сломался"<br />
"Почему плачет мальчик?" Ответ GPT-4: "Потому что его самокат сломался"

Возможность распознавания изображений пока доступна не для всех клиентов OpenAI — для начала OpenAI тестирует ее с партнерами, например, Be My Eyes. Новая функция «Виртуальный волонтер» Be My Eyes на базе GPT-4 может отвечать на вопросы об отправленных ей изображениях.

Be My Eyes объясняет, как это работает, в блоге: «Например, если пользователь отправит фотографию своего холодильника изнутри, виртуальный волонтер сможет не только правильно определить, что в нем находится, но и экстраполировать данные: анализировать, что можно приготовить из этих ингредиентов. Инструмент также может предложить ряд рецептов для этих ингредиентов и отправить пошаговое руководство по их приготовлению».

Улучшение «интеллекта»

Новая версия работает на «человеческом уровне». Но тут важен аспект — с простыми запросами, вы скорее всего не заметите разницы. "Умность" GPT-4 проявляется в профессиональных и академических тестах.

Напомню, что GPT-3 сдавал смоделированный экзамен на адвоката с высшей оценкой, которую получали лишь 10% лучших участников теста. С GPT-4 этот показатель стал еще выше.

«В обычном запросе разница между GPT-3.5 и GPT-4 может быть едва уловимой, — написал OpenAI в блоге, анонсирующем GPT-4. — Разница проявляется, когда сложность задачи достигает достаточного порога — GPT-4 более надежен, креативен и способен обрабатывать гораздо более тонкие инструкции, чем GPT-3.5».

Например, входное сообщение может выглядеть так: «Вы наставник, который всегда отвечает в сократовском стиле. Вы никогда не даете ученику ответа, но всегда стараетесь задать правильный вопрос, чтобы помочь ему научиться думать самостоятельно. Вы всегда должны согласовывать свой вопрос с интересами и знаниями учащегося, разбивая проблему на более простые части, пока она не достигнет нужного уровня».

А где же ложка дегтя?

Несмотря на все новинки OpenAI признает, что GPT-4 не идеален. Он по-прежнему «галлюцинирует» факты и делает ошибки в рассуждениях, иногда с большой уверенностью. В одном примере, приведенном OpenAI, GPT-4 назвал Элвиса Пресли «сыном актера» — очевидная ошибка.

«GPT-4, как правило, не знает о событиях, которые произошли после отключения подавляющего большинства его данных (сентябрь 2021 года), и не учится на своем опыте», — пишет OpennAI. «Иногда он может совершать простые логические ошибки, которые, кажется, не соответствуют компетентности во многих областях, или быть слишком легковерными, принимая очевидные ложные утверждения от пользователя. И иногда он может потерпеть неудачу при решении сложных проблем так же, как это делают люди, например, при внесении уязвимостей в код, который он создает».

Однако OpenAI отмечает, что он внес улучшения в определенные области — например, GPT-4 с большей вероятностью откажет в запросах о том, как синтезировать опасные химические вещества. Компания заявляет, что

GPT-4 на 82% реже отвечает на запросы о «запрещенном» контенте и всем, что касается членовредительства по сравнению с GPT-3.5. И на 29% реже по сравнению с предыдущей версией отвечает на конфиденциальные запросы, например, о личных медицинских данных.

Ну и отзывы пользователей:

"Генерирует GPT 4 пока все очень меееедленно, прям медленно, по паре слов в секунду и не больше 100 запросов в 4 часа". — Denis Sexy IT.

Сколько стоит доступ к API?

«Мы с нетерпением ждем, что GPT-4 станет ценным инструментом для улучшения жизни людей за счет интеграцию в множество приложений», — пишет OpenAI. «Предстоит еще много работы, и мы с нетерпением ждем возможности улучшить эту модель благодаря коллективным усилиям сообщества».

Разработчики могут зарегистрироваться в списке ожидания для доступа к API. В платной версии API уже доступен.

Цена составляет $0,03 США за 1000 токенов «промта» (около 750 слов) и $0,06 США за 1000 токенов «ответа» (опять же, ~ 750 слов), где «токены» представляют собой необработанный текст (например, слово «fantastic» будет разделено на токены — «fan», «tas» и «tic»). Токены промта — это части введенных слов, а токены ответы — это слова, сгенерированные GPT-4.

GPT-4 OpenAI представил новую возможность API, «системные» сообщения, которые позволяют разработчикам предписывать стиль и задачи, описывая конкретные направления. Системные сообщения, которые также появятся в ChatGPT в будущем, по сути являются инструкциями, которые задают тон и устанавливают границы для следующих взаимодействий ИИ.

Microsoft подтвердила, что Bing Chat, технология чат-ботов, разработанная совместно с OpenAI, работает на GPT-4. Есть и другие. Stripe использует GPT-4 для сканирования бизнес-сайтов и предоставления резюме персоналу службы поддержки клиентов, Duolingo, встроил GPT-4 в новый уровень подписки на изучение языков.

Текст подготовлен телеграм-каналом "Нейронутые". Здесь — все о нейросетях и самые крутые генерации в рунете.

Источники: TechCrunch, Reddit, petapixel

5
9 комментариев