GPT-4 уже здесь. Распознает картинки и сильно поумнел. Все ли так хорошо? Нет. Сервис все еще «галлюцинирует» факты
Автор текста — создатель телеграм-канала "Нейронутые". Здесь — самые крутые креативы, очень много лайфхаков, полезные эфиры о будущем ИИ и много других ярких историй. А еще у меня есть курс по Midjourney.
OpenAI представила новую мощную модель ИИ для распознавания изображений и текста, GPT-4. Вроде бы все прекрасно, но без глюков не обошлось.
GPT-4 уже доступен платным пользователям OpenAI через ChatGPT Plus ($20 в месяц).
Что же умеет GPT-4?
Без сомнения, одним из наиболее интересных аспектов GPT-4 стала его способность понимать изображения так же, как и текст. GPT-4 может подписывать и даже интерпретировать относительно сложные изображения, например, идентифицировать адаптер кабеля Lightning — по изображению iPhone, в который воткнут кабель.
Вот еще один пример:
В следуюшщей презентации ИИ видно, что может читать изображения вместе с фото. Например, изображение часов, показывающих 10:10, вводится в ИИ с вопросом «Который час?» На что ИИ отвечает: «10:10 на больших часах». Также GPT-4 понимает смысл изображений.
Возможность распознавания изображений пока доступна не для всех клиентов OpenAI — для начала OpenAI тестирует ее с партнерами, например, Be My Eyes. Новая функция «Виртуальный волонтер» Be My Eyes на базе GPT-4 может отвечать на вопросы об отправленных ей изображениях.
Be My Eyes объясняет, как это работает, в блоге: «Например, если пользователь отправит фотографию своего холодильника изнутри, виртуальный волонтер сможет не только правильно определить, что в нем находится, но и экстраполировать данные: анализировать, что можно приготовить из этих ингредиентов. Инструмент также может предложить ряд рецептов для этих ингредиентов и отправить пошаговое руководство по их приготовлению».
Улучшение «интеллекта»
Новая версия работает на «человеческом уровне». Но тут важен аспект — с простыми запросами, вы скорее всего не заметите разницы. "Умность" GPT-4 проявляется в профессиональных и академических тестах.
Напомню, что GPT-3 сдавал смоделированный экзамен на адвоката с высшей оценкой, которую получали лишь 10% лучших участников теста. С GPT-4 этот показатель стал еще выше.
«В обычном запросе разница между GPT-3.5 и GPT-4 может быть едва уловимой, — написал OpenAI в блоге, анонсирующем GPT-4. — Разница проявляется, когда сложность задачи достигает достаточного порога — GPT-4 более надежен, креативен и способен обрабатывать гораздо более тонкие инструкции, чем GPT-3.5».
Например, входное сообщение может выглядеть так: «Вы наставник, который всегда отвечает в сократовском стиле. Вы никогда не даете ученику ответа, но всегда стараетесь задать правильный вопрос, чтобы помочь ему научиться думать самостоятельно. Вы всегда должны согласовывать свой вопрос с интересами и знаниями учащегося, разбивая проблему на более простые части, пока она не достигнет нужного уровня».
А где же ложка дегтя?
Несмотря на все новинки OpenAI признает, что GPT-4 не идеален. Он по-прежнему «галлюцинирует» факты и делает ошибки в рассуждениях, иногда с большой уверенностью. В одном примере, приведенном OpenAI, GPT-4 назвал Элвиса Пресли «сыном актера» — очевидная ошибка.
«GPT-4, как правило, не знает о событиях, которые произошли после отключения подавляющего большинства его данных (сентябрь 2021 года), и не учится на своем опыте», — пишет OpennAI. «Иногда он может совершать простые логические ошибки, которые, кажется, не соответствуют компетентности во многих областях, или быть слишком легковерными, принимая очевидные ложные утверждения от пользователя. И иногда он может потерпеть неудачу при решении сложных проблем так же, как это делают люди, например, при внесении уязвимостей в код, который он создает».
Однако OpenAI отмечает, что он внес улучшения в определенные области — например, GPT-4 с большей вероятностью откажет в запросах о том, как синтезировать опасные химические вещества. Компания заявляет, что
GPT-4 на 82% реже отвечает на запросы о «запрещенном» контенте и всем, что касается членовредительства по сравнению с GPT-3.5. И на 29% реже по сравнению с предыдущей версией отвечает на конфиденциальные запросы, например, о личных медицинских данных.
Ну и отзывы пользователей:
"Генерирует GPT 4 пока все очень меееедленно, прям медленно, по паре слов в секунду и не больше 100 запросов в 4 часа". — Denis Sexy IT.
Сколько стоит доступ к API?
«Мы с нетерпением ждем, что GPT-4 станет ценным инструментом для улучшения жизни людей за счет интеграцию в множество приложений», — пишет OpenAI. «Предстоит еще много работы, и мы с нетерпением ждем возможности улучшить эту модель благодаря коллективным усилиям сообщества».
Разработчики могут зарегистрироваться в списке ожидания для доступа к API. В платной версии API уже доступен.
Цена составляет $0,03 США за 1000 токенов «промта» (около 750 слов) и $0,06 США за 1000 токенов «ответа» (опять же, ~ 750 слов), где «токены» представляют собой необработанный текст (например, слово «fantastic» будет разделено на токены — «fan», «tas» и «tic»). Токены промта — это части введенных слов, а токены ответы — это слова, сгенерированные GPT-4.
GPT-4 OpenAI представил новую возможность API, «системные» сообщения, которые позволяют разработчикам предписывать стиль и задачи, описывая конкретные направления. Системные сообщения, которые также появятся в ChatGPT в будущем, по сути являются инструкциями, которые задают тон и устанавливают границы для следующих взаимодействий ИИ.
Microsoft подтвердила, что Bing Chat, технология чат-ботов, разработанная совместно с OpenAI, работает на GPT-4. Есть и другие. Stripe использует GPT-4 для сканирования бизнес-сайтов и предоставления резюме персоналу службы поддержки клиентов, Duolingo, встроил GPT-4 в новый уровень подписки на изучение языков.
Текст подготовлен телеграм-каналом "Нейронутые". Здесь — все о нейросетях и самые крутые генерации в рунете.
Источники: TechCrunch, Reddit, petapixel