Что умеет GPT-4 (обновление ChatGPT)? Нам дали доступ к API. Внимание: много букв

В непринужденной беседе разница между GPT-3.5 и GPT-4 может быть едва заметной. Разница проявляется, когда сложность задачи достигает достаточного порога — GPT-4 более надежен, креативен и способен обрабатывать гораздо более тонкие инструкции, чем GPT-3.5.

Чтобы понять разницу между двумя моделями, мы провели различные тесты, в том числе имитирующие экзамены, изначально предназначенные для людей. Мы использовали самые последние общедоступные тесты (в случае с олимпиадами и бесплатными ответами на вопросы AP) или приобрели выпуски практических экзаменов 2022–2023 годов. Специальной подготовки к этим экзаменам мы не проводили. Меньшая часть проблем на экзаменах была замечена моделью во время обучения, но мы считаем, что результаты репрезентативны — подробности см. в нашем техническом отчете .

Мы также оценили GPT-4 на традиционных тестах, разработанных для моделей машинного обучения. GPT-4 значительно превосходит существующие модели больших языков, наряду с большинством современных моделей (SOTA), которые могут включать в себя создание конкретных тестов или дополнительные протоколы обучения:

Многие существующие тесты машинного обучения написаны на английском языке. Чтобы получить первоначальное представление о возможностях других языков, мы перевели эталонный тест MMLU — набор из 14 000 задач с несколькими вариантами ответов, охватывающих 57 тем, — на различные языки с помощью Azure Translate (см. Приложение ) . На 24 из 26 протестированных языков GPT-4 превосходит производительность GPT-3.5 и других LLM (Chinchilla, PaLM) на английском языке, в том числе для языков с низким уровнем ресурсов, таких как латышский, валлийский и суахили:

Мы также использовали GPT-4 внутри компании, что оказало большое влияние на такие функции, как поддержка, продажи, модерация контента и программирование. Мы также используем его, чтобы помочь людям в оценке результатов ИИ, начиная вторую фазу нашей стратегии согласования .

GPT-4 может принимать подсказку текста и изображений, что — параллельно с настройкой только текста — позволяет пользователю указать любую визуальную или языковую задачу. В частности, он генерирует текстовые выходные данные (естественный язык, код и т. д.) на основе входных данных, состоящих из вкраплений текста и изображений. В ряде доменов, включая документы с текстом и фотографиями, диаграммы или снимки экрана, GPT-4 демонстрирует те же возможности, что и при вводе только текста. Кроме того, его можно дополнить методами тестирования, которые были разработаны для текстовых языковых моделей, включая подсказки с несколькими выстрелами и цепочкой мыслей . Входные изображения по-прежнему являются предварительным исследованием и недоступны для широкой публики.

Мы предварительно оцениваем производительность GPT-4, оценивая ее с помощью узкого набора стандартных тестов академического зрения. Однако эти цифры не в полной мере отражают масштабы ее возможностей, поскольку мы постоянно открываем для себя новые интересные задачи, с которыми модель способна справиться. В ближайшее время мы планируем опубликовать дальнейшие аналитические и оценочные данные, а также тщательное исследование влияния методов тестирования.

Мы работали над каждым аспектом плана, изложенного в нашем посте об определении поведения ИИ , включая управляемость. Вместо классической индивидуальности ChatGPT с фиксированной детализацией, тоном и стилем разработчики (а вскоре и пользователи ChatGPT) теперь могут предписывать стиль и задачи своего ИИ, описывая эти направления в «системном» сообщении. Системные сообщения позволяют пользователям API существенно настраивать работу своих пользователей в определенных пределах . Мы продолжим вносить улучшения (и, в частности, знаем, что системные сообщения — это самый простой способ «взломать» текущую модель, т. е. соблюдение границ не идеально), но мы рекомендуем вам попробовать это и сообщить нам, что Вы думаете.

Несмотря на свои возможности, GPT-4 имеет те же ограничения, что и более ранние модели GPT. Самое главное, что он все еще не является полностью достоверным («галлюцинирует» факты и допускает ошибки в рассуждениях). Следует проявлять большую осторожность при использовании выходных данных языковой модели, особенно в контекстах с высокими ставками, с точным протоколом (например, проверка человеком, заземление с дополнительным контекстом или полное избегание использования с высокими ставками), соответствующими потребностям конкретного варианта использования. .

Хотя GPT-4 по-прежнему представляет собой реальную проблему, он значительно уменьшает галлюцинации по сравнению с предыдущими моделями (которые улучшаются с каждой итерацией). GPT-4 оценивается на 40% выше, чем наш последний GPT-3.5 по нашим внутренним состязательным оценкам достоверности.

Модель может иметь различные смещения в своих выходных данных — мы добились прогресса в этом, но еще многое предстоит сделать. Согласно нашему недавнему сообщению в блоге , мы стремимся к тому, чтобы системы искусственного интеллекта, которые мы создаем, имели разумное поведение по умолчанию, отражающее широкий спектр ценностей пользователей, позволяли настраивать эти системы в широких пределах и получать общественное мнение о том, какими должны быть эти границы.

Мы итерировали GPT-4, чтобы сделать его более безопасным и согласованным с самого начала обучения, включая отбор и фильтрацию данных перед обучением, оценки и участие экспертов, улучшение безопасности моделей, а также мониторинг и обеспечение соблюдения требований.

GPT-4 представляет те же риски, что и предыдущие модели, такие как генерация вредных советов, ошибочный код или неточная информация. Однако дополнительные возможности GPT-4 приводят к появлению новых поверхностей риска. Чтобы понять масштабы этих рисков, мы привлекли более 50 экспертов из таких областей, как риски выравнивания ИИ, кибербезопасность, биориски, доверие и безопасность, а также международная безопасность, чтобы провести состязательное тестирование модели. Их результаты позволили нам протестировать поведение модели в областях с высоким уровнем риска, для оценки которых требуются специальные знания. Отзывы и данные от этих экспертов использовались для смягчения последствий и улучшений модели; например, мы собрали дополнительные данные, чтобы улучшить способность GPT-4 отклонять запросы о том, как синтезировать опасные химические вещества.

GPT-4 включает дополнительный сигнал вознаграждения за безопасность во время обучения RLHF, чтобы уменьшить вредные результаты (как определено нашими рекомендациями по использованию ) путем обучения модели отклонять запросы на такой контент. Вознаграждение предоставляется нулевым классификатором GPT-4, оценивающим границы безопасности и стиль выполнения подсказок, связанных с безопасностью. Чтобы модель не отклоняла действительные запросы, мы собираем разнообразный набор данных из различных источников (например, помеченные производственные данные, человеческие команды, сгенерированные моделью подсказки) и применяем сигнал вознаграждения за безопасность (с положительным или отрицательным значением) на обоих разрешенные и запрещенные категории.

В целом, наши вмешательства на уровне модели усложняют выявление плохого поведения, но сделать это все же возможно. Кроме того, по-прежнему существуют «взломщики» для создания контента, нарушающего наши правила использования . По мере увеличения «риска на токен» систем ИИ критически важным станет достижение чрезвычайно высокой степени надежности этих вмешательств; сейчас важно дополнить эти ограничения методами обеспечения безопасности во время развертывания, такими как отслеживание злоупотреблений.

Мы предоставляем OpenAI Evals с открытым исходным кодом , нашу программную среду для создания и запуска эталонных тестов для оценки таких моделей, как GPT-4, при проверке их производительности выборка за выборкой. Мы используем Evals для управления разработкой наших моделей (как для выявления недостатков, так и для предотвращения регрессий), а наши пользователи могут применять его для отслеживания производительности разных версий модели (которые теперь будут выходить регулярно) и интеграции развивающихся продуктов. Например, Stripe использовала Evals в дополнение к своим человеческим оценкам для измерения точности своего инструмента документирования на основе GPT.

Поскольку исходный код полностью открыт, Evals поддерживает написание новых классов для реализации пользовательской логики оценки . Однако, по нашему собственному опыту, многие эталонные тесты следуют одному из нескольких «шаблонов», поэтому мы также включили шаблоны , которые оказались наиболее полезными для внутренних целей (включая шаблон для «оценки по модели» — мы обнаружили, что GPT- 4 на удивление способен проверять свою работу). Как правило, наиболее эффективным способом создания новой оценки будет создание экземпляра одного из этих шаблонов вместе с предоставлением данных. Мы рады видеть, что другие могут создать с помощью этих шаблонов и с помощью Eval в целом.

Мы надеемся, что Evals станет средством обмена и краудсорсинга тестов, представляющих максимально широкий набор режимов отказа и сложных задач. В качестве примера для подражания мы создали оценку логических головоломок , которая содержит десять подсказок, в которых GPT-4 дает сбой. Evals также совместим с реализацией существующих тестов; мы включили несколько ноутбуков , реализующих академические тесты, и несколько вариантов интеграции (небольших подмножеств) CoQA в качестве примера.

Мы приглашаем всех использовать Evals для тестирования наших моделей и отправки наиболее интересных примеров. Мы считаем, что Eval станет неотъемлемой частью процесса использования и построения на основе наших моделей, и мы приветствуем прямой вклад, вопросы и отзывы .

Чтобы получить доступ к API GPT-4 (который использует тот же API ChatCompletions , что и gpt-3.5-turbo), зарегистрируйтесь в нашем списке ожидания . Мы зарегились и нам дали API. Мы начнем приглашать некоторых разработчиков сегодня и будем постепенно расширяться, чтобы сбалансировать возможности и спрос. Если вы являетесь исследователем, изучающим влияние ИИ на общество или вопросы согласования ИИ, вы также можете подать заявку на субсидируемый доступ через нашу программу доступа для исследователей .

Получив доступ, вы можете отправлять только текстовые запросы к модели gpt-4 (входные изображения все еще находятся в ограниченной альфа-версии), которую мы автоматически обновим до нашей рекомендуемой стабильной модели по мере выпуска новых версий с течением времени (вы можете закрепить текущую версию по телефону gpt-4-0314, который мы будем поддерживать до 14 июня). Цена составляет 0,03 доллара США за 1 тыс. токенов подсказок и 0,06 доллара США за 1 тыс. токенов завершения. Ограничения скорости по умолчанию: 40 тыс. токенов в минуту и 200 запросов в минуту.

gpt-4 имеет длину контекста 8 192 токена. Мы также предоставляем ограниченный доступ к нашей версии с 32 768 контекстами (около 50 страниц текста), gpt-4-32k, которая также будет автоматически обновляться со временем (текущая версия gpt-4-32k-0314, также поддерживается до 14 июня). Цена составляет 0,06 доллара США за 1 тыс. токенов подсказок и 0,12 доллара США за 1 тыс. токенов завершения. Мы все еще улучшаем качество модели для длинного контекста и хотели бы получить отзывы о том, как она работает для вашего варианта использования. Мы обрабатываем запросы на движки 8K и 32K с разной скоростью в зависимости от емкости, поэтому вы можете получить к ним доступ в разное время.

Мы надеемся, что GPT-4 станет ценным инструментом для улучшения жизни людей за счет поддержки многих приложений. Предстоит еще много работы, и мы с нетерпением ждем возможности улучшить эту модель благодаря коллективным усилиям сообщества, строящего поверх модели, исследуя ее и внося свой вклад.

Статью писал не ChatGPT, а переводчик гугл!

Так что по итогу. Пользование GPT-4 сейчас стоит в 30-50 раз дороже GPT-3.5.

Так что думаем, куда применить этот апи))

ps. лайк, пожалуйста, он помогает продвижению статьи, а значит дает мотивацию писать дальше

Ну и как положено на VC, канал телеграм)))

Канал и чатик.

Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт

В закрепленных там всегда актуальные боты для доступа в Dalle, GPT-4 и ChatGPT без VPN.

14 комментариев

Егор Егоров

17.03.2023

Не понятен смысл статьи.
Хоть бы ссылку на оригинальную версию анонса прикрепили :\

Ответить

Александр Пантелеймонов

Это материал с родного сайта OpenAI, просто обзор от разработчиков по GPT-4. Притом в этом переводе он не полный или переделанный.
https://openai.com/research/gpt-4