{"id":14270,"url":"\/distributions\/14270\/click?bit=1&hash=a51bb85a950ab21cdf691932d23b81e76bd428323f3fda8d1e62b0843a9e5699","title":"\u041b\u044b\u0436\u0438, \u043c\u0443\u0437\u044b\u043a\u0430 \u0438 \u0410\u043b\u044c\u0444\u0430-\u0411\u0430\u043d\u043a \u2014 \u043d\u0430 \u043e\u0434\u043d\u043e\u0439 \u0433\u043e\u0440\u0435","buttonText":"\u041d\u0430 \u043a\u0430\u043a\u043e\u0439?","imageUuid":"f84aced9-2f9d-5a50-9157-8e37d6ce1060"}

Что умеет GPT-4 (обновление ChatGPT)? Нам дали доступ к API. Внимание: много букв

В непринужденной беседе разница между GPT-3.5 и GPT-4 может быть едва заметной. Разница проявляется, когда сложность задачи достигает достаточного порога — GPT-4 более надежен, креативен и способен обрабатывать гораздо более тонкие инструкции, чем GPT-3.5.

Чтобы понять разницу между двумя моделями, мы провели различные тесты, в том числе имитирующие экзамены, изначально предназначенные для людей. Мы использовали самые последние общедоступные тесты (в случае с олимпиадами и бесплатными ответами на вопросы AP) или приобрели выпуски практических экзаменов 2022–2023 годов. Специальной подготовки к этим экзаменам мы не проводили. Меньшая часть проблем на экзаменах была замечена моделью во время обучения, но мы считаем, что результаты репрезентативны — подробности см. в нашем техническом отчете .

Мы также оценили GPT-4 на традиционных тестах, разработанных для моделей машинного обучения. GPT-4 значительно превосходит существующие модели больших языков, наряду с большинством современных моделей (SOTA), которые могут включать в себя создание конкретных тестов или дополнительные протоколы обучения:

Многие существующие тесты машинного обучения написаны на английском языке. Чтобы получить первоначальное представление о возможностях других языков, мы перевели эталонный тест MMLU — набор из 14 000 задач с несколькими вариантами ответов, охватывающих 57 тем, — на различные языки с помощью Azure Translate (см. Приложение ) . На 24 из 26 протестированных языков GPT-4 превосходит производительность GPT-3.5 и других LLM (Chinchilla, PaLM) на английском языке, в том числе для языков с низким уровнем ресурсов, таких как латышский, валлийский и суахили:

Мы также использовали GPT-4 внутри компании, что оказало большое влияние на такие функции, как поддержка, продажи, модерация контента и программирование. Мы также используем его, чтобы помочь людям в оценке результатов ИИ, начиная вторую фазу нашей стратегии согласования .

Визуальные функциии

GPT-4 может принимать подсказку текста и изображений, что — параллельно с настройкой только текста — позволяет пользователю указать любую визуальную или языковую задачу. В частности, он генерирует текстовые выходные данные (естественный язык, код и т. д.) на основе входных данных, состоящих из вкраплений текста и изображений. В ряде доменов, включая документы с текстом и фотографиями, диаграммы или снимки экрана, GPT-4 демонстрирует те же возможности, что и при вводе только текста. Кроме того, его можно дополнить методами тестирования, которые были разработаны для текстовых языковых моделей, включая подсказки с несколькими выстрелами и цепочкой мыслей . Входные изображения по-прежнему являются предварительным исследованием и недоступны для широкой публики.

Мы предварительно оцениваем производительность GPT-4, оценивая ее с помощью узкого набора стандартных тестов академического зрения. Однако эти цифры не в полной мере отражают масштабы ее возможностей, поскольку мы постоянно открываем для себя новые интересные задачи, с которыми модель способна справиться. В ближайшее время мы планируем опубликовать дальнейшие аналитические и оценочные данные, а также тщательное исследование влияния методов тестирования.

Управляемость

Мы работали над каждым аспектом плана, изложенного в нашем посте об определении поведения ИИ , включая управляемость. Вместо классической индивидуальности ChatGPT с фиксированной детализацией, тоном и стилем разработчики (а вскоре и пользователи ChatGPT) теперь могут предписывать стиль и задачи своего ИИ, описывая эти направления в «системном» сообщении. Системные сообщения позволяют пользователям API существенно настраивать работу своих пользователей в определенных пределах . Мы продолжим вносить улучшения (и, в частности, знаем, что системные сообщения — это самый простой способ «взломать» текущую модель, т. е. соблюдение границ не идеально), но мы рекомендуем вам попробовать это и сообщить нам, что Вы думаете.

Ограничения

Несмотря на свои возможности, GPT-4 имеет те же ограничения, что и более ранние модели GPT. Самое главное, что он все еще не является полностью достоверным («галлюцинирует» факты и допускает ошибки в рассуждениях). Следует проявлять большую осторожность при использовании выходных данных языковой модели, особенно в контекстах с высокими ставками, с точным протоколом (например, проверка человеком, заземление с дополнительным контекстом или полное избегание использования с высокими ставками), соответствующими потребностям конкретного варианта использования. .

Хотя GPT-4 по-прежнему представляет собой реальную проблему, он значительно уменьшает галлюцинации по сравнению с предыдущими моделями (которые улучшаются с каждой итерацией). GPT-4 оценивается на 40% выше, чем наш последний GPT-3.5 по нашим внутренним состязательным оценкам достоверности.

Модель может иметь различные смещения в своих выходных данных — мы добились прогресса в этом, но еще многое предстоит сделать. Согласно нашему недавнему сообщению в блоге , мы стремимся к тому, чтобы системы искусственного интеллекта, которые мы создаем, имели разумное поведение по умолчанию, отражающее широкий спектр ценностей пользователей, позволяли настраивать эти системы в широких пределах и получать общественное мнение о том, какими должны быть эти границы.

Риски и меры по их снижению

Мы итерировали GPT-4, чтобы сделать его более безопасным и согласованным с самого начала обучения, включая отбор и фильтрацию данных перед обучением, оценки и участие экспертов, улучшение безопасности моделей, а также мониторинг и обеспечение соблюдения требований.

GPT-4 представляет те же риски, что и предыдущие модели, такие как генерация вредных советов, ошибочный код или неточная информация. Однако дополнительные возможности GPT-4 приводят к появлению новых поверхностей риска. Чтобы понять масштабы этих рисков, мы привлекли более 50 экспертов из таких областей, как риски выравнивания ИИ, кибербезопасность, биориски, доверие и безопасность, а также международная безопасность, чтобы провести состязательное тестирование модели. Их результаты позволили нам протестировать поведение модели в областях с высоким уровнем риска, для оценки которых требуются специальные знания. Отзывы и данные от этих экспертов использовались для смягчения последствий и улучшений модели; например, мы собрали дополнительные данные, чтобы улучшить способность GPT-4 отклонять запросы о том, как синтезировать опасные химические вещества.

GPT-4 включает дополнительный сигнал вознаграждения за безопасность во время обучения RLHF, чтобы уменьшить вредные результаты (как определено нашими рекомендациями по использованию ) путем обучения модели отклонять запросы на такой контент. Вознаграждение предоставляется нулевым классификатором GPT-4, оценивающим границы безопасности и стиль выполнения подсказок, связанных с безопасностью. Чтобы модель не отклоняла действительные запросы, мы собираем разнообразный набор данных из различных источников (например, помеченные производственные данные, человеческие команды, сгенерированные моделью подсказки) и применяем сигнал вознаграждения за безопасность (с положительным или отрицательным значением) на обоих разрешенные и запрещенные категории.

В целом, наши вмешательства на уровне модели усложняют выявление плохого поведения, но сделать это все же возможно. Кроме того, по-прежнему существуют «взломщики» для создания контента, нарушающего наши правила использования . По мере увеличения «риска на токен» систем ИИ критически важным станет достижение чрезвычайно высокой степени надежности этих вмешательств; сейчас важно дополнить эти ограничения методами обеспечения безопасности во время развертывания, такими как отслеживание злоупотреблений.

Оценка OpenAI

Мы предоставляем OpenAI Evals с открытым исходным кодом , нашу программную среду для создания и запуска эталонных тестов для оценки таких моделей, как GPT-4, при проверке их производительности выборка за выборкой. Мы используем Evals для управления разработкой наших моделей (как для выявления недостатков, так и для предотвращения регрессий), а наши пользователи могут применять его для отслеживания производительности разных версий модели (которые теперь будут выходить регулярно) и интеграции развивающихся продуктов. Например, Stripe использовала Evals в дополнение к своим человеческим оценкам для измерения точности своего инструмента документирования на основе GPT.

Поскольку исходный код полностью открыт, Evals поддерживает написание новых классов для реализации пользовательской логики оценки . Однако, по нашему собственному опыту, многие эталонные тесты следуют одному из нескольких «шаблонов», поэтому мы также включили шаблоны , которые оказались наиболее полезными для внутренних целей (включая шаблон для «оценки по модели» — мы обнаружили, что GPT- 4 на удивление способен проверять свою работу). Как правило, наиболее эффективным способом создания новой оценки будет создание экземпляра одного из этих шаблонов вместе с предоставлением данных. Мы рады видеть, что другие могут создать с помощью этих шаблонов и с помощью Eval в целом.

Мы надеемся, что Evals станет средством обмена и краудсорсинга тестов, представляющих максимально широкий набор режимов отказа и сложных задач. В качестве примера для подражания мы создали оценку логических головоломок , которая содержит десять подсказок, в которых GPT-4 дает сбой. Evals также совместим с реализацией существующих тестов; мы включили несколько ноутбуков , реализующих академические тесты, и несколько вариантов интеграции (небольших подмножеств) CoQA в качестве примера.

Мы приглашаем всех использовать Evals для тестирования наших моделей и отправки наиболее интересных примеров. Мы считаем, что Eval станет неотъемлемой частью процесса использования и построения на основе наших моделей, и мы приветствуем прямой вклад, вопросы и отзывы .

API

Чтобы получить доступ к API GPT-4 (который использует тот же API ChatCompletions , что и gpt-3.5-turbo), зарегистрируйтесь в нашем списке ожидания . Мы зарегились и нам дали API. Мы начнем приглашать некоторых разработчиков сегодня и будем постепенно расширяться, чтобы сбалансировать возможности и спрос. Если вы являетесь исследователем, изучающим влияние ИИ на общество или вопросы согласования ИИ, вы также можете подать заявку на субсидируемый доступ через нашу программу доступа для исследователей .

Получив доступ, вы можете отправлять только текстовые запросы к модели gpt-4 (входные изображения все еще находятся в ограниченной альфа-версии), которую мы автоматически обновим до нашей рекомендуемой стабильной модели по мере выпуска новых версий с течением времени (вы можете закрепить текущую версию по телефону gpt-4-0314, который мы будем поддерживать до 14 июня). Цена составляет 0,03 доллара США за 1 тыс. токенов подсказок и 0,06 доллара США за 1 тыс. токенов завершения. Ограничения скорости по умолчанию: 40 тыс. токенов в минуту и 200 запросов в минуту.

gpt-4 имеет длину контекста 8 192 токена. Мы также предоставляем ограниченный доступ к нашей версии с 32 768 контекстами (около 50 страниц текста), gpt-4-32k, которая также будет автоматически обновляться со временем (текущая версия gpt-4-32k-0314, также поддерживается до 14 июня). Цена составляет 0,06 доллара США за 1 тыс. токенов подсказок и 0,12 доллара США за 1 тыс. токенов завершения. Мы все еще улучшаем качество модели для длинного контекста и хотели бы получить отзывы о том, как она работает для вашего варианта использования. Мы обрабатываем запросы на движки 8K и 32K с разной скоростью в зависимости от емкости, поэтому вы можете получить к ним доступ в разное время.

Заключение

Мы надеемся, что GPT-4 станет ценным инструментом для улучшения жизни людей за счет поддержки многих приложений. Предстоит еще много работы, и мы с нетерпением ждем возможности улучшить эту модель благодаря коллективным усилиям сообщества, строящего поверх модели, исследуя ее и внося свой вклад.

Статью писал не ChatGPT, а переводчик гугл!

Так что по итогу. Пользование GPT-4 сейчас стоит в 30-50 раз дороже GPT-3.5.

Так что думаем, куда применить этот апи))

ps. лайк, пожалуйста, он помогает продвижению статьи, а значит дает мотивацию писать дальше

Ну и как положено на VC, канал телеграм)))

Туда выкладываю статьи VC и то, что нет в VC. Мысли, идеи, опыт

В закрепленных там всегда актуальные боты для доступа в Dalle, GPT-4 и ChatGPT без VPN.

0
14 комментариев
Написать комментарий...
Егор Егоров

Не понятен смысл статьи.
Хоть бы ссылку на оригинальную версию анонса прикрепили :\

Ответить
Развернуть ветку
Александр Пантелеймонов

Это материал с родного сайта OpenAI, просто обзор от разработчиков по GPT-4. Притом в этом переводе он не полный или переделанный.
https://openai.com/research/gpt-4

Ответить
Развернуть ветку
Егор Егоров

Да, я поэтому и написал, что смысл статьи не понятен)

Ответить
Развернуть ветку
Аккаунт удален

Комментарий недоступен

Ответить
Развернуть ветку
Евгений Вилков
Автор

Главное, чтобы нейросети не научились взламывать эти странички😀

Ответить
Развернуть ветку
Даниил Флестеров

I dumped a live Ethereum contract into GPT-4.

In an instant, it highlighted a number of security vulnerabilities and pointed out surface areas where the contract could be exploited. It then verified a specific way I could exploit the contract

Ответить
Развернуть ветку
Alexander Radchenko

Это перевод английской статьи.

Ответить
Развернуть ветку
Рулон Обоев

это не перевод а промт какой-то. ужасно косноязычный.

Ответить
Развернуть ветку
Евгений Вилков
Автор

Вы статью явно не читали, в ней же написано, что статью написал переводчик гугл 😀

Ответить
Развернуть ветку
Artem Tarasov

когда уже выход GPT5?

Ответить
Развернуть ветку
Андрей А.

Скайнет из "терминатора" всё ближе. На следующем этапе он начнёт войну машин

Ответить
Развернуть ветку
Илья Ланкевич

Интересная стоимость улучшения получается…

Ответить
Развернуть ветку
Евгений Вилков
Автор

Стоимость огромная , но продуктивность при решении некоторых задач типа в 500 раз выше

Ответить
Развернуть ветку
Борис Павлов

А можно более детально , где можно загружать картинку ?

Ответить
Развернуть ветку

Комментарий удален модератором

Развернуть ветку
11 комментариев
Раскрывать всегда