На DevDay 2024 OpenAI представила Realtime API, кэширование промптов и многое другое

Прошло всего несколько дней с тех пор, как некоторые известные личности, например бывший технический директор Мира Мурати, покинули OpenAI. Поэтому видеть Сэма Альтмана на сцене DevDay, рассказывающего о новых продуктах для разработчиков, кажется немного странным.

Учитывая все эти изменения в компании, нельзя не задаться вопросом: стоит ли ему доверять?

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Синхронизатор губ, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!

Но сейчас речь пойдет не об этом. Давайте на секунду отложим драму в сторону и посмотрим, чему на самом деле был посвящен Dev Day - новым инструментам OpenAI, которые только что были анонсированы для разработчиков.

В этом году OpenAI, безусловно, вместила в себя многое, и хотя смена руководства вызывает беспокойство, очевидно, что компания продолжает двигаться вперед. На самом деле, есть довольно много достижений, о которых стоит рассказать.

Если вы пропустили DevDay в прошлом 2023 году, вот краткая информация о прогрессе, достигнутом с тех пор:

Снижение стоимости одного токена на 98 % от GPT-4 до 4o mini
50-кратное увеличение объема токенов в их системах
Значительный прогресс в области интеллектуального моделирования

Еще больше полезностей - в телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Главным событием DevDay 2024, несомненно, стал Realtime API.

Этот API позволяет разработчикам встраивать в свои приложения мультимодальные разговорные возможности с низкой задержкой, поддерживающие текст, звук и вызов функций.

Вот пример вызова API на javascript.

Почему это должно волновать разработчиков?

Отсутствие текстового посредника означает низкую задержку и точность вывода.
Модели имеют естественную интонацию, могут смеяться, шептать и придерживаться тональности.
Одновременный мультимодальный вывод

Теперь тысячи разработчиков могут интегрировать эту функцию в свои приложения, что открывает дорогу новой волне приложений с голосовым управлением.
Вот некоторые примеры продуктов, которыми поделились разработчики, получившие ранний доступ к Realtime API.

Вот информация о ценах на Realtime API

Ввод текста: $5 за 1 миллион токенов
Вывод текста: 20 долларов за 1 миллион токенов
Ввод аудио: $100 за 1 миллион токенов (около $0,06 за минуту)
Вывод аудио: 200 долларов за 1 миллион токенов (около 0,24 доллара за минуту)

Следующей в списке идет функция кэширования промптов, которая значительно сокращает затраты и время на обработку повторяющихся промптов.

Теперь OpenAI направляет API-запросы на серверы, которые недавно обрабатывали тот же или похожий промпт, что позволяет отказаться от лишних вычислений. Эта функция особенно полезна для разработчиков, работающих с длинными или сложными промптами, которые часто используются повторно.

Это может сократить задержку на 80 % и стоимость на 50 % для длинных промптов.

Кэширование промптов - не совсем новая концепция. Не так давно компания Anthropic представила похожую функцию, которая позволяла разработчикам кэшировать часто используемые контексты и снижать затраты до 90 %.

Кэширование промптов в OpenAI включено для следующих моделей:

gpt-4o
gpt-4o-mini
o1-preview
o1-mini

Когда вы делаете запрос к API, вот что происходит:

Cache Lookup: Система проверяет, хранится ли начальная часть (префикс) вашего промпта в кэше.
Cache Hit: если найден подходящий префикс, система использует кэшированный результат. Это значительно сокращает время ожидания и снижает затраты.
Cache Miss: если подходящий префикс не найден, система обрабатывает весь ваш промпт. После обработки префикс вашего промпта кэшируется для последующих запросов.

Эти кэшированные префиксы могут сохраняться не более 10 минут. Но в непиковые периоды кэш может сохраняться до одного часа.

Цены на кэширование промптов следующие:

Еще одной замечательной функцией, представленной на DevDay, стала Vision Fine-Tuning.

Эта функция позволяет пользователям проводить тонкую настройку моделей с помощью изображений, а также текста в файлах JSONL. Это открывает возможность обучения моделей не только на текстовых, но и на визуальных данных.

Вот пример сообщения с изображением в одной из строк JSONL-файла. Ниже объект JSON развернут для удобства чтения, но обычно этот JSON отображается в одной строке в файле данных:

{ "messages": [ { "role": "system", "content": "You are an assistant that identifies uncommon cheeses." }, { "role": "user", "content": "What is this cheese?" }, { "role": "user", "content": [ { "type": "image_url", "image_url": { "url": "https://upload.wikimedia.org/wikipedia/commons/3/36/Danbo_Cheese.jpg" } } ] }, { "role": "assistant", "content": "Danbo" } ] }

Чем это полезно?

OpenAI сотрудничает с ведущими технологическими компаниями, такими как Grab, чтобы продемонстрировать возможности тонкой настройки зрения в реальных приложениях. Компания Grab, крупный сервис доставки еды и трансфера, использовала эту функцию для улучшения своей платформы GrabMaps, которая опирается на фотографии улиц, полученные от водителей, для поддержки операций по всей Юго-Восточной Азии.

Настроив GPT-4o всего на 100 примерах, Grab улучшила свои возможности по локализации дорожных знаков и определению разделительных полос.

Это позволило на 20 % повысить точность определения количества полос движения и на 13 % улучшить определение местоположения знаков ограничения скорости, оптимизировать картографические процессы и снизить необходимость ручного вмешательства.

Примечание: Ваши обучающие изображения не могут содержать изображения людей, лиц, CAPTCHA или изображения, нарушающие наши условия использования. Наборы данных, содержащие такие изображения, будут автоматически отклонены.

Что касается цен, то в настоящее время OpenAI предлагает 1 миллион токенов обучения в день бесплатно до 31 октября 2024 года для тонкой настройки GPT-4o с помощью изображений.

После 31 октября 2024 года обучение GPT-4o будет стоить 25 долларов за 1 млн токенов, а вывод результатов - 3,75 доллара за 1 млн входных токенов и 15 долларов за 1 млн выходных токенов. Вводимые изображения сначала токенизируются в зависимости от размера изображения, а затем оцениваются по той же ставке за токен, что и текстовые данные.

Как бы ни были круты эти новые функции, они несут в себе угрозу безопасности, особенно API Realtime.

Мы приближаемся к миру, в котором поддельные телефонные звонки будут неотличимы от настоящих. Представьте, что вам звонит человек, голос которого в точности похож на голос вашего начальника или члена семьи, а потом вы узнаете, что это был искусственный интеллект.

Нетрудно представить, как злоумышленники могут использовать эту технологию.

Так, несколько дней назад Федеральная комиссия по связи США оштрафовала политического консультанта на 6 миллионов долларов за использование искусственного интеллекта для имитации голоса президента Джо Байдена в телефонных звонках в начале этого года.

Чтобы избежать злоупотреблений, API OpenAI не может напрямую звонить в рестораны или магазины. При этом со стороны ИИ нет никакой информации о том, что это не человек, поэтому сложно определить, разговариваете вы с ИИ или нет. На данный момент, похоже, разработчики обязаны добавить определенную информацию.

OpenAI постаралась снизить эти риски. Для голосового взаимодействия OpenAI использует инфраструктуру аудиобезопасности, которая доказала свою эффективность в минимизации потенциальных злоупотреблений, особенно в предотвращении использования в мошеннических целях, таких как вводящие в заблуждение телефонные звонки или голосовые манипуляции.

Когда речь заходит о тонкой настройке зрения, то настраиваемые модели остаются полностью под контролем пользователя, что обеспечивает полное владение бизнес-данными. OpenAI не обучает модели ни на каких входных или выходных данных, используемых для тонкой настройки, без явного разрешения, что гарантирует конфиденциальность и безопасность данных.

Сегодня было объявлено о многом, но для меня наиболее значимым является Realtime API. По сути, это API-версия расширенного голосового режима ChatGPT, и я ожидаю, что в ближайшие недели появятся сотни приложений, созданных на основе этого голосового API.

По данным OpenAI, в настоящее время более 3 миллионов разработчиков экспериментируют с ее технологией, создавая новые приложения и функции. Эти недавно анонсированные продукты, особенно голосовой API Realtime, могут помочь увеличить эту важную пользовательскую базу и доходы OpenAI.

На данный момент сложно оценить, насколько интуитивно понятны эти API и насколько экономически эффективны они будут в реальных приложениях. Я планирую создать несколько пробных приложений для их тестирования и поделюсь своими результатами в отдельном посте. А пока я хотел бы услышать ваши мысли о DevDay этого года.

Какой анонс продукта взволновал вас больше всего? Напишите об этом в комментариях!

🔥Телеграм-бот SYNTX предоставляет доступ к более чем 30 ИИ-инструментам. Без ВПН, оплата любой картой, запросы на любом языке, пробуйте бесплатно! Под капотом - GPT4o/Gemini/Claude, MidJourney, DALL-E 3 и Ideogram, LUMA, Runway, Kling, Suno, Синхронизатор губ, Редактор с 12 различными ИИ-инструментами для ретуши фото.
☝Это только часть функций, доступных в SYNTX!

#openai #gpt #devday

Источник статьи на английском - здесь.

На DevDay 2024 OpenAI представила Realtime API, кэширование промптов и многое другое

Realtime API

Кэширование промптов

Vision Fine-Tuning

Поговорим о безопасности