OpenAI выпустила DALL-E 3 API и новые text-to-speech модели

DALL-E 3 API позволяет генерировать изображения с разрешением от 1024×1024 до 1792×1024. В отличие от API DALL-E 2, DALL-E 3 не может заменять куски уже существующего изображения или создавать вариаций существующего изображения.

Также OpenAI сообщает, что когда запрос на генерацию отправляется в DALL-E 3, он будет автоматически переписан «по соображениям безопасности» и «чтобы добавить больше деталей», что может привести к менее точным результатам в зависимости от запроса.

Что более интересно, OpenAI теперь предоставляет API для преобразования текста в речь Audio API, который предлагает шесть предустановленных голосов на выбор, а также два варианта генеративной модели ИИ. Он запускается сегодня, а цена начинается от 0,015 $ за 1000 символов

В отличие от других платформ генерации речи, в AudioAPI не предусмотрена возможность эмоциональной окраски генерируемой речи на прямую. В OpenAI отмечают, что «некоторые факторы» могут влиять на на то, как будет звучать речь. Например использование заглавных букв или грамматика.

Также OpenAI требует, чтобы разработчики, использующие AudioAPI, информировали пользователей о том, что звук генерируется ИИ.

Больше новостей в авторском телеграмм-канале

0
Комментарии
-3 комментариев
Раскрывать всегда