OpenAI выпустила DALL-E 3 API и новые text-to-speech модели
DALL-E 3 API позволяет генерировать изображения с разрешением от 1024×1024 до 1792×1024. В отличие от API DALL-E 2, DALL-E 3 не может заменять куски уже существующего изображения или создавать вариаций существующего изображения.
Также OpenAI сообщает, что когда запрос на генерацию отправляется в DALL-E 3, он будет автоматически переписан «по соображениям безопасности» и «чтобы добавить больше деталей», что может привести к менее точным результатам в зависимости от запроса.
Что более интересно, OpenAI теперь предоставляет API для преобразования текста в речь Audio API, который предлагает шесть предустановленных голосов на выбор, а также два варианта генеративной модели ИИ. Он запускается сегодня, а цена начинается от 0,015 $ за 1000 символов
В отличие от других платформ генерации речи, в AudioAPI не предусмотрена возможность эмоциональной окраски генерируемой речи на прямую. В OpenAI отмечают, что «некоторые факторы» могут влиять на на то, как будет звучать речь. Например использование заглавных букв или грамматика.
Также OpenAI требует, чтобы разработчики, использующие AudioAPI, информировали пользователей о том, что звук генерируется ИИ.
Больше новостей в авторском телеграмм-канале