Напомним, что помимо нашего кодировщика изображений , CLIP также обучает кодировщик текста. DALL-E использует другую модель, которую авторы называют предыдущей, для преобразования текстовых кодировок подписей к изображениям в кодировки соответствующих им изображений. Авторы DALL-E эксперементировали как с авторегрессионными моделями, так и с диффузионными моделями, но в конечном итоге говорят о том, что обе модели дают сопоставимую производительность. Учитывая, все же, что диффузионная модель намного более эффективна в вычислительном отношении, она выбрана в качестве априорной для DALL-E.
А зачем генерировать подобие фото? Заводы по сжиганию фотографов работают на пределе мощностей, увеличивая углеродный след.
Нахрена ещё фальшивые снимки фальшивой реальности? Более реалистично показывать Сызрань в мире "Звёздных войн"?
зачем генерировать подобие фото?Чтобы пользователю было ещё сложнее найти что-то нормальное. Собственно, уже давно неясно, изображение — натуральная фотка или сильно преобразованная в фотошопе, а может, вообще результат фантазии дизайнера.
Нейросети делают фотографии?
Я уже устал от статей про нейросети, а также от логических ошибок (или трюков) в статьях на vc, терпение на пределе, где статьи про бизнес? Следующий мой шаг удалить приложение. Сейчас оно в быстром доступе на главном экране телефона
где статьи про бизнесЗачем в России статьи про бизнес сейчас?
То есть, Dall-e находит подходящие картинки и и делает из них нехитрый монтаж. Sic. Вся магия нейросетей в одночасье разрушена, и кем - даже не Павлом Комаровским
GLIDE, кажется, недоступен простому пользователю.а это? https://github.com/openai/glide-text2im