Как Сбер может доработать то, чего нет в открытом доступе?
Ни исходников, ни данных, на которых училась оригинальная сеть, в открытом доступе нет
Ссылочку, пожалуйста, в студию нс этот "бесплатный SDK"
Приходите к нам на онлайн–семинар в пятницу, расскажем про технические подробности, ответим на каверзные вопросы :)
Приходите к нам на онлайн–семинар в пятницу, расскажем про технические подробности, ответим на каверзные вопросы :)
Чтобы уменьшить количество крипа в генерируемых изображениях.
Не, это не трудно) В зависимости от запроса, конечно, выход годноты разный :) Скажем, по запросу «Кот в форме авокадо» он где-то 40 картинок из 256, а по запросу «Красивый кот» где-то 200 из 256.
Пришлите тексты запросов. Сколько раз пробовали?
Время генерации зависит от числа людей, которые делают запросы, сейчас их очень много...
Мы не видели смысла. Любой такой фильтр можно обойти, а само его наличие будет скорее провоцировать людей стремиться это сделать. Кроме того, моделька, лежащая в основе демки, всё равно выложена в открытый доступ.
Из обучающей выборки картинки с матерными описаниями, конечно, изъяли, но, опять же, отфильтровать все 120 млн картинок в обучающей выборке нереально, так что что-то просочилось, конечно
«Товарищ майор»
«Мифический человеко-месяц»
«Рогозин на Марсе»
Сгенерено ruDALL-E по запросу: «Русская идея».
Сгенерено ruDALL-E по запросу: «Фаянсовая киса, похожая на Семёна Михайловича Будённого».
Название модели DALL-E было придумано не Татьяной Шавриной, а специалистами OpenAI. Оно совмещает в себе имя Сальвадора Дали и робота WALL-E. Название ruDALL-E получено лишь добавлением «ru».
Вы бы хотя бы немного разобрались, прежде чем кидать обвинения.
Ну а почему бы не поставить минус глупому комменту? OpenAI не выкладывали свою сеть в общий доступ, поэтому использовать её мы никак не могли.
Чего с чем? Какое-то количество картинок, которые я генерировал на этапе тестов, потом было включено в галерею.
Это XL-моделька, такие сложные вещи одна вряд ли отрисует. Посмотрите, я запостил примеры генерации в комментах, там видно, что ей примерно по плечу.
Ну не совсем понятно, что ожидалось на такой запрос :) Я бы попробовал «Лучшая картина Сальвадора Дали», «Неизвестная картина Ван Гога» — как-то так.
Пейзажи
Города
«Лучшая картина Малевича»
Собачки
Котики
«Самый смешной мем»
«Лучшая картина Васи Ложкина»
«Тян из аниме»
«Ёжик в тумане»
Imagen это диффузионный генератор на основе замороженной LM-ки, в отличие от ruDALL-E. У него совсем другая архитектура. Сравнить содержимое репозитория от Сбера и этой репы очень легко. Во-вторых, то, на что вы даёте ссылку, это не "SDK от Google", а попытка сообщества воспроизвести закрытую модель от Google и, разумеется, русский язык она не поддерживает, потому что открытых русскоязычных датасетов с картинками и их текстовыми описаниями объемом в сотни миллионов пар просто нет.