«Сбер» представил нейросеть, которая создаёт изображения по описанию на русском языке Статьи редакции

В основе лежит DALL-E, которую в январе представила OpenAI.

«Сбер» утверждает, что ruDALL-E — первая нейросеть, которая может генерировать картинки по запросу на русском языке.

Нейросеть обучается одновременно на картинках и текстах и может создавать неограниченное число новых изображений по заданному описанию, рассказали vc.ru в «Сбере».

Изображение ruDALL-E по запросу «Красивый горный пейзаж» «Сбер»
Изображение ruDALL-E по запросу «Шикарная гостиная с зелеными креслами» «Сбер»

Модель ruDALL-E XL с 1,3 млрд параметров лежит в открытом доступе на GitHub. Есть вторая версия — ruDALL-E 12B с 12 млрд параметров. Обе в ближайшее время будут доступны на платформе ML Space в хабе предобученных моделей и датасетов DataHub от SberCloud.

ruDALL-E состоит из трёх нейросетей, первая принимает текст и генерирует заданное число картинок, вторая выбирает более удачные, третья — увеличивает их в размере без потери качества.

Нейросеть DALL-E для генерации картинок по описаниям на английском языке представила OpenAI в январе 2021 года. Команды SberDevices, Sber AI и SberCloud воспроизвели её код и запустили обучение модели на платформе ML Space на базе суперкомпьютера «Кристофари».

Обучение заняло 23 тысячи GPU-часов на массиве данных из 120 млн пар текст-изображение. По данным «Сбера», обучение ruDALL-E стало самым большим нейросетевым вычислительным проектом в России и СНГ.

0
293 комментария
Написать комментарий...
Сергей Марков

«Лучшая картина Васи Ложкина»

Ответить
Развернуть ветку
Rodeus
Ответить
Развернуть ветку
290 комментариев
Раскрывать всегда