О том, что такое ruDALL-E, можно узнать подробнее здесь (а если хочется технических деталей, то ещё и тут). По сути, ruDALL-E — это большой мультимодальный предобученный трансформер. Мы обучали его на двух видах данных: картинках и текстах. Это было необходимо, чтобы модель понимала суть запросов на русском языке, мэтчила их с изображениями, которые «видела» в процессе обучения, и генерировала картинки, подходящие под описание.
В стикерпаке не хватает именно "кот пьет кофе")