Некоторое время назад был у меня пост про обработку изображений сверточными нейронными сетями. Там я писала, что сверточные нейросети постепенно вытесняются трансформерами (но пока не сдаются).
Сегодня поговорим о том, как именно устроены трансформеры для работы с изображениями.
Midjourney в этом плане пока все еще лидирует по моему, но глядя на то, что делают другие можно сказать конкуренты вплотную подобрались уже.