Отметим важный нюанс. У сверточных сетей есть так называемое «индуктивное смещение» (inductive bias). Грубо говоря, это допущение, которое делает модель относительно данных для того, чтобы обучаться. Например, сверточные нейросети не чувствительны к тому, в каком месте изображения находится паттерн, важный для распознавания (кошка распознается по усам, лапам и хвосту; не важно, находятся ли искомые признаки в центре изображения или в углу; расположены ли усы выше хвоста или наоборот – модель все равно кошку распознает. Это возможно благодаря определенному уровню обобщения. Без него модель не узнала бы кошку, если бы мы, скажем, перевернули изображение). У трансформера это смещение выражено гораздо меньше, потому что он получает изображение по частям (лапы и хвост могут быть в одном фрагменте, а усы в другом; при недостаточном наборе тренировочных данных может оказаться, что на всех изображениях была одна конфигурация элементов. В таком случае трансформер уже не узнает отличающуюся конфигурацию). Поэтому им нужно очень много данных для обучения, на маленьких выборках они работают не очень хорошо.
В ходе экспериментов сравнивали новую модель (ViT – трансформер для работы с изображениями), ReSNet, про которую пост был тут, и гибридную модель. ViT была представлена в трех размерах. 16х16 – это, кстати, размер кусочков, на которые изображения были поделены.
Midjourney в этом плане пока все еще лидирует по моему, но глядя на то, что делают другие можно сказать конкуренты вплотную подобрались уже.
А чтобы сгенерировать успех не нужны никакие нейросети!