Яндекс обновил модель Alice AI ART для создания изображений с русским текстом
Яндекс представил обновлённую версию собственной модели Alice AI ART, которая решает одну из главных проблем нейросетей — создание изображений с русским текстом.
Главные изменения и результаты:
- Решение проблемы датасетов (в открытых данных кириллица представлена крайне слабо, поэтому моделям просто не на чем учиться различать буквы): разработчики Яндекса вручную собрали уникальный набор пар «изображение — кириллический текст» с детальной разметкой глифов;
- Масштабное обучение: на этапе предобучения добавили 30 млн примеров с текстом, а для тонкой настройки отобрали 100 тыс. изображений, причём не только с точки зрения текстов, но и визуального качества и эстетики;
- Новая архитектура: перешли со свёрточной структуры на трансформерную и внедрили LLM в качестве текстового энкодера;
- Точность в деталях: нейросеть теперь в 3 раза чаще выдаёт корректный текст и справляется даже со сложными фразами из 7–9 слов;
Чтобы всё работало максимально эффективно, советуют соблюдать несложные правила промптинга:
- Заключать нужный текст в кавычки;
- Писать сложные слова заглавными буквами;
- Разбивать длинные надписи на короткие фразы.
Что ещё важно — общее визуальное качество без искажений выросло на треть, также модель теперь лучше понимает русский контекст. Этого удалось добиться за счёт перевода обучения на русскоязычные промпты (модель воспринимает запрос напрямую, без перевода с английского) и внедрения рефрайзера, который снимает неопределённость — например, превращает «наша столица» в понятный для модели образ «Москва».
Модель доступна в чате с Алисой AI, а также на платформе Yandex AI Studio.
Подписывайтесь на Telegram Грокс.