Нейросеть Ideogram для генерации изображений: особенности и использование
Инструмент создаёт картинки с читаемым текстом.
Ideogram — нейросеть для генерации изображений по описаниям. Её разработала группа экспертов, бывших сотрудников Google Brain. Ideogram стала доступна в 2024 году. Главное отличие от аналогов вроде Dall-E и Midjourney — функциональность соцсети и возможность добавлять в изображения текст. Это делает нейросеть универсальным инструментом для дизайнеров, маркетологов и SMM-специалистов.
Содержание:
Что умеет Ideogram
- Создавать изображения с текстом: логотипы, постеры, баннеры. Ideogram корректно отображает надписи и цифры.
- Работать в разных стилях. На выбор — шесть пресетов (реализм, аниме, 3D, дизайн, общий и автоматический стили), но ограничиваться ими не обязательно, любые стили можно прописать в промпте (текстовом запросе с описанием картинки). Встроенная функция Magic Prompt дополнительно улучшает запросы.
- Публиковать работы в социальной сети внутри платформы. Пользователи могут подписываться друг на друга и оценивать изображения.
Как использовать
Сервис доступен через веб-интерфейс или iOS-приложение. Плюс для пользователей из России — нейросетью можно пользоваться без каких-либо ограничений. Однако весь интерфейс — на английском.
Для работы с Ideogram нужно:
- Зарегистрироваться на сайте ideogram.ai через аккаунт Google или Apple.
- Выбрать никнейм и имя пользователя.
- Ввести текстовый запрос в поле Describe what you want to see.
- Нажать Generate и дождаться результата. Генерация занимает не больше 30 секунд; в результате получится четыре изображения.
Генерация изображений
Панель инструментов
Находится рядом с полем для ввода промпта.
Magic Prompt — это инструмент, который дорабатывает текстовые запросы. Функция добавляет контекст, атмосферу и стилистические детали, чтобы получить максимально качественные изображения. Magic Prompt можно включить, выключить или оставить в режиме Auto — в этом случае ИИ сам решит, нужно ли улучшать запрос.
Например, запрос «Собака в новогоднем колпаке» искусственный интеллект сам перевёл на английский и дополнил: «A photo of a dog wearing a festive holiday hat with ornaments and a pom-pom. The dog has its eyes wide open and its ears stand up. The background is a cozy living room with a Christmas tree adorned with ornaments. The floor is covered with presents wrapped in paper. There is a string of fairy lights hanging on the wall». («Фотография собаки в праздничном колпаке с ёлочными украшениями и помпоном. У собаки широко открыты глаза и стоят уши. На заднем плане — уютная гостиная с украшенной елкой. Пол усыпан подарками, завёрнутыми в упаковочную бумагу. На стене висит электрическая гирлянда»).
Aspect Ratio — выбор соотношения сторон. Доступно несколько популярных форматов: 16:9, 16:10, 3:2, 4:3, 5:4 и 1:1. Ideogram генерирует изображения и в вертикальной, и в горизонтальной ориентации.
Visibility — возможность сделать изображение недоступным для других пользователей. В бесплатной версии переключить нельзя — все кадры оказываются в общей ленте, их можно лайкать и комментировать.
Model — выбор модели генерации. В Ideogram доступны три модели:
- Model 0.2 и Model 1.0 — ранние версии, генерируют с артефактами (ошибки вроде лишних пальцев), но одна генерация стоит дешевле (1 кредит; подробнее о расценках — ниже).
- Model 2.0 — последняя и самая мощная модель, предлагает фотореализм и высокую детализацию. Генерация стоит дороже (2 кредита).
Тот же запрос «Собака в новогоднем колпаке» в исполнении модели 0.2. Налицо эффект блюра и типичные «болячки» нейросетевых картинок: проблемы с колпаком и бантами на заднем плане, у собаки появилась лишняя лапа.
Color palette — возможность выбрать готовую цветовую палитру или создать собственную. По умолчанию выбран параметр Auto — нейросеть сама определяет, какие цвета лучше подходят под промпт.
Внизу панели расположены кнопки, с помощью которых пользователь может выбрать стиль изображения. Из вариантов — автоматический, общий, реалистичный, 3D, аниме. Также есть вариант Design (дизайн), который подойдёт для генерации логотипов, постеров и другой типографики.
Составление промптов
Примеры выше показывают: даже простого описания достаточно, чтобы получить реалистичное изображение. Но чем больше в промпте будет деталей, тем точнее получится картинка.
Например, если дополнить запрос «Собака в новогоднем колпаке» до «Собака породы бигль в пушистом новогоднем колпаке. Фон — улица. Собака сидит вполоборота. В лапах у собаки лежит подарок», нейросеть учтёт пожелания.
Функция «Magic prompt» дополнила описание: «A photo of a Beagle breed dog wearing a fluffy Santa hat. The dog is sitting with its body half turned. It is standing on a snowy street. There is a present next to the dog’s paws. The background contains buildings. The overall image has a winter theme». («Фотография собаки породы бигль в пушистой шапке Санты. Собака сидит, вполоборота. Она сидит на заснеженной улице. Рядом с лапами собаки лежит подарок. На заднем плане изображены здания. В целом изображение имеет зимнюю тематику»).
Чтобы добавить на картинку текст, достаточно указать необходимую надпись в описании.
Например, «Собака в пушистом новогоднем колпаке. Фон — улица. В зубах у собаки табличка с надписью "Happy New Year!"».
Нейросеть снова доработала промпт до «A photo of a fluffy white dog wearing a knitted hat with pom-poms, sitting outside on a snowy day. The dog has a green and red collar. The dog is holding a sign with the text “Happy New Year!” in its mouth. The background shows a snowy street with a few houses». («Фотография пушистой белой собаки в вязаной шапке с помпонами, сидящей на улице в снежный день. На собаке зелёный с красным ошейник. Собака держит в пасти табличку с текстом „Happy New Year!“. На заднем плане изображена заснеженная улица с несколькими домами»).
Текст хорошо читается. Более того, алгоритмы учли контекст и выполнили надпись в новогоднем дизайне.
Но есть и минусы. Главный — Ideogram плохо понимает кириллицу. Если заменить в промпте “Happy New Year!” на «С Новым годом!», получится типичная нейросетевая галлюцинация.
В Ideogram есть встроенная функция редактуры изображений. С её помощью можно исправить ошибки в тексте или заменить фрагменты, которые не удались с первого раза. Но в бесплатной версии воспользоваться редактором нельзя.
Стоимость и лимиты
В бесплатном тарифе пользователь получает 10 кредитов ежедневно. Разработчики пишут, что их хватит на создание до 40 изображений. Это так, но при каждой генерации пользователь получает четыре картинки — итого в день он может отправить Ideogram не больше 10 запросов. По состоянию на декабрь 2024 года одна генерация с помощью Model 2.0 стоит 2 кредита, Model 1.0 и Model 0.2 — 1 кредит.
В бесплатной версии также недоступна часть функций. Например: редактор, некоторые соотношения сторон (заданное пользователем, 2:1 и 3:1), возможность удалять фон или указывать слова, которые не должны попасть в промпт.
Платные тарифы начинаются с $7 в месяц при оплате на год. Российскими картами оплатить нельзя. В таком варианте пользователи ежедневно получают 100 кредитов, а каждый месяц — по 400 турбо-кредитов. Они позволяют генерировать изображения без ожидания.
Коротко о главном
- Ideogram — мощный инструмент для создания визуального контента с возможностями работы с текстом. Однако с надписями на русском языке алгоритмы пока не справляются.
- Бесплатной версии с 5–10 запросами в день хватит для личных целей: помочь с презентацией ребёнку, сгенерировать аватарку для соцсетей. Для регулярного рабочего использования подходит платный тариф, но для его оплаты нужна зарубежная карта.
- Пока, несмотря на выход из бета-теста, интерфейс сайта работает со сбоями: изображения регулярно подгружаются с задержкой, а переход по вкладкам происходит с зависанием. Скорее всего, причина в высокой нагрузке на серверы.
Вы бы попробовали Ideogram для работы?