Новый ИИ-генератор изображений в Google Bard - все, что вам нужно знать о нем

1 февраля компания Google выпустила долгожданный ИИ-генератор изображений для Google Bard. Новый релиз ставит Google в один ряд с ИИ-компаниями Midjourney и OpenAI, у которых есть мощные генераторы ИИ-изображений на рынке.

С момента запуска я активно тестировал новые возможности Google Bard по генерации изображений.

Вот что вам нужно знать.

Еще больше полезностей - в моем телеграм-канале про нейросети и канале про генерацию изображений Миджорниум.

Google была одной из первых крупных компаний, которая занялась созданием изображений с помощью искусственного интеллекта. Компания анонсировала свою систему Imagen в исследовательской работе еще в 2022 году.

В то время Imagen вызвала огромный интерес и волнение. Затем Google просидела над этой технологией почти два года, в то время как конкуренты, такие как OpenAI, Stability и Midjourney, выпустили свои генераторы изображений.

Теперь, после долгого, долгого ожидания, публика наконец-то может попробовать Imagen. Появление нового конкурента - и новой технологической платформы - в сфере генерации изображений с помощью ИИ очень интересно, даже если из-за долгого ожидания релиз кажется немного неактуальным.

Чтобы получить доступ к Midjourney, лучшему в своем классе генератору искусственного интеллекта, вам придется платить от $10 до $120 в месяц и пользоваться неудобным десктопным приложением Discord.

Google Bard делает доступ к генератору изображений ИИ простым и бесплатным. Теперь, когда этот инструмент появился, вы можете просто зайти на сайт https://bard.google.com и попросить чатбота сгенерировать любое изображение, которое вам нужно.

Изображения пока не дотягивают до уровня Midjourney ( подробнее об этом - ниже). Но для тех, кто хочет поэкспериментировать с искусственным интеллектом или просто сделать с детьми машинки со смайликами, бесплатный и простой в использовании интерфейс Bard является большим преимуществом.

Технология невидимых водяных знаков существует уже несколько десятилетий. Такие компании, как Digimarc, используют невидимые водяные знаки с первых дней существования Photoshop, а новые технологические компании, такие как Steg AI, расширили и усовершенствовали эту технологию.

Чтобы добавить невидимый водяной знак на изображение, специальное программное обеспечение незаметно изменяет пиксели изображения таким образом, что человек не может их увидеть. Изменения происходят по схеме, которую впоследствии может прочитать другая программа. По сути, это способ встроить незаметный код отслеживания.

Поскольку эти невидимые коды не зависят от метаданных изображения, а встраиваются в пиксели самого изображения, они могут распространяться вместе с ним, где бы оно ни использовалось. Это позволяет любому человеку впоследствии отследить изображение до момента его создания.

Эта технология полезна, например, для защиты авторских прав на традиционные фотографии. Но до сих пор она не применялась для отслеживания изображений, созданных искусственным интеллектом.

Google Bard - первый крупный программный продукт с ИИ, который встраивает невидимый водяной знак в каждое изображение, созданное на платформе, с помощью системы SynthID. Благодаря этому на этапе создания любое изображение Bard может быть отслежено, поэтому можно будет узнать, что он сгенерировано ИИ.

Очень важно, что цифровые водяные знаки, подобные SynthID, как правило, выдерживают редактирование, обрезку и другие изменения исходного изображения.

Например, если кто-то попытается использовать изображение, созданное в Bard отредактировав его, алгоритмы Google смогут просканировать его и мгновенно установить, что оно было создано Бардом. Это мощный способ повысить доверие к изображениям в системе.

Можно ожидать, что эта функция проверки будет встроена в такие инструменты, как Google Images, чтобы вы могли быстро идентифицировать изображения, созданные искусственным интеллектом, наряду с обычными фотографиями.

Продолжая придерживаться этических принципов ИИ, новый генератор изображений Google Bard уделяет безопасности гораздо больше внимания, чем его конкуренты.

DALL-E от OpenAI отказывается создавать оскорбительные изображения, но в целом без проблем создает изображения известных политических деятелей.

Аналогичным образом Midjourney с удовольствием создает карикатуры на известных людей, причем с гораздо менее чувствительными запросами к фильтрации. Я использовал его для создания пародийного изображения Сэма Альтмана из OpenAI для недавней статьи.

В отличие от этого, Google Bard часто отказывается создавать изображения, в которых есть хотя бы крошечная доля вероятности неправомерного использования.

Чтобы сравнить генератор изображений Bard с Midjourney, я попросил его создать изображение юриста, изучающего дело, - запрос, который я тестировал в другой системе.

Он отказался. Предположительно, мое изображение юриста могло быть использовано каким-то незаконным образом - возможно, для придания незаслуженного авторитета поддельному юридическому сайту. В результате Bard отказался.

Как пользователя, обширные ограничительные меры Bard могут раздражать. Но они показывают, что Google придерживается очень безопасного подхода к созданию изображений.

Вот вопрос, на который вы ждали от меня ответа: "Являются ли изображения, создаваемые Bard, такими же хорошими, как изображения, создаваемые конкурирующими инструментами, такими как Midjourney и DALL-E?"

Короткий ответ - нет.

В ходе тестирования я обнаружил, что многие изображения Bard все еще имеют картонный, перенасыщенный вид, который был характерен для Midjourney версий 4 и 5. Например, вот изображение "портрета человека", сделанное Bard.

Вот изображение, сгенерированное по такому же промпту в Midjourney.

Изображение, сгенерированное в Bard, не является реалистичным. Освещение неправильное, морщины слишком выражены, а лицо выглядит нереалистично и карикатурно.

Изображение, созданное в Midjourney, напротив, похоже на настоящую фотографию - возможно, даже на произведение искусства. Такие детали, как щетина мужчины, прекрасно прорисованы, а его лицо передает сильные, реалистичные эмоции.

Я обнаружил, что аналогичная ситуация повторяется со многими изображениями, которые я создал в Bard.

Вот фотография, сгенерированная по промпту "aspirational photograph of a man walking a Bichon Frise" в Bard.

И в Midjourney.

Изображения, созданные в Bard, нельзя назвать ужасными, но они не дотягивают до уровня Midjourney или даже DALL-E3.

Тем не менее, с некоторыми образами Bard справляется хорошо. В моих тестах он лучше, чем Midjourney, справился с созданием изображений с реалистичным текстом.

Он также справился с классическим промптом "avocado armchair” - обычным тестом для генераторов изображений, который появился еще во время работы OpenAI над оригинальной исследовательской работой по генерации изображений.

Мои первые впечатления от нового генератора изображений Google Bard были в основном негативными.

Я возлагал большие надежды на одну из крупнейших в мире компаний по производству программного обеспечения, и тот факт, что технология генерации изображений Bard не идет ни в какое сравнение с таким крошечным стартапом, как Midjourney, меня разочаровал.

Но по мере того как я использую Bard, я все больше впечатляюсь его возможностями. Да, он не так артистичен, как Midjourney. Он также не так хорош в понимании промптов, как DALL-E3 от ChatGPT.

Но, несмотря на эти недостатки, Bard отлично справляется с основными задачами. Для простых изображений, которые большинство людей действительно генерируют и используют, Bard выдает довольно неплохие результаты.

Вот пример снимка полицейских маячков, созданного Bard. Это обычное стоковое изображение, используемое газетами для иллюстрации криминальных историй. Изображение, созданное Bard, вполне пригодно для таких целей.

Да, многие изображения получаются немного карикатурными. Да, Bard может не подходит для генерации изображений даже с малейшими признаками нарушения закона.

Но для бесплатного инструмента, к которому каждый может получить доступ и сразу же начать с ним работать, генератор изображений Bard все же мощный.

И дальше он будет становиться только лучше.

Изначально Bard был широко осмеян после его выпуска. По мере совершенствования системы и увеличения количества данных о пользователях насмешки в ее адрес сошли на нет. Bard все еще не так хорош в некоторых задачах, как ChatGPT, но он отлично справляется с доступом к информации, написанием постов в блоге и другими практическими задачами.

Я ненавидел версию Bard, а теперь пользуюсь ею постоянно.

Я уверен, что по мере того, как Google будет продолжать собирать данные и совершенствовать новый генератор изображений в Bard, его ждет аналогичное улучшение.

Возможно, однажды он даже сможет генерировать руки!

#google #ai #bard #imagen

Источник статьи на английском - здесь.

20 комментариев

Виктор Петров

6 февр

Всё пытаюсь понять, в чём ценность таких картинок.
Не говорят, самки собаки. Не говорят.

Ответить

NeuroЭнтузиаст (Алексей)

Автор

Да ценности именно таких особо нет, пока только больше как поиграться..

Волчара Wiseoldwolf

Теперь, когда этот инструмент появился, вы можете просто зайти на сайт https://bard.google.com и попросить чатбота сгенерировать любое изображение, которое вам нужно.А он в ответ говорит, что пока не умеет работать с изображениями...

bard.google.com

â€ŽBard - Chat Based AI Tool from Google

Не во всех странах, значит еще работает.

Светлана Борис

все-таки, профессиональное фото или картина в 100 раз круче

Некорректно сравнивать бесплатное с довольно-таки платным ). У каждого свои требования и нужды.

Alexander Shabalin

7 февр

интересно, что останется от "невидимой вотермарки", если прогнать изображение через img2img с невысоким denoise strength. есть подозрение, что ничего)

Новый ИИ-генератор изображений в Google Bard - все, что вам нужно знать о нем

Imagen представлен публике

Генератор изображений в Bard - бесплатный

Изображения, сгенерированные в Bard, имеют невидимый водяной знак

Безопасность - главный приоритет

Изображения, созданные в Bard не дотягивают до уровня Midjourney. Пока что.

Многообещающее будущее