реклама
разместить

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Рассказываем о модели Janus-Pro-7 и сравниваем ее результаты с другими генераторами изображений.

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Недавно команда DeepSeek выпустила в открытый доступ новую мультимодальную модель для генерации картинок — Janus-Pro-7B. Разработчики заверяют, что она умеет генерировать изображения, почти неотличимые от настоящих, отлично работает в локальном режиме, бесплатна и превосходит западных конкурентов в ряде задач.

Читайте полную версию текста, если хотите узнать, как развернуть модель Janus-Pro-7B на облачном сервере.

Что нового в Janus-Pro

Janus-Pro — это усовершенствованная версия Janus, в которой:

  • оптимизирована стратегия обучения,
  • расширен датасет,
  • увеличен размер модели.
<i>Сравнение Janus и Janus-Pro-7B в генерации изображений. <a href="https://api.vc.ru/v2.8/redirect?to=https%3A%2F%2Fhuggingface.co%2Fdeepseek-ai%2FJanus-Pro-7B&postId=1874161" rel="nofollow noreferrer noopener" target="_blank">Источник</a>. </i>
Сравнение Janus и Janus-Pro-7B в генерации изображений. Источник

Благодаря этим улучшениям Janus-Pro достигает значительных успехов в мультимодальном понимании и лучше преобразует текст в изображение. Но это только по заверениям разработчиков. Перейдем к тестам.

Проверка качества генерации

Важный момент при использовании Janus-Pro-7B — это возможность работы с мультимодальным пониманием и генерацией текста в картинку. Нас интересует второй вариант.

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Генерация картинок на разных языках

Попробовал задать промт на русском:

Белый медведь играет в теннис на марсе с дельфином и слоном.

Результат: нейросеть отрисовала пять картинок. Отобрал для вас наиболее адекватные:

<i>Генерация для русскоязычного промта. </i>
Генерация для русскоязычного промта. 
<i>Генерация для русскоязычного промта. </i>
Генерация для русскоязычного промта. 

Зададим тот же промт, но на английском:

A polar bear plays tennis on Mars with a dolphin and an elephant.

Результат: точность выше, композиция ближе к ожидаемой.

<i>Генерация для английского промта. </i>
Генерация для английского промта. 

Финальный босс — традиционный китайский:

北極熊與海豚、大像在火星打網球

Результат: из пяти картинок удалось выбрать лишь одну, но и к ней достаточно вопросов. Псевдокитайский (или японский), традиционный дом, лес и облака. Все как просили (нет).

<i>Генерация для китайского промта. </i>
Генерация для китайского промта. 

Подробный промт

Попробуем задать подробно описанный промт:

A highly realistic and cinematic scene featuring Jean-Claude Van Damme, the legendary martial artist and actor, sitting in a perfect split position between two massive semi-trucks on a Texas highway. The composition is dynamic and visually striking, with extreme attention to detail. The trucks are modern, shiny, and reflect the bright sunlight, creating realistic lighting effects. The road stretches into the distance, surrounded by the iconic Texan landscape—rolling golden plains, distant mesquite trees, and a vast blue sky with scattered clouds. The time of day is late afternoon, with warm, golden-hour lighting casting long shadows and enhancing the textures of the environment. Jean-Claude Van Damme is dressed in a classic 90s action-hero outfit: tight black tank top, camouflage pants, and combat boots, showcasing his muscular physique. His expression is calm but confident, exuding strength and focus. Ultra-high detail, photorealistic rendering, 8k resolution, cinematic lighting, volumetric rays, depth of field, realistic skin texture, intricate clothing details, lifelike reflections on the trucks, and an epic widescreen aspect ratio (21:9). Art style inspired by high-end movie posters and hyperrealistic photography.

Результат: детализация осталась та же, и качество изображения по-прежнему оставляет желать лучшего.

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Итог

Основная часть обучающих данных, которые используют нейросети, представлена на английском языке — именно на него модели ориентируются в первую очередь. Для других языков качественных данные сильно меньше, что может влиять на точность генерации.Для наилучших результатов рекомендуется формулировать запросы на английском. Это значительно повысит эффективность работы нейросети. Если вам не хочется разворачивать модель локально, проще воспользоваться веб-версией на Hugging Face. Результат будет практически таким же, но без необходимости тратить время на настройку:

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Сравнение с другими моделями

Сравним качество генерации Janus-Pro с другими онлайн-нейросетями. Не будем рассматривать слишком популярные варианты, чтобы сравнение было чуть справедливее.

Deep Dream Generator

Начнем с сайта deepdreamgenerator.com. Ключевые особенности:

  • генерация и улучшения изображений;
  • генерация видео;
  • лимит «энергии» — при регистрации у вас 100 единиц, каждая генерация стоит от 4 до 30. При этом 80 начисляют единоразово, а 20 регулярно пополняется со временем;
  • можно протестировать нейросеть без авторизации.

А еще никто не запрещает использовать мультиаккаунты. 😉

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Выберем нужную модель. Площадка позволяет выбрать три pro-модели в день, при этом использовать обычные можно без ограничений.

Советую задавать запросы на английском, так как запросы по промтам на иных языках будут очень абстрактными. Протестируем тот же промт.

A polar bear plays tennis on Mars with a dolphin and an elephant.

Результат: за четыре единицы энергии получилось неплохо, но дельфина забыли.

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Попробуем тот же промт, но с моделью AIVision. За 30 единиц «энергии» она соблюла ТЗ, но от себя добавила какую-то человекоподобную черепаху.

Проверим генерацию на более подробном промте, который ранее тестировали с Janus.

A highly realistic and cinematic scene featuring Jean-Claude Van Damme, the legendary martial artist and actor, sitting in a perfect split position between two massive semi-trucks on a Texas highway. The composition is dynamic and visually striking, with extreme attention to detail. The trucks are modern, shiny, and reflect the bright sunlight, creating realistic lighting effects. The road stretches into the distance, surrounded by the iconic Texan landscape—rolling golden plains, distant mesquite trees, and a vast blue sky with scattered clouds. The time of day is late afternoon, with warm, golden-hour lighting casting long shadows and enhancing the textures of the environment. Jean-Claude Van Damme is dressed in a classic 90s action-hero outfit: tight black tank top, camouflage pants, and combat boots, showcasing his muscular physique. His expression is calm but confident, exuding strength and focus. Ultra-high detail, photorealistic rendering, 8k resolution, cinematic lighting, volumetric rays, depth of field, realistic skin texture, intricate clothing details, lifelike reflections on the trucks, and an epic widescreen aspect ratio (21:9). Art style inspired by high-end movie posters and hyperrealistic photography.

Результат: Нейросеть справилась с поставленной задачей.

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

DeepAI

Следующий сервис для сравнения — deepai.org. Это универсальная платформа с множеством инструментов: от стандартного чат-бота и генератора изображений до аудиочата и «хуманизатора» ИИ-текстов. Использовать можно без регистрации.

Для генерации картинок нужно:

  • задать промт,
  • выбрать качество генерации,
  • определить приоритет (скорость или качество),
  • подобрать стиль из более чем ста вариантов.
Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Создадим изображение с игрой в теннис на Марсе. Промт прежний.

A polar bear plays tennis on Mars with a dolphin and an elephant.

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Можно поэкспериментировать со стилями, чтобы получить более интересные генерации. Все в ваших руках! Результаты неплохие, но не идеальные. Однако ключевые плюсы платформы — бесплатное использование и отсутствие ограничений по количеству генераций. Можно дорабатывать промт и получать более точные картинки без лишних затрат.

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Далее выберем подходящий неоновый стиль и зададим подробный промт.

A highly realistic and cinematic scene featuring Jean-Claude Van Damme, the legendary martial artist and actor, sitting in a perfect split position between two massive semi-trucks on a Texas highway. The composition is dynamic and visually striking, with extreme attention to detail. The trucks are modern, shiny, and reflect the bright sunlight, creating realistic lighting effects. The road stretches into the distance, surrounded by the iconic Texan landscape—rolling golden plains, distant mesquite trees, and a vast blue sky with scattered clouds. The time of day is late afternoon, with warm, golden-hour lighting casting long shadows and enhancing the textures of the environment. Jean-Claude Van Damme is dressed in a classic 90s action-hero outfit: tight black tank top, camouflage pants, and combat boots, showcasing his muscular physique. His expression is calm but confident, exuding strength and focus. Ultra-high detail, photorealistic rendering, 8k resolution, cinematic lighting, volumetric rays, depth of field, realistic skin texture, intricate clothing details, lifelike reflections on the trucks, and an epic widescreen aspect ratio (21:9). Art style inspired by high-end movie posters and hyperrealistic photography.

Результат: получилось качественное изображение с прорисованным «Жаном», грузовиками, и даже тенью.

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Chatbot Arena

Последний сервис в нашем сравнении — lmarena.ai. Особенности платформы:

  • возможность получать ответы от двух разных моделей одновременно;
  • сравнение полученных результатов (генерация текста, чат, помощь с GitHub-репозиториями);
  • голосование за лучший результат.
Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Прописываем промт и получаем два результата. Чтобы узнать, где какая нейросеть, нужно проголосовать.

Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek
Экспериментируем с нейросетями: генератор картинок от разработчиков DeepSeek

Chabot Area — интересный инструмент для сравнения различных нейросетей на основе результата их работы. Пользователи участвуют в оценке генераций моделей, формируя объективный рейтинг.

Заключение

Развернуть модель Janus-Pro-7B локально или в облаке будет полезно, если вам нужно неограниченное количество генераций, а также полный контроль над процессом.

Пока Janus Pro 7B уступает по качеству генерации бесплатным онлайн-нейросетям, которых на просторах интернета сейчас очень много. Но списывать модель со счетов не стоит. Конкуренция между OpenAI и DeepSeek только растет, а с увеличением финансирования модели будут развиваться.

Хотите проверить возможности нейросети? Разверните модель Janus-Pro-7B на облачном сервере Selectel.

Читайте также

55
22
11
реклама
разместить
3 комментария

картинки для русскоязычного промта выглядят пугающе))

Ну не знаю насчет дипсика, миджорней ван лав

Ну, так‑то прогресс есть. Но сказать, что нейросеточные рисунки нравятся, не могу. Причем это касается всех моделей.

DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?
DeepSeek-R1? Не доверяйте новостям. Действительно ли эта модель с открытым исходным кодом превосходит даже OpenAI, или это очередная фейковая новость?

Я не верю тому, что они говорят, и вы тоже не должны верить. А если быть последовательным, то и вы не должны доверять моим словам. Но я докажу свои слова фактами и доказательствами.

2626
реклама
разместить
Qwen 2.5-Max: как Alibaba соревнуется с ChatGPT и DeepSeek в ИИ-гонке

Тестируем ещё одну нейросеть из Китая.

Qwen 2.5-Max: как Alibaba соревнуется с ChatGPT и DeepSeek в ИИ-гонке
1111
66
Как обменять в Аргентине доллары по черному курсу?

Не вдаваясь глубоко в детали, перечислим основные курсы доллара в 2025 году: Dólar Oficial, Dólar Cripto, Dólar Banco Nación, Dólar MEP, Dólar Turista, Dólar Mayorista, Dólar Futuro, Dólar CCL и другие.

Нейросети для генерации видео: какую выбрать. 4 лучшие ИИ-генератора видео. Как получить безлимит генераций в ИИ-генераторах видео Sora, Runway, Luma и MiniMax
Нейросети для генерации видео: какую выбрать. 4 лучшие ИИ-генератора видео. Как получить безлимит генераций в ИИ-генераторах видео Sora, Runway, Luma и MiniMax

Приступая к тестированию новейших ИИ-генераторов видео, я хотел ответить на простой вопрос: насколько хорошо они могут оживить статичное изображение?

99
Дик пик… DeepSeek: как переродился «Синий кит», но в виде нейросети. Блог Красовского - полный разбор.

Друзья, вы точно уже читали новости о новой нейросетке Deep Seek, которая громко заявила о себе. С каждым днём гонка двух мастифов накаляется в геометрической прогрессии. Следствием такой популярности стало сарафанное радио и главный вопрос общественности: почему бесплатно?

Дик пик… DeepSeek: как переродился «Синий кит», но в виде нейросети. Блог Красовского - полный разбор.
2323
77
11
Битва титанов. Imagen 3 против Midjourney 6.1 и Qwen 2.5 MAX. Кто станет НОВЫМ ЛИДЕРОМ в генерации изображений?

Пока индустрия ИИ замерла в ожидании Midjourney V7, Google выпустил Imagen 3, и это может полностью изменить расстановку сил на рынке генерации изображений. В этой статье — детальное сравнение трех главных игроков рынка, анализ их возможностей и практические рекомендации по использованию каждого инструмента. Вы узнаете, почему Google может стать но…

77
Твой первый миллион: как заработать его честно и без нервотрёпки

На одном из мастермайндов мне рассказали кейс, который запал в голову. История про парня, который чуть не утонул в кризисе, но вместо этого вырулил так, что теперь его бизнес приносит миллионы. И не потому что он гений или крутой стратег — просто в нужный момент он сделал правильный шаг.

Твой первый миллион: как заработать его честно и без нервотрёпки
Китайский DeepSeek представил модели Janus Pro для генерации картинок

По словам стартапа, в двух тестах Janus-Pro-7B превосходит Stable Diffusion 3 Medium и DALL-E 3 от OpenAI.

Сравнение результатов Janus и Janus-Pro-7B. Источник: DeepSeek
3232
88
33
22
11
Ребята решили просто уничтожить кое-кого и заодно обвалить свои серваки (-: Но и молодцы, давайте! К утру должна быть новость о запуске опенсорсного Скайнет 😁
Le Chat: что умеет бесплатный чат-бот от Mistral AI

Пробуем раскрыть преступление с помощью нейросети.

Le Chat: что умеет бесплатный чат-бот от Mistral AI
66
55
22
22
реклама
разместить
Дайджест нейроновостей за февраль
Дайджест нейроновостей за февраль
33
22
ТОП-15 лучших нейросетей для создания изображений в 2025 году

Нейросети для генерации растровых изображений

11
4 лучших инструмента для генерации фотореалистичных изображений: Midjourney, Stable Diffusion, DALL·E и Leonardo
4 лучших инструмента для генерации фотореалистичных изображений: Midjourney, Stable Diffusion, DALL·E и Leonardo
11
[]