Какой номер у парковки?

Внимательно посмотрите на картинку и дайте ответ. А что ответил искусственный интеллект – читайте в этой статье.

Я в своей работе (решение производственных и конструкторских проблем) использую следующие нейросети: DeepSeek, Qwen, Perplexity и иногда GigaChat. Все они доступные в России без впн и какой-то сложной регистрации. Да почти все бесплатные! Только у Perplexity расширенный функционал за доллары. Но и бесплатного – вполне достаточно.

Что это за нейронки и как их подключить – не буду повторяться, есть в других моих статьях.

Начал я с этого искусственного интеллекта. Загрузил файл с картинкой. И как остальным нейросетям, я задал достаточно простой промт:

Изучи изображение и дай ответ на вопрос, который есть на этом изображении.

Такое ощущение, что Perplexity повела себя как балагур-подчинённый, к которому неожиданно подошёл начальник и что-то спросил. Но как соображающий балагур: ответ был выдан быстро. Очень короткий, с похожими на логические связи цепочки рассуждений. Но неправильный. Почему-то нейросеть посчитала, что автомобиль занял место 88.

Пришлось указать на ошибку:

И правильный ответ не заставил себя долго ждать!

Попытался сбить нейронку с толку – мол, и сейчас ошиблась – не помогло. Хотя, бывает, что мнение своё меняет.

У Qwen относительно недавно появилась функция анализа изображений по частям. И, такое ощущение, что этот китаец хвалится этой функцией. Иногда действительно можно увидеть что-то новое для себя в таких анализируемых картинках. Но не в этот раз.

Рисунок 2 - Фрагмент, анализируемый нейросетью Qwen

Эта нейросеть обстоятельно расписала каждый шаг своего анализа этой задачи. И как она увеличивала каждый фрагмент картинки, и что она видела…

Исписала два экрана текстом и дала правильный ответ.

Неожиданно. Осенью прошлого года разработчики заявили, что DeepSeek теперь умеет анализировать изображения. Пару раз я закидывал картинки, но анализ был достаточно поверхностный – узнавала только крупные детали. А под Новый год вообще эту функцию отключили. Либо картинка не грузилась, либо сразу появлялось сообщение, что данный тип файла прочитать не может. А тут неожиданно прочитала и дала правильный ответ!

Разработка Сбера. Держу её в поле зрения, так как случись что и остались мы без зарубежных разработок. ChatGPT – на территории России не доступен вообще (только с магией). Perplexity (разработка США) – расширенную версию обычным способом не купить на российскую карточку. Но с этими всё ясно. Но некоторые китайские нейронки – тоже ограниченно доступны! Например, китайский Klign при помощи которого делают картинки и видео, нельзя оплатить российской картой. Так что, надо страховаться.

Так вот, GigaChat. Недавно приятно обновился – работают. Вроде как добавили Кандинского (тоже разработка Сбера), но мне не понравилось то, что многие функции (особенно дорисовки) исчезли!

И, к сожалению, хоть интерфейс и стал приятнее и понятнее, но ума не особо прибавилось.

На мой промт: «Изучи изображение и дай ответ на вопрос, который есть на этом изображении», я получил быстрый, но не верный ответ – 88.

Ну ладно. Было такое. Указываю на ошибку, прошу лучше подумать. Результат – признал, что ошибся и 96.

По его логике, между местами 88 и 98 автомобиль занял именно девяносто шестое место!

Ну почему?! Почему из 9 номеров выбран именно этот?!

«Вы правы. Ответ – 94»

Говорят, что грубое обращение с нейронками помогает повысить точность ответа. Похоже, это не этот случай.

А потом были дважды вариант «88» и вариант «86». И я сдался…

Современные нейросети дают возможность общаться с ними не только при помощи текста, но и при помощи картинок. Картинки, кстати, могут нести больше информации, чем способен человек описать словами. Часто человек может и не видеть, что есть на картинке: «смотрит, но не видит».

А нейросеть может увидеть. Как, например, другой человек (которого рядом может и не оказаться, а нейросеть всегда в телефоне). И у меня вопрос, а что может увидеть та или иная нейросеть и как она мне может помочь в решении производственных и конструкторских проблем? Как с ней более эффективно общаться при помощи изображений?

Представляете: фотографируете нужным образом процесс или узел, задаёте правильный промт и за пять минут получаете способы решения проблемы! Красота!

Кто ещё не сообразил, попробуйте посмотреть на парковку с другой стороны. А я пока покажу итоговую таблицу моего эксперимента.

Таблица 1 - Итоги тестирования нейросетей

Для тех, кто поленился подумать над задачкой у меня две новости.

Первая новость. Задачка относительно простая. Уровня начальной школы. Если и дальше так пойдёт, можете остаться без работы. Ну или вы немного отдохнули и с пользой – узнали про нейронки. 😊

Вторая новость. Правильный ответ 87. Вы сейчас смотрите на картинку и читаете цифры слева на право. Взгляд на парковку как бы сверху от бордюра. Если посмотреть на парковку сверху и со стороны дороги, то цифры надо будет читать справа на лево и их надо будет перевернуть: 86, ??, 88, 89…

Чаще я пишу в Телеграм и Вконтакте (это каналы-дублёры). Если интересна тема нейросетей в решении проблем производства и конструировании – подписывайтесь. Кстати, скоро я там выложу бесплатный гайд, как можно при помощи Qwen редактировать картинки для рабочих презентаций.

Какие нейронки использовал

Perplexity

Qwen

DeepSeek

GigaChat

Почему это важно

Заключение