7 способов прокачать зрение вашего ChatGPT. Функция Vision

7 способов прокачать зрение вашего ChatGPT. Функция Vision

Относительно новая фишка ChatGPT - компьютерное зрение Vision. Анализирует картинки и фото. Распознаёт всё: от объектов до лиц и текста. После запуска - ажиотаж и восторги. Однако, далеко не все реально вникли, сколько вариантов применения на практике этой функции существует.

Давайте разберёмся. Как использовать в работе и жизни? Видит многое. Подскажет ещё больше. Главное - правильно ставить задачи и не лениться экспериментировать.

Помощь с домашним заданием

Функция Vision в ChatGPT может оказать неоценимую помощь школьникам и студентам. Достаточно сфотографировать задачу из учебника, не набирая вручную текст и сложные формулы - искусственный интеллект распознает текст, поймёт суть задания и пришлёт подробное пошаговое решение с комментариями. Годится далеко не только для решения математических задачек.

Создание кулинарных рецептов

Загрузив фотографию ингредиентов, которые есть на вашей кухне, вы можете получить актуальные рецепты блюд от ChatGPT с учетом ваших пожеланий. И наоборот - сфотографировав уже приготовленное блюдо – в гостях или в ресторане, вы можете запросить у ИИ его рецепт и получить варианты приготовления. Кстати, если вам важно придерживаться определённой диеты и нет возможности узнать, что входит в состав понравившейся еды, функция Vision иногда способна выручить.

Анализ дизайна продукции

Представим ситуацию: вы разрабатываете новый продукт и хотите оценить, насколько удачным получился его дизайн, прежде чем запускать в производство. Для этого можно воспользоваться функцией Vision в ChatGPT.

Прикрепите фотографию продукта или его упаковки и попросите чат-бот проанализировать цветовую гамму, шрифты, композицию. В ответ вы получите развёрнутое экспертное заключение с конкретными рекомендациями - какие элементы стоит доработать для повышения эффективности. Фактически, у вас есть шанс получить профессиональную консультацию не только дизайнера, но и маркетолога, главное – указать в запросе – что вас интересует – релевантность изображения потребительской аудитории, привлекательность и т.д.

Аналогичным образом можно оценить буклет, логотип, дизайн сайта или приложения, обложку электронной книги – все, что вызывает ваши сомнения, требует экспертной оценки и можно сфотографировать или отсканировать.

Более полное представление о возможностях нейросетей и ChatGPT, в частности, можно получить буквально за 3 урока на бесплатном курсе «Нейросети. Быстрый старт». Автор курса – нейропродюсер Павел Лебедев составлял уроки таким образом, чтобы любой человек, даже нулевым уровнем знаний в области ИИ, смог начать работу с сервисами на ИИ легко и успешно.

Получение справки

Если вы столкнулись с незнакомым вам объектом, будь то архитектурный объект, картина известного художника, незнакомое растение или животное, предмет, назначение которого вам непонятно, самый быстрый способ понять, с чем вы имеете дело – сфотографировать и отправить в ChatGPT. В запросе важно указать, что конкретно вы хотите узнать о том, что изображено на вашем снимке и в каком объеме.

Подсказки художнику

Представим, что вам нужно нарисовать вид горного озера в определенном ракурсе при конкретном освещении. Но возникли трудности с передачей перспективы, игры света на воде, цветовых оттенков.

Чтобы решить эту проблему, можно загрузить в ChatGPT фотографию нужного пейзажа и попросить проанализировать особенности его композиции. А также дать подробные комментарии о том, как лучше передать глубину, контрастность, оттенки цвета на картине. Дополнительно можно прикрепить фото своего наброска, чтобы получить конкретные рекомендации по доработке отдельных деталей.

Анализ сложной инфографики

Вам нужно разобраться в многостраничном аналитическом отчёте с большим объёмом запутанных диаграмм и графиков. Вы сканируете все визуальные материалы и загружаете в Vision ChatGPT с просьбой интерпретировать данные. Бот анализирует все визуальные данные, структурирует их и предоставляет понятные текстовые объяснения содержания каждого графика, диаграммы и таблицы.

Вдохновение для создания изображений

Допустим, вы дизайнер иллюстратор. Нейроиллюстратор! И находите картинку, которая вас вдохновляет. Есть несколько способов… ну. Не повторить изображение, а сгенерировать аналогичное. В Midjourney есть функция describe? С помощью которой можно описать образец и получить на выбор 4 промта для генерации. Но MJ частенько глючит и ИИ выдает описание, которое мало соответствует вашей задумке.

Используйте Vision в ChatGPT, он справляется лучше! Алгоритм простой: прикрепляете изображение, просите описать его и написать для вас промт для генерации чего-то похожего в Midjourney. Конечно, можно попросить и Dall-e изобразить нужное, прямо, в рамках того же диалога, но по качеству и креативности обычно лучше получается через нейросвязку описание и промт – через ChatGPT, а генерация – в Midjourney.

Вопреки распространенному мнению

Как только Vision был представлен широкой аудитории, появилось множество публикаций о его чудесных возможностях. В них часто описывалась способность ChatGPT восстанавливать рукописный текст по фотографии или скану, даже если оригинал местами испорчен – затерт, порван и т.д.

На самом же деле русскоязычный текст ChatGPT распознает очень плохо, делать ставку на такую возможность не стоит. Только если вы хотите от души повеселиться.

Еще одна широко разрекламированная возможность функции Vision – интерпретация медицинских анализов и рентгеновских снимков. На такое действие в сервисе стоят сильные ограничения. ИИ всячески пытается уберечь предприимчивых и технически продвинутых граждан без медицинского образования от самолечения. Поэтому прочесть результаты анализов и снимки сервис может, но при попытке выпросить их интерпретацию ведет себя как партизан на допросе, отправляя пользователей к людям в белых халатах.

Еще одна возможность – распознавание лиц реальных людей. Казалось бы, уж это Vision должен уметь на все 100. И, видимо, умеет, но ни за что вам не признается, ибо обозначение личности реального человека, изображенного на фото, не соответствует правилам сохранения конфиденциальности. Даже если вы ему подсунули фото покойной английской королевы!

Как видим, возможностей применения функции компьютерного зрения в ChatGPT– предостаточно. Разумеется, тут описаны далеко не все. Продолжая экспериментировать с Vision, мы открываем новые горизонты для творчества и повышения эффективности в нашей работе и быту. А тех, кто на первых порах собственным экспериментам предпочитает готовые инструкции от опытных мастеров, приглашаем на бесплатный курс «Нейросети. Быстрый старт».

Начать дискуссию