Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах

Всем привет! Продолжим про GPT. Раньше говорили про разные сценарии и влияние промтинга на ответы. Кажется пора сравнить в лоб чистый клиент web OpenAI (далее для удобства chat gpt) и сервис MonkeyJob на базе той же технологии. Создатели сервиса делают упор на убирании «под капот» промт-инженерии и даже сделали кнопку улучшающую запросы, чтобы пользователь концентрировался на проблеме которую решает, а не на том как же нужно структурировать ответ и т.д. В статье мы узнаем а есть ли в этом практическая польза и как запросы влияют на качества ответа одной и той же GPT

Список кейсов и условия сравнения

Какие кейсы сегодня будем рассматривать:

  • Анализ файла с данными xlsx
  • Анализ A/B теста лендинга по данным скриншотов
  • Поиск данных в интернете
  • Консультация по разработке для телеграмм
  • Обработка запроса на менторство и подготовка опросника
  • Консультироваться по ссылке и генерировать примеры
  • Рецензия на статью по ссылке

Условия сравнения:

  • Все сравнения будут с одинаковым исходным запросом.
  • Оба сервиса отвечают на базе Chat GPT-4o
  • Для сравнения качества ответов сервиса будут применяться штатные решения и для MonkeyJob это кнопка улучшения запросов.
  • MonkeyJob ответы в среднем на секунд 20-30 дольше, что кажется не критичным.
  • Будем отправлять1 запрос и смотреть ответ на этот запрос, там где будут отправлены дополнительные вопросы это будет явно указано
  • По итогам сравнения будут выдаваться баллы и chat GPT и Monkey Job

Дисклеймер - Выводы и баллы будут субъективны.

Давайте же посмотрим на примерах стоит ли того доп ожидание ответов от Monkey Job или нет.

Пример 1: Анализ данных

Исходные данные – xlsx файл с результатами обзвона, который мы использовали ранее.

Проанализируй файл с обзвоном покупателей уцененных товаров на маркетплейсе , найди сегменты покупателей а так же найди инсайты для роста бизнеса продажи уцененных товаров сторонних продавцов на маркетплейсе
Изначальный запрос

Ответы chat gpt

загружаем файл, пытается считать данные
загружаем файл, пытается считать данные
получаем заголовки
получаем заголовки
видимо в заголовке навыка что не может считать данные
видимо в заголовке навыка что не может считать данные

Как видим, он не справился с чтением файла, давайте попробуем еще раз:

пробует еще раз
пробует еще раз
И опять не смог считать файл с сложными заголовками
И опять не смог считать файл с сложными заголовками

Ответы Monkey Job

Для начала используем улучшение запроса

Как видимо добавилось некоторое количество деталей и сама структура запроса
Как видимо добавилось некоторое количество деталей и сама структура запроса

Далее запустим обработку

как видим файл считался успешно
как видим файл считался успешно
Посчитали первые данные
Посчитали первые данные
Увидели определенные паттерны в комментариях
Увидели определенные паттерны в комментариях
Получили инсайты
Получили инсайты

Вывод

Как видим, Monkey Job как минимум справился)) При этом ответы достаточно качественные и практичные, более того они в частично попадают в то, что в итоге было сделано(работа с описаниями и фото, про цену как основную причину покупки и т.д) .

Баллы

Chat gpt 0 баллов, Monkey Job 1,5 балла (за решение в целом + за качество ответа).

Пример 2: Анализ A/B теста

Исходные данные – скриншоты из яндекс метрики с результатами АБ эксперимента.

скриншот 1
скриншот 1
скриншот 2 
скриншот 2 
скриншот 3
скриншот 3
на лендинге запущен аб тест, в контрольном варианте 1я страница преимущества сервиса, кнопка попробовать бесплатно, далее примеры работы сервиса и еще одна кнопка попробовать, в варианте 1 - проверяем гипотезу что пользователи будут больше читать текст на лендинге перед авторизацией - убираем кнопку попробовать в 1-м блоке и оставляем под скриншотами работы сервиса ниже. При этом на 1-м листе в шапке есть кнопка войти которая так же позволяет авторизоваться как и кнопка попробовать бесплатно. На приложенных скринах результаты промежуточные по 3-м метрикам (время на сайте, клик на кнопку попробовать и авторизации) сделай предварительные выводы
Изначальный запрос

Ответы chat gpt

Корректно распознались данные из скриншота и сразу выводы по метрикам
Корректно распознались данные из скриншота и сразу выводы по метрикам
остальные 2 метрики и выводы
остальные 2 метрики и выводы
Общий вывод и рекомендации
Общий вывод и рекомендации

Ответы Monkey Job

Так же корректно считало данные. При этом визуализация таблицами даже удобнее
Так же корректно считало данные. При этом визуализация таблицами даже удобнее
Так же делает первые выводы 
Так же делает первые выводы 
Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах

Промежуточные выводы и новые вводные

Оба сервиса корректно считали данные из скриншотов и оба сделали схожие выводы, отличающиеся по рекомендациям но не критично. Добавим контекста

«Давайте учтем, что на лендинг может приходить не вовлеченная аудитория, которая кликает 'попробовать', видит авторизацию и уходит. Цель эксперимента была увеличить вовлеченность пользователей, особенно тех, кто заинтересован в продукте. Можем ли мы пересмотреть данные и предложить изменения, которые помогут удержать таких пользователей?»
Новый запрос

Ответы chat gpt

Пересматривает выводы с учетом нового контекста
Пересматривает выводы с учетом нового контекста
Так же пересматривает и новые метрики
Так же пересматривает и новые метрики
Итоговые выводы с учетом нового контекста
Итоговые выводы с учетом нового контекста

Ответы Monkey Job

Предварительно улучшим запрос, как видим он переструктурировался
Предварительно улучшим запрос, как видим он переструктурировался
показывает еще раз данные
показывает еще раз данные
Новые выводы по 3-м метрикам и начало рекомендаций
Новые выводы по 3-м метрикам и начало рекомендаций
Вот теперь ответы достаточно существенно отличаются
Вот теперь ответы достаточно существенно отличаются

Вывод

Ответы базового chatgpt достаточно общие, а вот Monkey Job сделал более полезные для практики выводы и дал более конкретные рекомендации. Так же тут мы видим насколько важно давать контекст для GPT, и то что нам в голове кажется «естественным» нужно не забывать передавать модели, для лучших и полезных ответов.

Баллы

Тут отдадим chat gpt 0,5 балла за 1-й ответ и 0.25 за второй ответ и 1 балл отдадим Monkey Job за оба ответа.

Пример 3: Поиск по интернету

Исходные данные – запрос на поиск средней зп по профессии

Окей давай тогда найдем в публичном доступе информацию о средних уровнях зарплат в России у менеджеров проектов и менеджеров продуктов в 2024 году
Изначальный запрос

Ответы chat gpt

Достаточно быстро получили цифры и ссылки на источники, хотя они и кажутся несколько ниже чем в реальности
Достаточно быстро получили цифры и ссылки на источники, хотя они и кажутся несколько ниже чем в реальности

Ответы Monkey Job

Кажется что тут нет цифр
Кажется что тут нет цифр
Но если перейти по ссылке то источник супер релевантный
Но если перейти по ссылке то источник супер релевантный
Для приведения к виду с цифрами, необходим был дополнительный запрос
Для приведения к виду с цифрами, необходим был дополнительный запрос

Вывод

Ответы базового chat gpt кажется лучше– он сразу предоставил источники данных и уровень зп, но, если открыть ссылку от Monkey Job то ссылки (особенно на гетматч) более релевантны. Для такого же вида ответа понадобился еще 1 запрос.

Баллы

Тут отдадим chat gpt 1 за скорость и формат ответа. Снизим 0.25 за то что понадобилось 2 ответа, но добавим это же за качество источников - итого 1 балл отдадим Monkey Job.

Пример 4: Консультация по разработке

Исходные данные – нужно уточнить варианты как можно из веб сервиса перекидывать сообщения в телеграмм

Если пользователь в сервисе указывает свой тг, можно ли каким то образом реализовать отправку сообщения пользователя из сервиса в его телеграмм, предложи разные варианты, желательно способ реализации когда вызывается тг клиент пользователя и он отправляет себе в избранное»
Изначальный запрос

Ответы chat gpt

1й пример
1й пример
2 оставшихся примера
2 оставшихся примера

Ответы Monkey Job

Первым делом опять попробуем улучшить запрос

как видим запрос заузился и пропало про разные способы
как видим запрос заузился и пропало про разные способы
Тут сервис выбрал основной сценарий - через бота 
Тут сервис выбрал основной сценарий - через бота 
Описал подробно и даже выдал ссылки на документацию
Описал подробно и даже выдал ссылки на документацию

Вывод

Ответы базового chatgpt разнообразнее – он сразу предоставил несколько вариантов, а вот Monkey Job улучшил запрос до решения задачи убрав многообразие, но при этом проработанность решения выше и есть ссылка на документацию.

Баллы

Тут отдадим chat gpt 1 балл и 0.75 балла отдадим Monkey Job(чуть снизим за разнообразие, но добавим за качество ответа).

Пример 5: Входящий запрос на менторство и подготовка опросника

Исходные данные – входящее сообщение с тг, запросом на консультацию, надо составить опросник, чтобы лучше понять ситуацию

для ментора проджект менеджеров пришел запрос "Запрос: Добрый день Недавно внедрила в бизнес процессы проджект менеджера, хочу, чтобы с ним поработали, оцифровать его процессы, убедиться, что функционал реально улучшает работу в компании и ускоряет получение результата" нужно составить список вопросов для обучающегося, чтобы получить более полное описание кейса и решаемую задачу
Изначальный запрос

Ответы chat gpt

Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах
Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах
Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах
Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах

Ответы Monkey Job

Улучшение запросов не использовалось для того, чтобы не искажать запрос клиента

Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах
Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах

Вывод

Ответы базового chat gpt более общие и за счет этого под задачу подходят даже лучше. Ответ Monkey Job более специализированные, но на таком этапе их адаптация под запрос займет чуть больше времени.

Баллы

Тут отдадим chat gpt 1 и 0.75 балла отдадим Monkey Job за излишнюю детализацию для конкретной задачи

Пример 6: Работа со ссылкой + консультация

Исходные данные – запрос на объяснение механики дарения от юр лица физическому лицу с примерами

https://delo-press.ru/faq/law/43682-kakie-nalogovye-posledstviya-vozniknut-u-kommercheskoy-organizatsii-kotoraya-darit-podarki-stoimostyu/#:~:text=%D0%A1%D0%BE%D0%B3%D0%BB%D0%B0%D1%81%D0%BD%D0%BE%20%D0%BF%D0%BE%D0%B4%D0%BF.,%D0%BA%D0%BE%D1%82%D0%BE%D1%80%D1%8B%D1%85%20%D0%BD%D0%B5%20%D0%BF%D1%80%D0%B5%D0%B2%D1%8B%D1%88%D0%B0%D0%B5%D1%82%203000%20%D1%80%D1%83%D0%B1. на основании этой статьи опиши все ограничения на дарение от юридического лица физическому, приведи примеры
Изначальный запрос

Ответы chat gpt

с первого раза chat GPT не справился
с первого раза chat GPT не справился
Указан пример, но не указаны ограничения в виде налогового периода и т.д.
Указан пример, но не указаны ограничения в виде налогового периода и т.д.

Ответы Monkey Job

сначала улучшим запрос

поймем что у нас есть последствия и ограничения
поймем что у нас есть последствия и ограничения
Указаны пункты законодательства где можно проверить и ряд ограничений
Указаны пункты законодательства где можно проверить и ряд ограничений
Указано как работает вычет НДС при дарении
Указано как работает вычет НДС при дарении
Указаны штрафы 
Указаны штрафы 

Вывод:

Ответы базового chat gpt короткий, правильный но содержит слишком мало деталей, при этом ответ не с первого, а вот Monkey Job ответ более развернутый -указаны статьи, где можно посмотреть самостоятельно, ряд ограничений для работы с дарением.

Баллы

Тут отдадим chat gpt 0.5 (минус за ответ не с первого раза и слишком поверхностный ответ) и 1.5 балла отдадим Monkey Job(за более развернутый ответ и источники)

Пример 7: Рецензия статьи

Исходные данные – ссылка на мою предыдущую статью и предложение написать рецензию на пост

напиши рецензию поста https://vc.ru/chatgpt/1234464-klassy-zadach-kotorye-mozhno-reshat-s-gpt-i-effekt-ot-ekonomii-vremeni-na-lichnom-opyte-chast-2-longrid
Изначальный запрос

Ответы chat gpt

Тут мы видим краткий <b>пересказ</b> статьи  вместо рецензии
Тут мы видим краткий пересказ статьи  вместо рецензии

Ответы Monkey Job

Опять жмем кнопку улучшения запроса, в нем появилось про экономию времени и пользу
Опять жмем кнопку улучшения запроса, в нем появилось про экономию времени и пользу
Так же получаем пересказ статьи, но более детальный
Так же получаем пересказ статьи, но более детальный
И наконец получаем заключение от ассистента, так же за счет развернутого ответа, есть за что зацепиться и уйти в обсуждение деталей 
И наконец получаем заключение от ассистента, так же за счет развернутого ответа, есть за что зацепиться и уйти в обсуждение деталей 

Вывод

Как видим, Monkey Job дал развернутый ответ, который может принести практическую пользу, у chat gpt краткий пересказ вместо рецензии и ответ почти не несет практической ценности.

Баллы

Chat gpt 0.25 балла (снизим за то что решена не та задача + за краткость ответа), Monkey Job 1 балл .

Итоговая таблица баллов

Итоговая таблица по всем примерам, преимущество явно у Monkey Job кроме коротких сценариев
Итоговая таблица по всем примерам, преимущество явно у Monkey Job кроме коротких сценариев

Общие Выводы

  • Web интерфейс OpenAI дает ответы немного быстрее, чем Monkey Job и лучше подходит для простых и коротких сценариев.
  • Ответы Monkey Job более детальны и поэтому имеют больше практической ценности
  • Сервис Monkey Job лучше решает задачи, связанные с работой с таблицами и ссылками.
  • сервис Monkey Job дает пользователям возможность улучшать запросы и давать больше контекста для еще более качественного решения задачи.

Заключение

Примеры наглядно показывают влияние качества запросов и количества контекста решаемой задачи на ответы на базе одной технологии.

При этом в случае с сервисом Monkey Job не нужно дополнительных усилий для увеличения качества ответов - часть механик уже есть в сервисе "по-умолчанию", а так же кнопка улучшения запросов, в большинстве случаев, помогает найти недостающие детали для запроса, что в конечном итоге приводит к более качественным ответам за то же самое время и позволяет экономить еще больше времени, за счет глубины решения задач и количества покрываемых сценариев.

Поэтому я для себя и выбрал Monkey Job в качестве основного GPT инструмента.

Напишите пожалуйста в комментариях чем пользуетесь вы, удивлены ли влиянием запросов на качество ответов ?

99
Начать дискуссию