Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах

Всем привет! Продолжим про GPT. Раньше говорили про разные сценарии и влияние промтинга на ответы. Кажется пора сравнить в лоб чистый клиент web OpenAI (далее для удобства chat gpt) и сервис MonkeyJob на базе той же технологии. Создатели сервиса делают упор на убирании «под капот» промт-инженерии и даже сделали кнопку улучшающую запросы, чтобы пользователь концентрировался на проблеме которую решает, а не на том как же нужно структурировать ответ и т.д. В статье мы узнаем а есть ли в этом практическая польза и как запросы влияют на качества ответа одной и той же GPT

Какие кейсы сегодня будем рассматривать:

Анализ файла с данными xlsx
Анализ A/B теста лендинга по данным скриншотов
Поиск данных в интернете
Консультация по разработке для телеграмм
Обработка запроса на менторство и подготовка опросника
Консультироваться по ссылке и генерировать примеры
Рецензия на статью по ссылке

Условия сравнения:

Все сравнения будут с одинаковым исходным запросом.
Оба сервиса отвечают на базе Chat GPT-4o
Для сравнения качества ответов сервиса будут применяться штатные решения и для MonkeyJob это кнопка улучшения запросов.
MonkeyJob ответы в среднем на секунд 20-30 дольше, что кажется не критичным.
Будем отправлять1 запрос и смотреть ответ на этот запрос, там где будут отправлены дополнительные вопросы это будет явно указано
По итогам сравнения будут выдаваться баллы и chat GPT и Monkey Job

Дисклеймер - Выводы и баллы будут субъективны.

Давайте же посмотрим на примерах стоит ли того доп ожидание ответов от Monkey Job или нет.

Исходные данные – xlsx файл с результатами обзвона, который мы использовали ранее.

Проанализируй файл с обзвоном покупателей уцененных товаров на маркетплейсе , найди сегменты покупателей а так же найди инсайты для роста бизнеса продажи уцененных товаров сторонних продавцов на маркетплейсе
Изначальный запрос

видимо в заголовке навыка что не может считать данные

Как видим, он не справился с чтением файла, давайте попробуем еще раз:

И опять не смог считать файл с сложными заголовками

Для начала используем улучшение запроса

Как видимо добавилось некоторое количество деталей и сама структура запроса

Далее запустим обработку

Увидели определенные паттерны в комментариях

Как видим, Monkey Job как минимум справился)) При этом ответы достаточно качественные и практичные, более того они в частично попадают в то, что в итоге было сделано(работа с описаниями и фото, про цену как основную причину покупки и т.д) .

Баллы

Chat gpt 0 баллов, Monkey Job 1,5 балла (за решение в целом + за качество ответа).

Исходные данные – скриншоты из яндекс метрики с результатами АБ эксперимента.

на лендинге запущен аб тест, в контрольном варианте 1я страница преимущества сервиса, кнопка попробовать бесплатно, далее примеры работы сервиса и еще одна кнопка попробовать, в варианте 1 - проверяем гипотезу что пользователи будут больше читать текст на лендинге перед авторизацией - убираем кнопку попробовать в 1-м блоке и оставляем под скриншотами работы сервиса ниже. При этом на 1-м листе в шапке есть кнопка войти которая так же позволяет авторизоваться как и кнопка попробовать бесплатно. На приложенных скринах результаты промежуточные по 3-м метрикам (время на сайте, клик на кнопку попробовать и авторизации) сделай предварительные выводы
Изначальный запрос

Корректно распознались данные из скриншота и сразу выводы по метрикам

Так же корректно считало данные. При этом визуализация таблицами даже удобнее

Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах

Оба сервиса корректно считали данные из скриншотов и оба сделали схожие выводы, отличающиеся по рекомендациям но не критично. Добавим контекста

«Давайте учтем, что на лендинг может приходить не вовлеченная аудитория, которая кликает 'попробовать', видит авторизацию и уходит. Цель эксперимента была увеличить вовлеченность пользователей, особенно тех, кто заинтересован в продукте. Можем ли мы пересмотреть данные и предложить изменения, которые помогут удержать таких пользователей?»
Новый запрос

Пересматривает выводы с учетом нового контекста

Итоговые выводы с учетом нового контекста

Предварительно улучшим запрос, как видим он переструктурировался

Новые выводы по 3-м метрикам и начало рекомендаций

Вот теперь ответы достаточно существенно отличаются

Ответы базового chatgpt достаточно общие, а вот Monkey Job сделал более полезные для практики выводы и дал более конкретные рекомендации. Так же тут мы видим насколько важно давать контекст для GPT, и то что нам в голове кажется «естественным» нужно не забывать передавать модели, для лучших и полезных ответов.

Тут отдадим chat gpt 0,5 балла за 1-й ответ и 0.25 за второй ответ и 1 балл отдадим Monkey Job за оба ответа.

Исходные данные – запрос на поиск средней зп по профессии

Окей давай тогда найдем в публичном доступе информацию о средних уровнях зарплат в России у менеджеров проектов и менеджеров продуктов в 2024 году
Изначальный запрос

Достаточно быстро получили цифры и ссылки на источники, хотя они и кажутся несколько ниже чем в реальности

Но если перейти по ссылке то источник супер релевантный

Для приведения к виду с цифрами, необходим был дополнительный запрос

Ответы базового chat gpt кажется лучше– он сразу предоставил источники данных и уровень зп, но, если открыть ссылку от Monkey Job то ссылки (особенно на гетматч) более релевантны. Для такого же вида ответа понадобился еще 1 запрос.

Тут отдадим chat gpt 1 за скорость и формат ответа. Снизим 0.25 за то что понадобилось 2 ответа, но добавим это же за качество источников - итого 1 балл отдадим Monkey Job.

Исходные данные – нужно уточнить варианты как можно из веб сервиса перекидывать сообщения в телеграмм

Если пользователь в сервисе указывает свой тг, можно ли каким то образом реализовать отправку сообщения пользователя из сервиса в его телеграмм, предложи разные варианты, желательно способ реализации когда вызывается тг клиент пользователя и он отправляет себе в избранное»
Изначальный запрос

Первым делом опять попробуем улучшить запрос

как видим запрос заузился и пропало про разные способы

Тут сервис выбрал основной сценарий - через бота

Описал подробно и даже выдал ссылки на документацию

Ответы базового chatgpt разнообразнее – он сразу предоставил несколько вариантов, а вот Monkey Job улучшил запрос до решения задачи убрав многообразие, но при этом проработанность решения выше и есть ссылка на документацию.

Тут отдадим chat gpt 1 балл и 0.75 балла отдадим Monkey Job(чуть снизим за разнообразие, но добавим за качество ответа).

Исходные данные – входящее сообщение с тг, запросом на консультацию, надо составить опросник, чтобы лучше понять ситуацию

для ментора проджект менеджеров пришел запрос "Запрос: Добрый день Недавно внедрила в бизнес процессы проджект менеджера, хочу, чтобы с ним поработали, оцифровать его процессы, убедиться, что функционал реально улучшает работу в компании и ускоряет получение результата" нужно составить список вопросов для обучающегося, чтобы получить более полное описание кейса и решаемую задачу
Изначальный запрос

Улучшение запросов не использовалось для того, чтобы не искажать запрос клиента

Ответы базового chat gpt более общие и за счет этого под задачу подходят даже лучше. Ответ Monkey Job более специализированные, но на таком этапе их адаптация под запрос займет чуть больше времени.

Тут отдадим chat gpt 1 и 0.75 балла отдадим Monkey Job за излишнюю детализацию для конкретной задачи

Исходные данные – запрос на объяснение механики дарения от юр лица физическому лицу с примерами

https://delo-press.ru/faq/law/43682-kakie-nalogovye-posledstviya-vozniknut-u-kommercheskoy-organizatsii-kotoraya-darit-podarki-stoimostyu/#:~:text=%D0%A1%D0%BE%D0%B3%D0%BB%D0%B0%D1%81%D0%BD%D0%BE%20%D0%BF%D0%BE%D0%B4%D0%BF.,%D0%BA%D0%BE%D1%82%D0%BE%D1%80%D1%8B%D1%85%20%D0%BD%D0%B5%20%D0%BF%D1%80%D0%B5%D0%B2%D1%8B%D1%88%D0%B0%D0%B5%D1%82%203000%20%D1%80%D1%83%D0%B1. на основании этой статьи опиши все ограничения на дарение от юридического лица физическому, приведи примеры
Изначальный запрос

Указан пример, но не указаны ограничения в виде налогового периода и т.д.

сначала улучшим запрос

поймем что у нас есть последствия и ограничения

Указаны пункты законодательства где можно проверить и ряд ограничений

Указано как работает вычет НДС при дарении

Ответы базового chat gpt короткий, правильный но содержит слишком мало деталей, при этом ответ не с первого, а вот Monkey Job ответ более развернутый -указаны статьи, где можно посмотреть самостоятельно, ряд ограничений для работы с дарением.

Тут отдадим chat gpt 0.5 (минус за ответ не с первого раза и слишком поверхностный ответ) и 1.5 балла отдадим Monkey Job(за более развернутый ответ и источники)

Исходные данные – ссылка на мою предыдущую статью и предложение написать рецензию на пост

напиши рецензию поста https://vc.ru/chatgpt/1234464-klassy-zadach-kotorye-mozhno-reshat-s-gpt-i-effekt-ot-ekonomii-vremeni-na-lichnom-opyte-chast-2-longrid
Изначальный запрос

Тут мы видим краткий <b>пересказ</b> статьи вместо рецензии

Опять жмем кнопку улучшения запроса, в нем появилось про экономию времени и пользу

Так же получаем пересказ статьи, но более детальный

И наконец получаем заключение от ассистента, так же за счет развернутого ответа, есть за что зацепиться и уйти в обсуждение деталей

Как видим, Monkey Job дал развернутый ответ, который может принести практическую пользу, у chat gpt краткий пересказ вместо рецензии и ответ почти не несет практической ценности.

Chat gpt 0.25 балла (снизим за то что решена не та задача + за краткость ответа), Monkey Job 1 балл .

Итоговая таблица по всем примерам, преимущество явно у Monkey Job кроме коротких сценариев

Web интерфейс OpenAI дает ответы немного быстрее, чем Monkey Job и лучше подходит для простых и коротких сценариев.
Ответы Monkey Job более детальны и поэтому имеют больше практической ценности
Сервис Monkey Job лучше решает задачи, связанные с работой с таблицами и ссылками.
сервис Monkey Job дает пользователям возможность улучшать запросы и давать больше контекста для еще более качественного решения задачи.

Заключение

Примеры наглядно показывают влияние качества запросов и количества контекста решаемой задачи на ответы на базе одной технологии.

При этом в случае с сервисом Monkey Job не нужно дополнительных усилий для увеличения качества ответов - часть механик уже есть в сервисе "по-умолчанию", а так же кнопка улучшения запросов, в большинстве случаев, помогает найти недостающие детали для запроса, что в конечном итоге приводит к более качественным ответам за то же самое время и позволяет экономить еще больше времени, за счет глубины решения задач и количества покрываемых сценариев.

Поэтому я для себя и выбрал Monkey Job в качестве основного GPT инструмента.

Напишите пожалуйста в комментариях чем пользуетесь вы, удивлены ли влиянием запросов на качество ответов ?

Влияние промтов на ответы. MonkeyJob vs Web OpenAi, сравнения ответов на кейсах

Список кейсов и условия сравнения

Пример 1: Анализ данных

Ответы chat gpt

Ответы Monkey Job

Вывод

Пример 2: Анализ A/B теста

Ответы chat gpt

Ответы Monkey Job

Промежуточные выводы и новые вводные

Ответы chat gpt

Ответы Monkey Job

Вывод

Баллы

Пример 3: Поиск по интернету

Ответы chat gpt

Ответы Monkey Job

Вывод

Баллы

Пример 4: Консультация по разработке

Ответы chat gpt

Ответы Monkey Job

Вывод

Баллы

Пример 5: Входящий запрос на менторство и подготовка опросника

Ответы chat gpt

Ответы Monkey Job

Вывод

Баллы

Пример 6: Работа со ссылкой + консультация

Ответы chat gpt

Ответы Monkey Job

Вывод:

Баллы

Пример 7: Рецензия статьи

Ответы chat gpt

Ответы Monkey Job

Вывод

Баллы

Итоговая таблица баллов

Общие Выводы