21 мар в 09:30 21 мар

Исследование пользователей совместно с ChatGPT: как получить хороший результат

Любое решение в Lamoda Tech мы подтверждаем мнением людей и часто общаемся с пользователями. Миша Яковенко, руководитель команды исследований в Lamoda Tech, попробовал провести исследование по фреймворку Jobs To Be Done с помощью ChatGPT. Вывод: не все получилось с первого промпта, но бот — отличный помощник в работе с глубинными интервью.

Дисклеймер

В этой статье не будет четкой инструкции, как сделать идеальное исследование силами ChatGPT4. Вряд ли такая инструкция вообще возможна. Я расскажу про свой опыт — местами удачный, местами не очень. Покажу, где ошибался и какие выводы сделал.

Напомню очевидное: GPT не заменяет исследователя, это лишь инструмент. Если вы плохо разбираетесь в методологии исследований, то использовать его нужно еще осторожнее и постоянно проверять. Хотя бот сокращает время работы, он не сводит ее к нулю: справиться с задачами средней и высокой сложности без помощи человека AI пока не может.

В чем поможет ChatGPT4

В моих планах было исследовать категорию «Красота» на Lamoda. Это косметика, товары для здоровья и ухода за телом. Раньше мы не уделяли этому разделу особого внимания и почти ничего не знали про поведение людей при покупке. Чтобы составить стратегию развития «Красоты», было важно исследовать пользовательский опыт.

Мы хотели провести глубинные интервью и выяснить, как люди выбирают и покупают парфюмерию, декоративную и уходовую косметику. Задачи были следующими:

Понять, какие сложности есть у пользователей в каталоге, поиске и на карточке товара.
Изучить опыт покупок.
Определить, как пользователи принимают решение перейти на карточку товара в категории «Красота».
Определить, какую информацию пользователи хотели бы видеть на карточке товара.
Сформулировать «работы» по фреймворку Jobs to be done, которые помогут лучше понять аудиторию продукта (подробнее о фреймворке можно прочитать в статье Tilda Education).

Подключать ChatGPT4 я планировал на трех этапах исследования: составлении портрета респондентов, подготовке сценария интервью и анализе его результатов. И на первом же шаге понял важный момент: даже если ты знаешь все принципы промпт-инжиниринга, этого недостаточно для решения задачи.

С ChatGPT нужно общаться, чтобы получить результат

В первую очередь мне нужно было собрать критерии выбора респондентов для исследования. То есть решить, сколько человек приглашать, сколько из них должны быть клиентами Lamoda, на какие категории и по каким признакам разбивать людей и так далее.

Первый промпт я составил по всем канонам промпт-инжиниринга:

Задал роль. Это нужно, чтобы бот действовал в рамках определенной области знаний — исследований.
Добавил контекст: сказал, что он проводит исследование по такой-то теме, прояснил цель бизнеса и цель исследования.
Сформулировал задачу. Лучше всего начинать запрос с глаголом действия: генерировать, вести, писать, анализировать и т. д. И четко формулировать конечную цель.
Показал пример. Так бот лучше понимает, чего вы от него ждете.
Объяснил формат ответа — как должен выглядеть результат. Если формат не указать, бот скопирует формат из примера.

Мой первый промпт, из которого я убрал информацию под NDA.

Я сделал все по рекомендациям. Но ChatGPT ответил очень поверхностно, а потом и вовсе отказался работать, так как информации было слишком много.

После нескольких неудачных попыток я изменил подход. Решил действовать поэтапно и не закидывать все в одно сообщение:

Сократил количество контекста. Вначале загрузил только исследовательские вопросы и попросил их запомнить.
Затем загрузил и попросил запомнить оставшуюся информацию по задаче.
После этого попросил сформулировать требования к респондентам.

В этот раз ChatGPT ответил. Но ответ все еще был неполным: например, он не указал точное количество человек для интервью, не назвал магазины, которыми они должны пользоваться.

В ход пошли уточняющие вопросы. В каждом случае я пытался вместе с ботом докопаться до истины:

В итоге я получил вполне приемлемый список критериев. И сделал первые важные выводы о работе GPT:

Не жди, что с первого же запроса получишь правильный ответ. С ботом нужно вести разговор, чтобы добиться результата. Совсем как с человеком:
– задавать уточняющие вопросы,
– спрашивать мнение,
– сомневаться в ответах.
Если материалов много, знакомь ChatGPT с ними поэтапно.
Если результат не устраивает, задавай уточняющие вопросы и делись с ботом своими сомнениями.

Проверяй работу — или пусть это делает сам ChatGPT

Работу важно проверять. Поэтому следующей задачей для ChatGPT стала проверка качества критериев.

Я попросил бот запомнить получившийся список. А после загрузил критерии, которые использовали мои коллеги из команды Custom Research для количественного исследования по этой же теме.

Попросил сравнить две выборки и сказать, какая из них лучше.

Выборку моих коллег он оценил более высоко — на 5, а свою на четверку. Я попросил объяснить, почему так. Бот подробно рассказал, в чем плюсы выборки от коллег и в чем недостатки его собственной работы.

Тогда я попросил его доработать свою выборку. И он это сделал! Конечно, без странностей не обошлось, и мы с ними немного поспорили. Но когда я обсудил результат с продактом, коллегами из коммерции и команды Custom Research, у них не было вопросов: все было отлично.

В результате я понял несколько вещей:

Обязательно проси ChatGPT оценить свою работу. Есть несколько вариантов, как это сделать. Я использовал такие:
– находил более качественный пример и просил сравнить два результата;
– давал ему роль преподавателя или эксперта в нужной теме и просил поставить оценку работе.
Если бот дает своей работе невысокую оценку, проси исправить работу и сделать ее лучше. Он хорошо с этим справляется.

Действуй поэтапно

У меня были на руках проверенные критерии для выбора респондентов. Дальше нужно было составить сценарий исследования — документ, в котором собраны гипотезы, цели и задачи исследования и исследовательские вопросы от бизнеса. На их основе мы составляем вопросы, которые будем задавать респондентам на интервью.

Я загрузил в бота все материалы: тему исследования, вопросы, гипотезы, выборку. Попросил написать сценарий исследования. Но результат был очень плох: ChatGPT предложил поверхностные вопросы, которые совсем не копали вглубь.

Кажется, я опять перегрузил бот контекстом. Поэтому пошел поэтапно:

«Запомни, что у нас есть респонденты с определенными критериями». Добавил их в разговор.
«У нас есть список исследовательских вопросов. Я пронумеровал их, загрузил, и теперь мы пойдем с тобой шаг за шагом по списку. Какие вопросы ты задашь пользователю для того, чтобы проверить первый исследовательский вопрос?»

Проходя по каждому вопросу отдельно, ChatGPT выдал неплохой результат. Я просил его больше углубиться в тему, и результат стал еще лучше.

Пример моих уточняющих вопросов и ответа бота.

То же самое я проделал с гипотезами: загружал их по одной штуке и спрашивал, как он будет проверять каждую.

После я попросил объединить все в один ответ: вопросы по гипотезам и вопросы по исследовательским вопросам. Он меня не понял и создал кашу-малашу. Поэтому я опять пошел поэтапно: загружал в него сценарий, просил его запомнить как «сценарий 1». Затем загружал «сценарий 2» и просил их объединить.

Бот справился с задачей с небольшими помарками: несколько вопросов потерял, несколько — дублировал. Я попросил исправиться. Теперь у меня на руках был хороший сценарий — и понимание еще нескольких особенностей работы с ChatGPT:

Действуй поэтапно в случаях, где контекста слишком много.
Отдавай в ChatGPT как можно больше задач. Даже объединение результатов в один ответ — это то, с чем бот может справиться, если правильно сформулировать задачу и проверить результат.

Переводи с языка GPT на человеческий

По готовому сценарию мы с коллегами провели 24 интервью. А после автоматически расшифровали аудиозаписи с помощью сервиса Riverside.

Время на редактуру я не тратил. Просто загрузил одну из расшифровок в ChatGPT и спросил про пару моментов, которые неявно упоминаются в тексте. Бот отвечал адекватно: он хорошо понимал и интерпретировал расшифровку.

Следующая задача — обработать интервью по методологии Jobs to Be Done: найти, какие задачи и потребности есть у респондентов в связи с товарами из раздела «Красота». В этой методологии они называются «работами», и для выполнения этих работ пользователи могут «нанять» наш продукт. Выглядит каждая «работа» примерно так:

Шаблон:
Как [тип пользователя], я хочу [действие], чтобы [результат].

Пример:
Как водитель, я хочу пользоваться надежным GPS-навигатором, чтобы не заблудиться в незнакомом городе.

Я показал боту статью о методологии JTBD, задал роль исследователя и попросил вычленить из интервью работы, которые он там найдет. Бот нашел 7 или 8 неплохих работ.

Но когда я на радостях пошел хвастаться коллегам, сразу столкнулся с проблемой: GPT пишет нечеловеческим языком. Работы по сути своей были правильные, но сформулированы на языке GPT.

Я очень люблю книгу «Вы, должно быть, шутите, мистер Фейнман». Фейнман — физик, лауреат Нобелевской премии. Он утверждал, что если вы можете объяснить что-то пятилетнему ребенку, значит, вы в этом разбираетесь.
Я вернулся к ChatGPT и сказал: «Представь, что ты разговариваешь с пятилетним ребенком. И тебе нужно для него переформулировать эти работы».

Стало понятнее, но результат все еще не радовал.

Вероятно, я изначально выбрал неудачные описание фреймворка и примеры работ. Начал искать другой пример, но потом подумал: а зачем мне что-то искать, если я могу спросить у самого бота?

В новой ветке я написал: «Что ты знаешь про фреймворк JTBD?» Бот рассказал всю теорию: что есть эмоциональные работы, есть функциональные, есть социальные и так далее. Функциональных и эмоциональных мне было достаточно, и я попросил его привести примеры. Его формулировки мне понравились.

Снова загрузил текст интервью, напомнил, кто мы и что делаем. Привел пример, который он сам сформулировал, и попросил вычленить в расшифровке работы. И в этот раз он справился намного лучше!

Теперь нужно было все проверить. Я дал ему роль преподавателя в вузе, попросил оценить каждую работу и объяснить, почему он поставил такую оценку. А также написать, как ее улучшить.

После я еще раз загрузил список работ и рекомендации по улучшению — и попросил все исправить. И он все сделал! Транскрипт первого интервью был полностью обработан.

Дальше я просто создавал новый чат, загружал транскрипт следующего респондента и повторял все этапы: сформулировать работу, потом определить барьер для совершения этой работы, потом определить мотивацию для этой работы, опционально добавить цитату.

Какие выводы я сделал:

С GPT работает эффект стажера: он очень хочет ответить и не разочаровать тебя. Поэтому когда он не может найти нужную информацию, он начинает ее придумывать. Действовать здесь тоже нужно как со стажером: не ругать за ошибки, а уточнять, почему он выбрал такой ответ. Он проверяет себя и признает, что был неправ.
Устанавливай свои правила в процессе общения. Когда ChatGPT выдумывал ответы, я обращал его внимание на это. Например, просил в следующий раз, когда он не найдет информацию, отвечать честно, что информации нет. Это работает.
Следи за тем, чтобы ответы GPT были понятны не только тебе. Показывай результаты коллегам или просто другим людям, чтобы это проверить. Если результат непонятен, возможно, проблема не только в формулировке: также влияет неудачная постановка задачи, неудачный пример или шаблон работы.

Результат

Финальный список состоял из 65 функциональных и 50 эмоциональных работ, многие из которых были близки по смыслу. С моей помощью бот объединил их в 4 функциональные и 4 эмоциональные работы.

По тому же принципу я проанализировал расшифровки интервью, чтобы найти ответы на исследовательские вопросы и подтвердить или опровергнуть гипотезы о продукте. Результаты добавил в свой отчет и представил его команде.

Какие выводы я сделал?

Хочу интегрировать ChatGPT4 в исследования как рутину. Бот может стать полноценным инструментом анализа глубинных интервью. На момент исследования (октябрь 2023 года) еще не было возможности использовать ChatGPT4 в UX-исследованиях, но с тех пор технология сделала несколько шагов вперед, и я хочу попробовать и этот вариант.
Правильные отношения с GPT4 — не ждать сразу готового результата, а настраиваться на диалог. Поиск решения строится как беседа: «А что если делать вот так?», «А если мы вот это попробуем?», «Как ты думаешь, ты прав или нет?». В ходе такого разговора GPT приходит к хорошим результатам.
ChatGPT повышает твою ценность на рынке, потому что ты становишься более эффективным специалистом. Сроки работы над исследованием с ботом у меня сильно сократились. Анализ шел 1,5 дня вместо обычных 6-7. Написание дизайн-сценария заняло около 2-3 часов, хотя обычно я трачу целый день. У меня как будто появился личный, очень талантливый и смышленый помощник. Сейчас я не ограничиваюсь ChatGPT, использую Сlaude AI и Gemini (работаю с ними в Poe.com).
Интересно экспериментировать и решать задачи по-разному. Например, пробовать задавать разные роли для бота. Я просил его действовать в роли ведущего исследователя из компании Usability Lab, в роли Дона Нормана — человека, который популяризовал термин User Experience. С Доном Норманом, кстати, получилось очень плохо. Возможно, на английском сработало бы лучше.
ChatGPT действительно очень хочет тебе помочь. Это подкупает и усыпляет бдительность. Помните эффект IKEA? Когда делаешь что-то своими руками, то намного трепетнее к этому относишься. Я попал в эту ловушку: восхищался способностями GPT и не подвергал результат серьезному критическому анализу. Важно проверять работу и обязательно показывать результаты кому-нибудь еще.

6K показов

664 открытия

{"id":313985,"url":"https:\/\/vc.ru\/lamoda","name":"Lamoda","avatar":"07eee017-ef20-6fac-bac5-694ead5935cf","karma":null,"description":"Lamoda \u043f\u043e\u044f\u0432\u0438\u043b\u0430\u0441\u044c \u0432 2011 \u0433\u043e\u0434\u0443 \u2014 \u043a\u0430\u043a \u0438\u043d\u0442\u0435\u0440\u043d\u0435\u0442-\u043c\u0430\u0433\u0430\u0437\u0438\u043d. \u0421\u0435\u0439\u0447\u0430\u0441 \u043c\u044b \u043a\u0440\u0443\u043f\u043d\u0435\u0439\u0448\u0430\u044f \u0432 \u0420\u043e\u0441\u0441\u0438\u0438 \u0438 \u0421\u041d\u0413 \u043e\u043d\u043b\u0430\u0439\u043d-\u043f\u043b\u0430\u0442\u0444\u043e\u0440\u043c\u0430 \u0434\u043b\u044f \u043f\u0440\u043e\u0434\u0430\u0436\u0438 \u0442\u043e\u0432\u0430\u0440\u043e\u0432, \u0441\u0432\u044f\u0437\u0430\u043d\u043d\u044b\u0445 \u0441 \u043c\u043e\u0434\u043e\u0439 \u0438 \u043e\u0431\u0440\u0430\u0437\u043e\u043c \u0436\u0438\u0437\u043d\u0438","isMe":false,"isSubscribed":false,"isNotificationsEnabled":false,"isShowMessengerButton":false,"isShowSubscribe":true,"hasBadge":true,"badgeType":"verified","badgeUuid":"1ee4281e-b189-6120-a381-4c857ffff841","badgeUrl":"https:\/\/vc.ru\/subsiteBadge\/1ee4281e-b189-6120-a381-4c857ffff841","hasVideoAvatar":false}

5 комментариев

David Agiyan

21 мар

Захотелось тоже так поработать с GPT) Вот еще бы он не зависал при задании контекста, то вообще было бы прекрасно

Ответить

Развернуть ветку

Помощник Гугла

21 мар

да он и так быстро работает, в случае чего заново сгенерировать - не проблема имхо

Ответить

Развернуть ветку

Виталий Дуюнов

21 мар

классный кейс.

в конце написали, что еще Клод тестируете. А как он справился с такой задачей?

ГПТ 4 и платный Клод я не сравнивал. Но по моим ощущениям бесплатный ГПТ 3,5 и бесплатный клод если смотреть, то Клод на голову выше. И как раз все что касается текстов по моему вкусу у клода сразу сильно лучше.

Ответить

Развернуть ветку

Виталий Дуюнов

21 мар

ну вот как пример на скорую руку. взя ваш первый промт с картинки. получил ответ. и просто попросил дописать по количеству и конкретным примерам.

Хорошо, вношу правки и добавляю примеры конкретных требований к респондентам:

Для проведения эффективного исследования по фреймворку "Jobs to be Done" необходимо сформировать выборку респондентов по следующим критериям:

1. Демографические характеристики: возраст от 25 до 45 лет, равное соотношение мужчин и женщин, разный уровень дохода (средний, выше среднего), проживание как в мегаполисах, так и в небольших городах.

2. Степень вовлеченности: минимум 20% новичков, использующих продукт/услугу менее 3 месяцев, и 50% опытных пользователей, использующих более 1 года.

3. Частота использования: 30% редких пользователей (1-2 раза в месяц), 50% активных пользователей (несколько раз в неделю), 20% очень активных (ежедневно).

4. Контекст использования: 40% используют дома/для личных целей, 30% в рабочих/деловых ситуациях, 20% в путешествиях/поездках, 10% в других контекстах.

5. Альтернативные решения: минимум 25% респондентов, использующих аналогичные продукты/услуги конкурентов параллельно.

6. Особые случаи: не менее 10% респондентов с ограниченными физическими возможностями (проблемы со зрением, слухом, мобильностью).

Данная выборка позволит всесторонне изучить различные типы "работ", которые пытаются выполнить пользователи, их ключевые потребности, болевые точки, а также сравнить ваше предложение с альтернативными вариантами на рынке. Это даст возможность выявить области для улучшения и донастройки продукта/услуги.

Понятно, что есть куда расти. но не хуже чем в платном ГПТ и человечнее.

Ответить

Развернуть ветку

Михаил Яковенко

21 мар

Привет)

Я в Claude загружал другие задачи, но он с ними хорошо справлялся. Если сравнивать с GPT 4, то Claude более человечески отвечает на русском языке. И он лучше справляется с большими текстами. Но chatGPT 4 лучше справляется со сложными задачами, где качество reasoning принципиально даже на доли процентов.

Лучший вариант, это использовать все эти платформы, еще добавлять Gemini. Я иногда загружаю ответ одной модели в другую и прощу проверить/дополнить

Ответить

Развернуть ветку

Написать комментарий...

2 комментария

Раскрывать всегда