Антропик хотел сделать Интервьюера, а получил Фаундера

Антропик запустил сервис, который умеет проводить все три стадии пользовательских интервью: планирование, разговор и анализ. В качестве заказчика попробовать пока нельзя, но можно поучаствовать в качестве респондента на тему отношения к AI и прочитать результаты опроса 1250 человек на ту же тему.

Спойлер: вместо режима исследователя получился режим влюблённого фаундера. Инструмент отчаянно натягивает нужные ему правильные ответы на всех стадиях работы вместо того, чтобы пытаться приблизиться к объективным результатам учитывая ограничения метода.

Разработчики выложили полные транскрипты всех проведенных интервью и дали возможность самому поговорить с ботом в качестве респондента. Ниже можно посмотреть скринкаст моего интервью, в котором видны те же паттерны, что и в транскриптах. Начинается всё очень хорошо, просто мёд для ушей: расскажи, говорит, для чего ты использовал AI-чат бота в последний раз (про то, откуда он знает, что я его вообще использовал поговорим в дальше, когда речь пойдет про интерпретацию результатов). Но дальше качество вопросов падает драматически: получив короткий ответ, вместо уточнения деталей, бот предлагает:

“Представить, что у тебя есть волшебная палочка, а AI может помочь с чем угодно”.

Уж сколько раз твердили миру, что вопросы вида “а представь, что…” абсолютно бессмысленны. Из-за когнитивных искажений люди очень плохо представляют возможное будущее и фантазируют. Такой способ задавать вопросы – одна из самых распространенных ошибок начинающих. Но на этом падение стандартов не заканчивается. Получив очередной короткий ответ, бот снова не пытается ничего уточнить, а своими словами пересказывает то, что могло бы быть ответом интервьюируемого. Но могло бы и не быть. Наводит на правильные ответы изо всех сил. И дальше фаталити – вторая производная: если бы вот то, что ты представил, было бы правдой, то что бы ты делал? Тут только чтобы понять вопрос надо кучу времени, а потом ещё и нафантазировать это всё (скринкаст пришлось резать, чтобы убрать паузу).

Когда я писал симулятор пользовательских интервью, в первую главу мне нужен был герой, на котором можно иллюстрировать самые распространенные ошибки. Так появился фаундер, влюбленный в свой продукт, который из каждого респондента пытается достать только правильные ответы, подтверждающие его точку зрения. Наводящие вопросы, пересказ ответов своими словами, отсутствие уточнений – все эти ошибки были приписаны персонажу симулятора и повторены AI-интервьюером Антропика.

В последних главах симулятора герой осваивает анализ и интерпретацию данных, полученных в интервью. Тут уже авторов статьи с результатами можно брать в отрицательные герои. Выводы полны красивых заявлений вида “85% процентов профессионалов сказали, что AI экономит им время”. Но нигде не указано, как выборка распределена по критерию наличия предыдущего опыта взаимодействия с AI. Само исследование заявлено как качественное, но основная часть выводов содержит проценты утвердивших то или иное (почти все утверждения положительные, почти все значения процентов 70-80 плюс). Профессионалами респондентов называют, потому что “all participants had an occupation other than crowdworking that was their main job”

В данном случае после активных уговоров со стороны интервьюеров, 100% пользователей интернета сказали, что обязательно будут пользоваться интернетом в будущем, когда он станет всемогущим.