Слабые сигналы и большие перемены (3/3)

(окончание, см. начало)

Что заставляет компании следовать за уже измеряемыми показателями, даже если они не отражают потребности клиентов и организации?

Множество факторов, от психологических до организационных:

– люди склонны подменять сложные вопросы целей и качества простыми ответами вроде KPI (Канеман),

– им сложно жить с неопределенностью и легче решить, что KPI отвечает на все вопросы, чем изучать, как что самом деле нужно людям (Эллсберг),

– легче улучшать работающее, чем экспериментировать (Марч),

– всё это усиливают поощрения сотрудников за результаты по метрикам и негласное избегание разговоров про альтернативы (Гудхарт),

– людям нужны понятные ориентиры и ощущение растущего мастерства. Когда цели и правила игры всё время меняются, растет стресс, падает чувство компетентности и возникает ощущение, что часть прошлых усилий обесценилась.

Что легко измерить OpenAI?

а) Легко измерить качество одиночного ответа. На входе промпт, на выходе — ответ. Но как измерить качество диалога, если в нем каждая реплика человека зависит от того, что сказано выше? Качество диалогов почти не измеряется в популярных бенчмарках, и потеря фокуса могла пройти незамеченной;

б) легко тестировать поведение, которое они видели в прошлом, и избежать там ошибок, но новая функциональность рождает новые паттерны, а с ними и баги;

в) легко измерить, насколько это нравится пользователям. Но намного сложнее понять, почему пользователям нравится. Если пользователи выбирают в АБ-тестах новую версию алгоритма, не обязательно им нравится качество ответа, возможно, по душе стиль и длина. Способность людей читать падает (тесты PISA), на reddit жалуются на «многабукв»-ответы. А значит, короткий ответ могут оценивать лучше, даже когда падает качество.

Вот почему на метриках виден рост качества, хотя ощущения говорят об обратном.

Какие ещё требования к ИИ диктует жизнь, а бенчмарки их не ловят?

– пользователю нужна последовательность и непротиворечивость, например, если ИИ называет лучшим выбором какой-то товар или услугу, сколько ни задавай этот промпт, я всегда должен видеть этот товар в топе, а сейчас это не так, LLM переобувается на ходу;

– пользователю часто требуется не просто «разумный ответ», а «лучший ответ» или «исчерпывающая информация». А бенчмарки ориентированы, в основном, на соответствие ответа эталону. Даже GDPval, придуманный чтобы быть ближе к реальной работе, сравнивает конкретный артефакт как результат работы, а не ответ целиком;

– для улучшения работы с ИИ в диалог мы должны учитывать динамику взаимодействия в паре, то есть моделировать одновременно и поведение человека, и поведение системы. А сейчас человек с той стороны экрана считается неизменным.

Сформулировать цели и создать тестовую выборку, которая все это учтет, сложно, очень сложно. Но пока это не случится, ИИ будет показывать рекорды в кодинге или математике, всё большему удаляясь от мира реальных сложных задач.

Можно предположить, что технологическое развитие уперлось в гуманитарный барьер смыслов и ожиданий.

***

Вдумайтесь, к каким интересным вопросам я подобрался, всего лишь наблюдая за слабыми сигналами в поведении системы. Я пришел к выводу, что ИИ подошли к новому скачку сложности в развитии.

Слабые сигналы всегда точечные и нерепрезентативные. Именно поэтому от них легко отмахнуться:

  • Пользователь жалуется, что...
  • Всего одна жалоба, забей.
  • Мне кажется это неудобным...
  • Ты нерепрезентативен, смотри на KPI.

Именно поэтому слабые сигналы надо рассматривать на качественном уровне. Они могут отражать что-то важное, чего не видно на больших и правильных измерениях, из-за чего сложнейшие циклы гигантской технологической машины идут вхолостую.

Кому-то из лидеров ИИ непременно удастся преодолеть этот барьер, который еще не видят или не считают значимым, или надеются взять его инженерным натиском, усложняя старые бенчмарки. Я же уверен, что назрела смена подхода, и мы ее в ближайшие годы увидим.

Подписывайтесь на Telegram Александр Садовский.

Начать дискуссию