A/B-тесты для AI-ботов

Начал экспериментировать с повышением качества ботов, основываясь на обратной связи от пользователей.

Добавил в бота по переговорам функцию оценки результатов. Теперь после завершения каждой сессии пользователь может оценить, насколько полезной оказалась полученная информация.

Все оценки автоматически отправляются в Langfuse, где я вижу статистику по каждой сессии и по каждой задействованной версии промпта.

Что это дает:

➖Могу проводить A/B-тесты промптов и сравнивать пользовательские оценки для каждого варианта

➖Могу тестировать разные модели - сейчас под капотом GPT-5, но можно попробовать GPT-5 mini (а так же многие другие дешевые модели) и посмотреть, насколько просядет качество

Если вы до сих пор не используете систему отслеживания работы ллм - настоятельно рекомендую начать попробовать)

Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.