A/B-тесты для AI-ботов
Начал экспериментировать с повышением качества ботов, основываясь на обратной связи от пользователей.
Добавил в бота по переговорам функцию оценки результатов. Теперь после завершения каждой сессии пользователь может оценить, насколько полезной оказалась полученная информация.
Все оценки автоматически отправляются в Langfuse, где я вижу статистику по каждой сессии и по каждой задействованной версии промпта.
Что это дает:
➖Могу проводить A/B-тесты промптов и сравнивать пользовательские оценки для каждого варианта
➖Могу тестировать разные модели - сейчас под капотом GPT-5, но можно попробовать GPT-5 mini (а так же многие другие дешевые модели) и посмотреть, насколько просядет качество
Если вы до сих пор не используете систему отслеживания работы ллм - настоятельно рекомендую начать попробовать)
Подписывайтесь на Telegram Korenev AI - GPT в тапочках🩴.