Я правильно понимаю, что если какие-то действия (реально связанные с конверсией, и в идеально прозрачном мире подлежащие промериванию) диспропорционально часто происходят в средах, где конверсии редки, то источники, к ним приводящие, будут пессимизированы?
Но при этом оптимизация по вашим моделям даёт очевидный прирост эффективности (см. Мебельвию), так что вы с этим просто миритесь?
Константин, спасибо за статью.
Осталось непонятным, откуда возьмутся первоначальные "полные цепочки" для обучения модели.
Как вы оцените вероятность конверсии человека, чья цепочка потом рвётся?
Это же может совершенно систематически происходить: у вас есть какие-то действия внутри инстаграммового инапп-браузера, которые никогда не продолжаются в других сеансах (так что вы замеряете на них очень мало конверсий). Почему вдруг модель насчитает пользователям в нём существенную дополнительную вероятность конверсии?
Ну это понятно :) Я просто пытаюсь выяснить, правильно ли я понял ограничения подобного подхода, или недоразобрался.