Как мы создали альтернативу A/B/n-тестам для повышения эффективности email-рассылок

Сегодня основным методом тестирования email-рассылок является так называемое сплит-тестирование (его расширение — тесты A/B/n или мультивариантные). Этот привычный метод не всегда эффективен, поэтому мы в DashaMail создали новый подход, который позволяет обойти недостатки традиционных A/B/n-тестов.

На открываемость писем и вовлеченность аудитории влияет множество факторов, включая тему сообщения, имя отправителя, время рассылки. Мы неоднократно в своей практике сталкивались с тем, то популярные сегодня мультивариантные тесты не позволяют добиваться стабильно высокой эффективности рассылок. Поэтому хотелось создать инструмент, который поможет этого добиться, то есть разработать новый подход к тестированию email-рассылок.

Главный недостаток A/B/n-тестов заключается в том, что их результаты всегда можно анализировать только постфактум. Это делает весь процесс достаточно длительным и трудоемким: сначала нужно отправить несколько вариантов рассылок, затем изучить результаты, оптимизировать параметры теста, разослать заново. И таких итераций может быть много.

Кроме того, реакция подписчиков на разные варианты сообщений, полученные в разное время, может сильно различаться. Вариант-победитель, определенный в результате мультивариантного теста, при отправке основной рассылки может оказаться уже не таким эффективным. Как такое может быть? Рассмотрим практический пример.

Допустим, нам нужно протестировать эффективность рассылок с двумя разными вариантами тем. Используемый сейчас подход предполагает выделение двух групп подписчиков, которым нужно отправить письма, а затем замерить параметры каждого из вариантов.

Но какое минимальное количество пользователей должны увидеть оба варианта, чтобы получить статистически значимые результаты? К примеру, если мы выделим для теста 20% базы подписчиков, то потом на оставшиеся 80% сможем запустить вариант-победитель – и это даст повышение эффективности. Звучит просто и ясно, но жизнь сложнее. Не существует гарантий того, что наличие двух тестовых групп по 10% подписчиков даст верный результат: слишком велика вероятность влияния случайных факторов. Поэтому тестовые группы должны быть достаточно большими, чтобы получить статистически достоверный результат. Особенно если победитель выбирается на основании кликов, а не открытий.

Пример из области веб-дизайна: если в одном варианте изображения или страницы сайта больше красного цвета, а в первую группу в ходе теста случайно попало больше людей, которые этот цвет не любят, результат теста не будет репрезентативным. Ведь если бы в тестовую группу попали другие люди, то результат бы изменился.

Анализируя такой метод тестирования, можно сказать, что он не дает точного варианта ответа на вопрос «Как лучше?». Работа проведена, но понятнее не стало.

В ходе одного из мозговых штурмов наша команда решила попробовать изменить ситуацию и разработать новый подход к тестированию с использованием машинного обучения и нейронных сетей. Именно так родился инструмент Gestalt-тестирования в сервисе DashaMail.

Мы пришли к выводу, что избежать описанных выше сложностей и получить возможность учитывать все важные параметры рассылки в режиме реального времени поможет байесовский подход к принятию решений и статистической оценке.

Суть этого метода в том, что он позволяет не просто провести тест гипотез, но и получить ответ на вопрос, какая из них с большей вероятностью окажется эффективнее. И что важно: оценки динамически меняются – так же как в режиме реального времени определяются и размеры выборки для каждой гипотезы. Таким образом, мы можем сразу понимать, сколько трафика/писем направить на тест конкретного варианта.

Вот как здесь применяется байесовский метод. Представим ситуацию, в которой мы пришли в казино с игровыми автоматами типа «однорукий бандит». Денег у нас ограниченное количество, как и времени. Задача – как можно быстрее и с минимальными расходами определить «перспективный» автомат (с наибольшей вероятностью выигрыша). Это задача о многоруком бандите.

Всё это можно применить и в области почтовых рассылок. Мы не хотим отправлять слишком большое количество писем с заведомо проигрышными параметрами (в A/B-тестах тестовые группы всегда одинаковые). При этом совсем убирать их тоже нет смысла: существует вероятность, что со временем предпочтения пользователей изменятся и вариант-аутсайдер начнет показывать лучшие результаты. Важно иметь возможность обнаружить такие изменения и отреагировать на них – то есть увеличить трафик для вариантов, ставших более перспективными.

В случае традиционного мультивариантного теста большая часть писем в итоге будет отправлена по варианту рассылки, который показал наилучшие результаты именно в момент проведения проверки. В Gestalt-тесте же, несмотря на то что большая часть писем отправляется на вариант-победитель, у других вариантов всегда до последнего остается шанс. Как сказано выше, мы допускаем, что в будущем показатели эффективности переменятся по какой-либо причине, и не хотим пропустить этот момент.

После запуска теста система начинает группами отправлять письма. Важный момент: в каждом пакете содержатся все предложенные варианты. В итоге вся рассылка идет около 10 часов, по пачке писем уходит каждые полчаса. Продолжительность теста – одна из особенностей этого метода, которую необходимо учитывать. Статистика доступна по каждому варианту, благодаря чему сразу видно, какой из вариантов отрабатывает лучше.

Кроме того, Gestalt-функция позволяет использовать эмоциональный маркетинг в рассылках. Система умеет автоматически генерировать сообщения с разной эмоциональной окраской темы. Работает это так: нужно задать базовую тему, затем можно выбрать перефразировки этой темы в разных эмоциях – вариантов может быть до десяти (страх, благодарность и т. п.).

После этого наша нейросеть перефразирует текст темы, используя заданные эмоциональные окраски – их можно будет отредактировать и отправить. Пример эмоций и соответствующих им тем, а также показатели открытий по каждой из них:

В примере ниже по открытиям и кликам лидирует вариант с темой «любовь», переписанной нейронной сетью в эмоции: «Ты самая красивая в офисе! -30% на модели для офиса из нашей подборки». Однако он же демонстрирует высокий показатель отписок в сравнении с другими вариантами. Это может свидетельствовать о том, что контент письма оказался слабее темы или мы смогли зацепить внимание ранее спящего сегмента подписчиков.

Поскольку отправка рассылки в ходе Gestalt-тестирования растянута во времени, автоматически также идет тестирование конкретного момента отправки. Причем сервис запоминает, на какую эмоцию рассылки и в какое время каждый конкретный подписчик реагирует лучше, и при проведении последующих отправок с использованием данного функционала будет подстраиваться под него. Поэтому со временем эффективность использования Gestalt-тестирования увеличивается.

Все просто: персонализация, эмоциональный окрас сообщений, учет параметров вроде времени отправки. Наиболее успешный в ходе теста вариант задействуется активнее всего, но небольшой трафик получают и другие участники сравнения. В итоге мы можем мониторить изменения паттернов поведения подписчиков во времени. Если в один период людям больше нравится определенный вариант письма, а затем они лучшие реагируют на другой – мы не пропустим это и автоматически проведем балансировку теста.

Паттерны поведения анализируются для каждого подписчика. На основе истории открытий конкретного получателя для него подбирается индивидуальное время отправки. Есть множество естественных причин изменения поведения подписчика. Например, человек может сменить работу или время начала/завершения трудового дня, соответственно сдвинется и время, выделяемое на проверку электронной почты. Gestalt-функция автоматически подстраивается под такие изменения.

Конечно же, важно понимать, что для максимальной эффективности Gestalt-теста нужны данные. Поэтому функция доступна для баз на 10 тысяч адресов и больше.

Весь сервис DashaMail в целом направлен на аудиторию малого и среднего бизнеса (SMB). Мы лучше всего понимаем нужды таких клиентов, потому что сами являемся SMB-проектом. Половина команды ранее работала над проектом Pechkin-mail.ru. Об истории этого проекта и нашего выхода из него мы рассказывали здесь.

Поговорим о том, как в реальности Gestalt-тесты могут влиять на эффективность рассылок. Вот так выглядит отчет об использовании функции для тестирования рассылки: здесь мы видим итоговый показатель открытия (open rate, OR), результат относительно базовой темы и сравнение с показателями, которые были бы достигнуты при обычном мультивариантном тесте с одинаковым распределением писем по темам.

По статистике клиентов DashaMail, в среднем увеличение показателей открытия рассылок с Gestalt-тестами составляет 20%. Плюс этого метода также и в том, что с течением времени его эффективность повышается: система проходит обучение и запоминает, в какое время и на какие эмоции именно ваши подписчики реагируют лучше. В итоге алгоритм может повышать open rate (OR) рассылок в 1,5–2 раза по сравнению с базовой темой.

Ну и в заключение объясним, как термин «гештальт» связан с темой тестов почтовых рассылок. Все просто: в переводе с немецкого «гештальт» – это «форма». И именно эксперименты с формой в нашем новом методе позволяют прийти к идеальной рассылке.

Как мы создали альтернативу A/B/n-тестам для повышения эффективности email-рассылок

Идея продукта

Gestalt-тестирование: как это работает

Почему это работает

Команда, методы продвижения

Важные метрики