Перцентиль - что происходит с данными
Очень часто в аналитике смотрят на среднее:
- средний чек
- среднее время
- средний доход
Но среднее - коварная штука.
Оно сглаживает реальность.
Если у 9 человек чек 100 ₽, а у одного —я 10 000 ₽,среднее будет 1 090 ₽.И это вообще не похоже на реальность большинства.
Вот здесь и появляется перцентиль.
Подписывайся, если интересно как устроен мир аналитика!
В моем канале Аналитика FM выпуски про расчет Retention в разных бизнесах.
Канал я веду с нуля подписчиков, рассказываю про аналитику и разбираю различные кейсы на реальных примерах.
Перцентиль это значение, ниже которого находится определённый процент данных.
Например:
- 50-й перцентиль (P50) - это медиана
- 90-й перцентиль (P90) - значение, ниже которого 90% наблюдений
- 95-й перцентиль (P95) - ещё более "правый хвост"
Если сказать по-человечески:
P90 - это "как живёт большинство, кроме самых крайних случаев".
Как это считать
Идея очень простая:
- Берём все значения
- Сортируем их по возрастанию
- Берём нужную позицию
Например, у нас 100 значений:
- P50 → 50-е значение
- P90 → 90-е значение
В реальности всё чуть сложнее (интерполяции, разные методы расчёта),но логика именно такая.
Во многих СУБД есть встроенные функции.
Например:
Это P90 по полю amount.
Или:
Это медиана.
Где это применяется в аналитике
1 Время отклика / загрузки
Среднее время ответа может быть нормальным,но пользователи всё равно недовольны.
Почему?
Потому что:
- 90% запросов - быстрые
- 10% - очень медленные
И именно эти 10% формируют опыт.
Поэтому смотрят:
- P90
- P95
- P99
2 Чеки и выручка
Средний чек может быть завышен из-за крупных покупок.
Перцентили показывают:
- как платит "обычный" клиент
- где начинается премиум-сегмент
3 Зарплаты
Средняя зарплата - почти всегда вводит в заблуждение.
Перцентили дают реальную картину:
- P50 - "типичный доход"
- P90 - "верх рынка"
4 Время выполнения задач
В продуктовой аналитике:
- сколько времени пользователь тратит на действие
- сколько длится сессия
Среднее не показывает хвосты.
Перцентили - показывают.
В чём особенность перцентилей
Они устойчивы к выбросам
Один аномально большой показатель не сломает картину.
Они показывают распределение
Среднее - это одна точка.
Перцентили - это уже форма данных.
Они ближе к реальному пользовательскому опыту
Пользователь - это не "среднее значение".
Он где-то внутри распределения.
Где ещё используются перцентили
Не только в аналитике:
- Инженерия и DevOps - latency, SLA
- Финансы - оценка рисков
- Медицина - рост, вес, показатели анализов
- Образование - результаты тестов
- Логистика - время доставки
Везде, где важно понимать не "в среднем", а "как распределены значения".
Когда перцентили могут запутать
Важно помнить:
- при маленьких выборках они нестабильны
- разные системы могут считать их по-разному
- P99 может сильно "скакать"
И ещё:
перцентили не заменяют среднее - они его дополняют
Главное
Перцентиль - это способ перестать думать "в среднем"и начать видеть, как данные распределены на самом деле.
Потому что в аналитикесамые важные вещи часто происходятне в центре,а на краях.
В канале Аналитика FM разбираем реальные продуктовые метрики и их реализацию на SQL. Погружаемся в мира аналитики и аналитического мышления.
Если у тебя тоже есть интерес к аналитике,
Подписывайся!
#Аналитика
#Программирование
#Python
#Тестирование
#Oracle
#Postgresql
#Аналитик
#базаданных
#системныйанализ
#системныйбизнес
#системныйаналитик
#SQL
#MicrosoftExcel
#IT
#Самообразование
#Фриланс