Перцентиль - что происходит с данными

Очень часто в аналитике смотрят на среднее:

  • средний чек
  • среднее время
  • средний доход

Но среднее - коварная штука.
Оно сглаживает реальность.

Если у 9 человек чек 100 ₽, а у одного —я 10 000 ₽,среднее будет 1 090 ₽.И это вообще не похоже на реальность большинства.

Вот здесь и появляется перцентиль.

Перцентиль - что происходит с данными

Подписывайся, если интересно как устроен мир аналитика!
В моем канале Аналитика FM выпуски про расчет Retention в разных бизнесах.
Канал я веду с нуля подписчиков, рассказываю про аналитику и разбираю различные кейсы на реальных примерах.

Перцентиль это значение, ниже которого находится определённый процент данных.

Например:

  • 50-й перцентиль (P50) - это медиана
  • 90-й перцентиль (P90) - значение, ниже которого 90% наблюдений
  • 95-й перцентиль (P95) - ещё более "правый хвост"

Если сказать по-человечески:

P90 - это "как живёт большинство, кроме самых крайних случаев".

Как это считать

Идея очень простая:

  1. Берём все значения
  2. Сортируем их по возрастанию
  3. Берём нужную позицию

Например, у нас 100 значений:

  • P50 → 50-е значение
  • P90 → 90-е значение

В реальности всё чуть сложнее (интерполяции, разные методы расчёта),но логика именно такая.

Во многих СУБД есть встроенные функции.

Например:

PERCENTILE_CONT(0.9) WITHIN GROUP (ORDER BY amount)

Это P90 по полю amount.

Или:

PERCENTILE_CONT(0.5) WITHIN GROUP (ORDER BY duration)

Это медиана.

Где это применяется в аналитике

1 Время отклика / загрузки

Среднее время ответа может быть нормальным,но пользователи всё равно недовольны.

Почему?

Потому что:

  • 90% запросов - быстрые
  • 10% - очень медленные

И именно эти 10% формируют опыт.

Поэтому смотрят:

  • P90
  • P95
  • P99

2 Чеки и выручка

Средний чек может быть завышен из-за крупных покупок.

Перцентили показывают:

  • как платит "обычный" клиент
  • где начинается премиум-сегмент

3 Зарплаты

Средняя зарплата - почти всегда вводит в заблуждение.

Перцентили дают реальную картину:

  • P50 - "типичный доход"
  • P90 - "верх рынка"

4 Время выполнения задач

В продуктовой аналитике:

  • сколько времени пользователь тратит на действие
  • сколько длится сессия

Среднее не показывает хвосты.
Перцентили - показывают.

В чём особенность перцентилей

Они устойчивы к выбросам

Один аномально большой показатель не сломает картину.

Они показывают распределение

Среднее - это одна точка.
Перцентили - это уже форма данных.

Они ближе к реальному пользовательскому опыту

Пользователь - это не "среднее значение".
Он где-то внутри распределения.

Где ещё используются перцентили

Не только в аналитике:

  • Инженерия и DevOps - latency, SLA
  • Финансы - оценка рисков
  • Медицина - рост, вес, показатели анализов
  • Образование - результаты тестов
  • Логистика - время доставки

Везде, где важно понимать не "в среднем", а "как распределены значения".

Когда перцентили могут запутать

Важно помнить:

  • при маленьких выборках они нестабильны
  • разные системы могут считать их по-разному
  • P99 может сильно "скакать"

И ещё:

перцентили не заменяют среднее - они его дополняют

Главное

Перцентиль - это способ перестать думать "в среднем"и начать видеть, как данные распределены на самом деле.

Потому что в аналитикесамые важные вещи часто происходятне в центре,а на краях.

В канале Аналитика FM разбираем реальные продуктовые метрики и их реализацию на SQL. Погружаемся в мира аналитики и аналитического мышления.

Если у тебя тоже есть интерес к аналитике,
Подписывайся!

#Аналитика
#Программирование
#Python
#Тестирование
#Oracle
#Postgresql
#Аналитик
#базаданных
#системныйанализ
#системныйбизнес
#системныйаналитик
#SQL
#MicrosoftExcel
#IT
#Самообразование
#Фриланс

Начать дискуссию