Читая Нассима Талеба. Часть 1

Читая Нассима Талеба. Часть 1

Относительно недавно на русский язык перевели книгу "Статистические последствия жирных хвостов" Нассима Талеба. Автор известен книгами "Черный лебедь", "Антихрупкость" и другими книгами, которые стали широко известны в мире. А термин "черный лебедь" стал привычным синонимом маловероятных событий, которая драматическим образом ставит ситуацию с ног на голову.

Глава Сбера Герман Греф рекомендовал эту книгу к прочтению всем руководителям.

Я, как Канбан-практик, не мог пройти мимо этой книги. Читается она очень тяжело, но и инсайтов дает море.

В этой и следующих статьях я буду потихоньку рассказывать об интересных мыслях из этой книги, и инсайтах, которые приходили ко мне во время прочтения. Анонсы статей я буду выкладывать в своем Телеграм-канале

Завязка сюжета

Практически с самого начала своей книги Талеб язвительно обрушивается с критикой на всех ученых-математиков, и специалистов по теории вероятности, обвиняя их в том, что они ничего не знают о том, как ведут себя асимметричные распределения, а тем более распределения с большим “хвостом”, которые сильно меняют общую картинку. Эта критика содержит множество специальных терминов, формул, отсылок к разным теориям, так что для того, чтобы понять, о чем вообще толкует Нассим Талеб, мне пришлось обложится аж 3-мя книгами по теории вероятности, чтобы составить общую картинку и собрать воедино аргументы Талеба.

Дисклеймер: ниже я рассказываю только то, что смог понять на основе прочитанных книг, статей, и остатков Бауманского образования.

Наверно у меня буду ошибки, и где-то что-то я мог понять не правильно. Уверен, что среди моих читателей есть люди, более сведущие в предмете, и я буду очень рад, если вы в комментариях поправите меня, или дополните. Я внесу обновления с указанием что это поправка и дополнение из комментария конкретного человека.

Немного необходимых основ

Прежде чем переходить непосредственно к аргументам Нассима Талеба, я должен рассказать о некоторых базовых вещах теории вероятности, иначе аргументы Талеба будут не понятны

Одна из основных задача теории вероятности, это так называемая, “описательная статистика”, задачей которой является:

1) Описать некое “типичное” состояние исследуемой системы, относительно которого можно делать какие-то прогнозы и выводы. Это типичное состояние называется “центральной тенденцией”

2) Описать типичную вариабельность системы относительно “центральной тенденции”. То есть то, в каком коридоре относительно “центральной тенденции” находятся “типичные”, ожидаемые значения для данной системы.

Например, мы можем собрать статистику диастолического (нижнего) артериального давления населения Москвы, и хотим на основе этой статистики разработать протоколы программы диспансеризации, позволяющие выявлять людей, которым обязательно нужно обратиться за медицинской помощью, потому что их показатели сильно отличаются от типичных (нормальных) значений.

Для этого, нам нужно знать типичное диастолическое артериальное давление, которое представляет собой некое “среднее” (mean) значение, но его одного нам будет мало, так как все люди разные, и даже у здоровых людей возможны некоторые отклонения от “среднего”, но это не будет значить что они больны, а лишь будет характеризовать их индивидуальные особенности.

То есть нам нужен некий коридор допустимых значений относительно “среднего”, который описывает типичных здоровых людей. Все что за пределами этого коридора, будет аномалией - либо слишком большим, либо слишком маленьким диастолическим артериальным давлением, что не характерно для большинства здоровых людей, и скорее всего связано с какими-то болезнями, травмами или генетическими отклонениями.

Распределение значений диастолического артериального давления
Распределение значений диастолического артериального давления

Я употребил слово “среднее” в кавычках, потому при описании “центральной тенденции” не всегда используют математическое среднее (average), которое, как мы знаем, представляет собой сумму значений, деленную на количество этих значений.

В ряде случаев, для описания “центральное тенденции” могут использоваться и медиана, и другие параметры статистики. Так что слово “среднее” (mean) здесь употребляется как эквивалент наиболее “типичного” значения для данного набора данных. По научному такое типичное значение называется “математическое ожидание”.

Нормальное распределение

Современная теория вероятности лучше всего разбирается в том, как вычислить “центральную тенденцию” и вариабельность для распределений, которые похожи на нормальные, гауссовы распределение.

Такое распределение выглядит вот так:

Так выглядит нормальное (гауссово) распределение
Так выглядит нормальное (гауссово) распределение

Это распределение очень хорошо изучено. Существуют сотни методов, чтобы делать с ним самые разные вещи.

Для таких распределений, в качестве меры “центральной тенденции” используют хорошо известное всем нам среднее арифметическое, которое вычисляется как сумма всех значений в выборке деленное на количество этих значений:

Формула подсчета среднего арифметического и пример расчета для набора значений x
Формула подсчета среднего арифметического и пример расчета для набора значений x

В этом примере среднее арифметическое выборки равно 4.

В качестве меры вариабельности нормального распределения обычно используют стандартное отклонение, которое вычисляется по формуле (для выборки):

Формула расчета стандартного отклонения для выборки
Формула расчета стандартного отклонения для выборки

Эта оценка очень удобна при рассмотрении нормального распределения. Зная только среднее значение и стандартное отклонение, вы можете быстро прикинуть интервалы, в которых находится заданная порция нормального распределения.

Читая Нассима Талеба. Часть 1

А что же утверждает Нассим Талеб?

Нассим Талеб пишет о том, что нормальное распределение - не частое явление в реальном мире, а по настоящему сложные системы и ситуации (финансовые рынки, уровень богатства, интеллектуальный труд) и вовсе не подчиняются нормальному распределению, а имеют асимметричное распределение, как на картинке ниже

Асимметричные распределения имеют сдвиг пика от центра влево или вправо, и длинный  убывающий "хвост" данных с одной из сторон
Асимметричные распределения имеют сдвиг пика от центра влево или вправо, и длинный  убывающий "хвост" данных с одной из сторон

И поэтому главная проблема всех вышеперечисленных метрикх заключается в том, что для асимметричных распределений с жирным хвостом, классические метрики теории вероятности - НЕ РАБОТАЮТ!!!

Например, среднее арифметическое очень чувствительно к наличию выплесков (аномалий), которые представляют собой большие значения из “хвоста” распределения. Стоит в выборке оказаться одному-единственному выбросу, как среднее арифметическое перестает быть надежным показателем центральной тенденции.

В нашем примере выше среднее арифметическое для выборки было равно 4. Но стоит нам заменить 7 на 273, то среднее станет равняться 42. Согласитесь, это не слишком похоже на “центральную тенденцию”, где находятся типичные значения.

Читая Нассима Талеба. Часть 1

С другой стороны, стандартное отклонение, которое описывает типичную вариабельность, тоже очень чувствительно к хвостам распределения и аномалиям. Достаточно одного экстремального выброса, чтобы полностью испортить оценку.

И вообще, в случае не-стандартных (не-гауссовых) распределений, эти два параметра не слишком полезны, так как не способны описать форму распределения, и не учитывают ее.

Ниже на картинке вы можете видеть разные наборы точек на графике, для которых совпадают значения средних значений и дисперсий по x и y, а также коэффициент корреляции между двумя координатами. Дисперсия - это еще одна мера вариабельности, которая равна стандартному отклонению в квадрате, то есть эти две метрики очень сильно связаны.

Графики разные, а меры описательной статистики - одинаковые 
Графики разные, а меры описательной статистики - одинаковые 

Как мы видим, для описания произвольных распределений эти два параметра не слишком подходят.

В мире не так уж много процессов и реальных ситуаций, которые бы описывались нормальным распределением. Тот же самый параметр Lead Time для интеллектуального труда, который является предметом исследования в Канбан-методе, имеет асимметричное, не-нормальное распределение. А значит, для его описания вышеперечисленные метрики нам бесполезны.

Талеб пишет, что современная теория вероятности и статистика не дает нам готового математического аппарата для описания и анализа не-нормальных (не-гауссовых) распределений. Талеб даже упрекает математиков в том, что якобы это происходит не просто так, а потому что ученые-математики не хотят рисковать карьерой, влезая в неизученную область.

Среднестан и Крайнестан

В терминах Нассима Талеба, есть две области данных, которые живут по разным законам.

Есть Среднестан - это сферы жизни, профессии, рынки, в которых нормальное распределение работает. В этом случае значимые отклонения от среднего очень редки и маловероятны. Данные которые “живут” в Среднестане, это, например рост людей, количество и зарплаты парикмахеров, сантехников, таксистов, потребление калорий, выигрыши в казино, автокатастрофы, уровень смертности.

Но есть еще и Крайнестан - сферы жизни, профессии и рынки, в которых нормальное распределение НЕ работает. Это области, где существуют системы с обратной связью, которые могут влиять сами на себя. И даже один элемент системы может оказывать значительное влияние на всю систему. Данные которые “живут” в Крайнестане - это уровень богатства, доходы, тиражи изданий, население городов, людские потери в войнах и пандемиях, размеры компаний, владение акциями, финансовые рынки.

Какое это имеет отношение к Канбан-методу?

Канбан-метод фокусируется на оптимизации процессов интеллектуального труда- разработке программного обеспечения, аналитиках, маркетинге, юристах и так далее. Всех тех, чей результат работы не материален.

Вот пример графика распределения времени выполнения (Lead Time) задач аналитического отдела:

Читая Нассима Талеба. Часть 1

Невооруженным взглядом видно, что на графике, справа есть "хвост" долгих значений Lead Time, а сам график смещен влево. То есть, это асимметричное распределение - не-нормальное (не гауссово). И подобный вид графика распределения Lead Time характерен для любых интеллектуальных работ, а значит, среднее арифметическое значение, стандартное отклонение и другие классические метрики теории вероятности, тут бесполезны.

Нужно искать и использовать другие метрики, которые будут лучше описывать распределение для работ интеллектуального труда. Список вариантов большой и надо выбирать их осознанно и с умом. Можно даже придумать собственные метрики, если они лучше вам подходят.

Продолжение следует

В следующих постах поговорим о том, почему по мнению Нассима Талеба бесполезно уповать на "Закон Больших Чисел", на котром зиждется вся Теория Вероятности, и что делать, если данные не показывают какого-то узнаваемого шаблона распределения, а последствия прогнозировать надо.

Следите за анонсами в Телеграм-канале "Данные в действии", чтобы не пропустить новый материал!

Материалы ниже дадут вам инструменты для уверенного прогнозирования времени выполнения задач:

4 комментария

Очень интересно. Но, ведь, моделирование процессов - это развитое направление исследований. Неужели никто до Талеба не обратил внимание, что гауссовское распределение очень редко описывает реальные процессы?

И неужели такая перспективная тема имеющая применения во множестве сфер совсем не разрабатывается?

Я лишь цитирую то, что говорит Талеб. А он бичует неких "классических математиков" которые преподают в институтах и университетах. ПРи этом он сам много раз в книге говорит о том, что биржевые брокеры все эти закономерности с длинными хвостами знают и используют при анализе.

То есть в рамках отраслевой специфики скорее всего уже есть какой-нить эмпирический, или численный метод работы с последствиями не-гауссовых распределений, но в институтских курсах этого , по словам Талеба, нет.

1