Котодиско у Hyundai
Nothing Phone (3a) и (3a) Pro
Focus 2 Ultra от Nubia
Возможный релиз MacBook Air?
Автопилот Tesla на бездорожье
SVG-битва нейросетей

Что общего между Data Science и бомжом на свалке?

Данные играют все более фундаментальную роль в любом бизнесе. Data-science, Data-driven, Data-based – сложно поверить, что все эти слова прочно вошли в обиход только в последние 5-10 лет.

Скорость роста числа данных поражает. Причина в революции информационных технологий. Маленький iPad обладает большей мощностью, чем самый мощный компьютер мира за 15 млн долларов всего 25 лет назад. Число устройств подключенных к интернету в 2 раза больше населения Земли. При этом на каждого человека приходится больше 9 кв.м. экранов.

Общая парадигма отношения к данным в бизнесе – чем больше данных, тем лучше. Надо только измерять, контролировать и находить корреляции. А там уж и ответы на все вопросы. Основная проблема подхода в том, что различить корреляцию и причинно-следственную связь бывает очень сложно.

Что общего между Data Science и бомжом на свалке?

Например, с 1999 по 2010 г. объем расходов на научные исследования в США почти точно повторяли колебания числа самоубийств через повешение и удушение. Сложно поверить, что это связано, но цифры говорят, что это возможно.

Огромное количество выводов делается на основе корреляций, которые являются лишь совпадениями.

Особенно тяжелыми такие выводы могут быть в медицине. Даже сейчас, из-за отсутствия понимания первопричин болезнями часто принято называть то, что фактически является лишь симптомами.

В качестве примера можно привести историю, о том, как в диетах возник страх животных жиров. Профессор физиологии Ангел Кис 1951 года отправился в Европу искать причину болезней сердца. По статистике, в Неаполе (Италия) в то время было меньше всего людей, страдающих от сердечно-сосудистых заболеваний. Он решил проанализировать их рацион.

В Неаполе Кис заметил, что местные жители едят на обед макароны, простую пиццу, овощи с оливковым маслом, на десерт фрукты, много вина и совсем мало мяса. Дополнительно был проанализирован рацион жителей других стран, в том числе США, где традиционно потребляют много животных жиров. Оказалось, что смертность мужчин в США выше, чем в Японии. При этом он не учитывал, что в Японии традиционно употребляют меньше сахара и порции еды намного меньше. Вывод Киса был логичен и однозначен – отсутствие мяса в рационе помогает избежать сердечных приступов.

Благодаря талантам убеждения Киса эта теория прочно вошла в сознание людей. К советам Киса прислушивался даже личный врач президента Эйзенхаура. А уже в 1961 году его идеи вошли в доклад Американской ассоциации по изучению сердечно-сосудистых заболеваний. Журнал Times в этом же году поместил Киса на обложку назвав его «самым влиятельным экспертом по питанию в XXI веке».

В настоящий момент более миллиона научных статей ссылаются на выводы Киса, а вред мяса достаточно прочно вошел в сознание людей. При этом макароны, растительное масло и маргарин стали вполне полезными продуктами.

В противовес этой теории существует как минимум 6 клинических испытаний, которые опровергают связь между заболеваниями сердца и потреблением животных жиров [1, с. 50-51]. При этом замещение животных жиров на растительные, подвергшиеся промышленной обработке, привело к росту риска смерти.

Существует и другая грань в работе с большими данными. Их количество и сложность. Существующая модель «Искусственного интеллекта» – это поиск корреляций и самообучение на их основе. Как правило модели не ищут причины таких связей и предполагают, что «корреляция важнее причинности».

Замечательный пример того, как понимание причин может привести к выдающимся результатом – это открытие бозона Хиггса [2].

Ключевое действие эксперимента происходило в кольце коллайдера длиной 27 км. Разгоняя на встречу друг другу элементарные частицы до скорости света ученые получали более 600 миллионов столкновений в секунду (!). Более 150 миллионов датчиков давали 150 эксабайт информации в сутки. Попробуем представить эти цифры. Один эксабайт – это миллиард гигабайт. Суммарный объем данных всеми устройствами мира вместе взятыми составляем 2.5 эксабайта в сутки. Представьте, андронный коллайдер выдавал в 75 раз больше данных, чем весь остальной мир. ОЧЕНЬ-ОЧЕНЬ-ОЧЕНЬ жестокая задача для команды Data-Science.
Как же они справились?
Всё дело в том, что перед начало экспериментов уже существовала внятная и подробная теоретическая модель, которая позволяла понимать где надо искать. Таким образом полезными данными являлись лишь 0,00001% от общего потока. Учёные знали где искать и что искать.

Вывод ясен – разные данные не равны друг другу по значимости. Чтобы вы не искали или не изучали, важно руководствоваться теорией или как минимум пониманием процессов, которая спасет от трагических случайных выводов и убережёт от поиска бриллиантов на свалке данных.

По мотивам идей из книг:

[1] Клетка на диете, Джозеф Меркола. Научное открытие о влиянии жиров на мышление, физическую активность и обмен веществ.
[2] Масштаб, Джеффри Уэст. Универсальные законы роста, инноваций, устойчивости и темпов жизни организмов, городов, экономических систем и компаний.

55
реклама
разместить
4 комментария

Одинаково пахнут? 🤔

1

У человека тоже самое. Такая же проблема: огромный обьем информации.
Как раз для этого и нужен аналитический ум человеку. 
Который структурирует, выделит нужное, откинет лишнее, свяжет между собой в логическую структуру. 

Странные случайности... вспомнился скандал с оскорблением евреев в каптче какого-то банка.

Познавательно, спасибо:)

Apple представила MacBook Air на чипе M4 и по цене от $999

У него обновлённая камера Center Stage на 12 Мп.

Источник здесь и далее: Apple
2020
44
22
11
реклама
разместить
Власти не будут использовать геолокацию, чтобы автоматически определять налоговое резидентство россиян

Но данные могут стать поводом для проверки.

1919
11
Когда с VPN стал резидентом всех стран 😎
Как зарабатывать с ИИ уже сейчас? Пока ты читаешь, другие делают сотни тысяч на пустом месте
Как зарабатывать с ИИ уже сейчас? Пока ты читаешь, другие делают сотни тысяч на пустом месте
11
ИИ-ассистент уволил 8 менеджеров и сэкономил бизнесу 2,8 млн руб в год
ИИ-ассистент уволил 8 менеджеров и сэкономил бизнесу 2,8 млн руб в год

Вы можете уже завтра уволить восемь менеджеров, а продажи и лояльность клиентов от этого только вырастут. При этом вы еще 2,8 млн руб/год на ФОТ (фонд оплаты труда) сэкономите. Как это возможно? Сейчас расскажу.

1919
1818
22
2,8 млн руб./год на 8 сотрудников - это менее 30 тысяч руб./месяц зарплата в среднем. В общем, правильно сделали, что уволили - уверен, на новом месте они смогут получать больше. По поводу скептического настроя в комментариях: про рекламируемый в статье инструмент сказать ровным счётом ничего не могу, но, например, для нормально реализованного бота в телеге с поддержкой апи антропиков и опенаи весь саппорт - посмотреть на агрегированные отчёты два раза в неделю.
В Telegram-каналах распространили информацию о закрытии действующей кредитной карты клиента «Т-Банка» из-за подключения самозапрета на кредиты — в банке это опровергли

Под закрытие могут попасть только неактивированные кредитки — по которым не проводилось расходных операций, пояснили в компании.

Скриншот из Telegram-канала «Банкста» 
1717
Здравствуйте. Мы не закрываем кредитные карты, если клиент активно ей пользуется. Можем это сделать, если клиент подписал документы, а затем установил самозапрет. В соответствии с Условиями обслуживания, кредитный договор заключаем не во время подписания документов, а в момент активации кредитной карты или совершения первой операций по ней.
За какой кэшбек с рекламы можно присесть на 6 лет

Все пароли и явки сдали в статье.

За какой кэшбек с рекламы можно присесть на 6 лет
4040
1515
44
Против кого вы дружите в контенте?

Контент для конкурентов или почему мы обсуждаем с близкими далеких.

Против кого вы дружите в контенте?
11
ФАС продлила на месяц предписание для Ozon и Wildberries о необходимости сделать добровольным для продавцов участие в скидочных акциях

До конца марта 2025 года.

33
11
[]