Проверка гипотез на python

С каждым днем количество данных становится больше и больше. И как говорится, чем больше ты знаешь, тем больше ты задаешь вопросов, и тем больше ты хочешь получить ответов. Получить ответы на основе данных можно с помощью статистики. А именно, если требуется что-то сравнить, поможет проверка статистических гипотез.

1111

Очень слабо написано. Тема не раскрыта даже поверхностно. Информация сильно разрознена. Есть грубые методические ошибки.

Определение уровня значимости довольно большая тема, поэтому обозначим кратко основные моменты.Опишите хотя бы, какой математический смысл имеет уровень значимости.

Гипотеза: средние показатели тарифов различаются.Стоп, откуда тарифы? до сих пор про них не было ни слова. Что за тарифы?
Тарифы на жкх, на сотовую связь, на энергоносители?

Первым тестом для проверки будет тест Шапиро-Уилка. Почему мы выбрали именно этот критерий, а, например, не критерий Колмогорова, Пирсона?
Чем обусловлен выбор?

data = pd.concat([data_1, data_2]).reset_index(drop=True)То есть склеили воедино выборку нормально распределенной СВ и равномерно распределенной СВ, ок, норм.
Отклонить гипотезу о нормальностиНичего удивительного, проверяли винегрет из тарифов

Тест показал, что нормальность не соблюдается.Следующий тест, тест Левена.Тут надо бы написать, что мы используем критерий Левена именно по той причине,
что нормальность ни одной из выборок не соблюдается, иначе бы использовали критерий Бартлетта, например.
Хотя, постойте, нам же надо было проверять на нормальность каждую из двух выборок data_1 и data_2 по отдельности.
А мы смешали их в кучу.
Ну да ладно, тест Левена справится.

Отклонить гипотезу о равенстве дисперсийОК, справился, действительно дисперсии различны

Проверим гипотезу с помощью scipy.stats.ttest_ind, так как с его помощью можно сравнить средние двух совокупностей.Подождите-ка, this test assumes that the populations have identical variances by default.
А мы только что с помощью теста Левена получили результат, что дисперсии различны.
То есть применять критерий Стьюдента мы не имеем возможности.
Ну применить конечно, можно, но смысла результат иметь не будет.
(scipy.stats.ttest_ind - это критерий Стьюдента, об этом тоже неплохо было бы упомянуть в статье)

И не допускать ошибок первого и второго рода. Так как вероятность принять неправильную гипотезу, Н₀, или отвергнуть правильную всегда есть.А что это за ошибки, в чем состоят?
Возможно, они как-то связаны с таинственным уровнем значимости из начала статьи? )
Об этом как раз и нужно было тут написать.

3
Ответить
Автор

Большое спасибо за вашу развернутую обратную связь!
Разбираться в этой теме автор начал не так давно, видимо, поэтому возникли ваши комментарии.
Уровень значимости понимался, как допустимая вероятность отклонить нулевую гипотезу.
Упоминание тарифов было в первоначальном варианте исследований.
Согласны, было бы корректнее выбрать тест Колмогорова-Смирнова, т.к. количество записей для него достаточное.
Упустили момент, что не написали про ошибки первого и второго рода.
Следующие исследования будем проводить глубже и тщательнее )

1
Ответить