Часто при сравнении статистических величин на больших интернет-данных люди "проверяют данные на нормальность" прежде чем применять t-test. Также иногда проводится предобработка данных. Например, логарифмирование ненормальных данных, чтобы "нормализовать их".
Давайте с вами попробуем выяснить, насколько это вообще является необходимой процедурой.
Сразу скажу, что я давненько хочу написать статью по этой теме. Какое-то время назад увидел похожую англоязычную статью, идеи которой я также буду использовать здесь
Начнем с азов. Для чего вообще мы используем статистический тест?
У нас есть 2 (или большее, но будем считать, что две) выборки. И мы хотим сравнить их. Чаще всего мы хотим сравнить средние. Почему? Потому что нас интересует обычно сумма на всех пользователей. Будь то сумма денег (выручка), будь то сумма кликов-просмотров. Поэтому мы сравниваем и растим ARPU (revenue per user), Time per user, ... Нас гораздо реже интересует сравнение какой-то сложной статистики. Например, квадрата среднего.
Каким образом мы можем поступить для выполнения сей задачи?
Метод | Достоинства | Недостатки |
Бутстрап | Универсален, подходит для любых распределений и проверки любых гипотез | Является вычислительно очень сложным |
Непараметрические критерии (например, манн-уитни) | Универсален для любых распределений | Сложная интерпретация статистических гипотез |
Параметрические критерии (например, t-test) | Легко интерпретируется | Есть ограничения на применимость использования |
В этой статье попробуем выяснить насколько корректно использовать для проверки гипотез именно t-test
Начнем с азов.
Есть центральная предельная теорема. Что это обозначает?
Это обозначает, что