Так ли требуется нужна «проверка на нормальность»?

Часто при сравнении статистических величин на больших интернет-данных люди "проверяют данные на нормальность" прежде чем применять t-test. Также иногда проводится предобработка данных. Например, логарифмирование ненормальных данных, чтобы "нормализовать их".

Давайте с вами попробуем выяснить, насколько это вообще является необходимой процедурой.

Сразу скажу, что я давненько хочу написать статью по этой теме. Какое-то время назад увидел похожую англоязычную статью, идеи которой я также буду использовать здесь

Начнем с азов. Для чего вообще мы используем статистический тест?

У нас есть 2 (или большее, но будем считать, что две) выборки. И мы хотим сравнить их. Чаще всего мы хотим сравнить средние. Почему? Потому что нас интересует обычно сумма на всех пользователей. Будь то сумма денег (выручка), будь то сумма кликов-просмотров. Поэтому мы сравниваем и растим ARPU (revenue per user), Time per user, ... Нас гораздо реже интересует сравнение какой-то сложной статистики. Например, квадрата среднего.

Каким образом мы можем поступить для выполнения сей задачи?

Метод	Достоинства	Недостатки
Бутстрап	Универсален, подходит для любых распределений и проверки любых гипотез	Является вычислительно очень сложным
Непараметрические критерии (например, манн-уитни)	Универсален для любых распределений	Сложная интерпретация статистических гипотез
Параметрические критерии (например, t-test)	Легко интерпретируется	Есть ограничения на применимость использования

В этой статье попробуем выяснить насколько корректно использовать для проверки гипотез именно t-test

Начнем с азов.

Есть центральная предельная теорема. Что это обозначает?

Это обозначает, что

Источник: https://habr.com/ru/post/578048/

Вернуться к списку

Интересные статьи

Требуется менеджер по работе с маркетплейсами, качество не предлагать

«Требуется менеджер по работе с маркетплейсами». - ведение работы с маркетплейсами (Wildberries, Ozon, Lamoda); - создание продающих для нашей ниши карточек товаров; - организация по...

Массовая загрузка, обработка и выгрузка изображений в Битрикс на Python3

В этой статье мы популярно объясняем на собственном опыте как организовать массовую выгрузку, обработку и загрузку фотографий товаров из Bitrix, используя Python и минимальное количество SQL. Для проч...

Нужна ли сертификация для бизнес-аналитика?

Наверное, каждый системный или бизнес-аналитик на каком-то этапе карьеры задумывается о том, что было бы неплохо получить профессиональный сертификат. В этой статье я поп...

Интеграция Zapier и Битрикс24

Битрикс24 — популярная в малом бизнесе CRM c большими возможностями даже на бесплатном тарифе. Благодаря API Битрикс24 (даже в облачной редакции) можно легко интегрировать с другими системами.

Бесплатный ssl-сертификат для сайта на 1С-Битрикс

Как широко известно, с 1 января 2017 года наступает три важных события в жизни интернет-магазинов.