Так ли требуется нужна «проверка на нормальность»?

Моя цель - предложение широкого ассортимента товаров и услуг на постоянно высоком качестве обслуживания по самым выгодным ценам.

Часто при сравнении статистических величин на больших интернет-данных люди "проверяют данные на нормальность" прежде чем применять t-test. Также иногда проводится предобработка данных. Например, логарифмирование ненормальных данных, чтобы "нормализовать их".

Давайте с вами попробуем выяснить, насколько это вообще является необходимой процедурой.

Сразу скажу, что я давненько хочу написать статью по этой теме. Какое-то время назад увидел похожую англоязычную статью, идеи которой я также буду использовать здесь

Начнем с азов. Для чего вообще мы используем статистический тест?

У нас есть 2 (или большее, но будем считать, что две) выборки. И мы хотим сравнить их. Чаще всего мы хотим сравнить средние. Почему? Потому что нас интересует обычно сумма на всех пользователей. Будь то сумма денег (выручка), будь то сумма кликов-просмотров. Поэтому мы сравниваем и растим ARPU (revenue per user), Time per user, ... Нас гораздо реже интересует сравнение какой-то сложной статистики. Например, квадрата среднего.

Каким образом мы можем поступить для выполнения сей задачи?

Метод

Достоинства

Недостатки

Бутстрап

Универсален, подходит для любых распределений и проверки любых гипотез

Является вычислительно очень сложным

Непараметрические критерии (например, манн-уитни)

Универсален для любых распределений

Сложная интерпретация статистических гипотез

Параметрические критерии (например, t-test)

Легко интерпретируется

Есть ограничения на применимость использования

В этой статье попробуем выяснить насколько корректно использовать для проверки гипотез именно t-test

Начнем с азов.

Есть центральная предельная теорема. Что это обозначает?

Это обозначает, что

Источник: https://habr.com/ru/post/578048/


Интересные статьи

Интересные статьи

«Требуется менеджер по работе с маркетплейсами».  - ведение работы с маркетплейсами (Wildberries, Ozon, Lamoda);  - создание продающих для нашей ниши карточек товаров;  - организация по...
В этой статье мы популярно объясняем на собственном опыте как организовать массовую выгрузку, обработку и загрузку фотографий товаров из Bitrix, используя Python и минимальное количество SQL. Для проч...
Наверное, каждый системный или бизнес-аналитик на каком-то этапе карьеры задумывается о том, что было бы неплохо получить профессиональный сертификат. В этой статье я поп...
Битрикс24 — популярная в малом бизнесе CRM c большими возможностями даже на бесплатном тарифе. Благодаря API Битрикс24 (даже в облачной редакции) можно легко интегрировать с другими системами.
Как широко известно, с 1 января 2017 года наступает три важных события в жизни интернет-магазинов.