Z-test

Привет, Хабр!

Z-тест, известный также как z-критерий Фишера, представляет собой набор статистических методов для проверки гипотез, которые базируются на предположении о нормальном распределении данных. Эти методы часто используются для анализа, являются ли средние значения двух наборов данных одинаковыми, при условии, что дисперсия генеральной совокупности известна. Еще они применяются для анализа стандартизированных выборочных средних. Расчёт Z-статистики производится путём деления разности между анализируемой случайной величиной и её математическим ожиданием на стандартную ошибку этой величины:

$z={\frac {{\overline {X}}-\,m}{\mathrm {SE} }}$

где X случайная величина выборочного среднего, m - значение математического ожидания, SE - стандартная ошибка этой величины.

Условия для проведения Z-теста

Чтобы результаты Z-теста были валидными, необходимо использовать случайную выборку из генеральной совокупности. Случайная выборка дает репрезентативность данных, что важно для точности выводов, сделанных на основе статистического анализа.

Z-тест требует, чтобы анализируемые данные были непрерывными. Непрерывные данные могут принимать любое значение внутри определенного диапазона и часто измеряются с использованием дробных или десятичных чисел.

Данные должны следовать нормальному распределению. Однако благодаря центральной предельной теореме, это предположение можно игнорировать, если размер выборки достаточно велик , что позволяет распределению средних выборочных значений приближаться к нормальному распределению даже если распределение в генеральной совокупности отличается от нормального.

В случае сравнения двух выборок, Z-тест требует, чтобы выборки были независимы. Это означает, что данные одной выборки не должны влиять на данные другой.

Ну и наконец, необходимо знать стандартное отклонение генеральной совокупности. Это требование отличает Z-тест от t-теста, который используется, когда стандартное отклонение генеральной совокупности неизвестно.

Нулевая и альтернативная гипотеза

Нулевая гипотеза представляет собой предположение о том, что между исследуемыми переменными нет значимой разницы или связи. В контексте Z-теста, который часто используется для сравнения средних, H0 обычно утверждает, что разница между средним значением выборки и средним значением генеральной совокупности равна нулю или что средние значения двух сравниваемых групп равны.

Альтернативная гипотеза представляет собой предположение, противоположное нулевой гипотезе. Она утверждает наличие разницы, эффекта или связи между исследуемыми переменными. В контексте Z-теста, Ha может утверждать, что среднее значение выборки отличается от среднего значения генеральной совокупности, или что средние значения двух групп не равны.

В процессе Z-теста сначала формулируются H0 и Ha, после чего собираются и анализируются данные. Результаты анализа сравниваются с значениями из стандартного нормального распределения. Если рассчитанное Z-значение выходит за пределы критических значений, заданных уровнем значимости α, нулевая гипотеза отвергается в пользу альтернативной.

Виды Z-теста

Одновыборочный Z-тест

Одновыборочный Z-тест — это статистический метод, используемый для сравнения среднего значения выборки с известным средним значением генеральной совокупности при известном стандартном отклонении генеральной совокупности. Тест помогает определить, есть ли статистически значимая разница между средним значением выборки и средним значением генеральной совокупности.

Допустим, у нас есть данные о результатах теста группы студентов, и мы хотим проверить, значимо ли отличается их средний балл от предполагаемого среднего балла генеральной совокупности. Предположим, что средний балл генеральной совокупности составляет 50 баллов, а стандартное отклонение генеральной совокупности — 10 баллов. Наша выборка включает средний балл 20 студентов:

import numpy as np
from scipy.stats import norm

# данные выборки
sample_scores = np.array([54, 51, 58, 44, 55, 52, 57, 47, 54, 58, 56, 48, 53, 49, 50, 59, 51, 52, 55, 48])

# ср. значение выборки
sample_mean = np.mean(sample_scores)

# параметры генеральной совокупности
population_mean = 50
population_std = 10

# размер выборки
n = len(sample_scores)

# Z-статистика
z_score = (sample_mean - population_mean) / (population_std / np.sqrt(n))

# p-значение
p_value = 2 * (1 - norm.cdf(np.abs(z_score)))

print(f"Z-статистика: {z_score}")
print(f"P-значение: {p_value}")

# интерпретация результатов
alpha = 0.05
if p_value < alpha:
    print("Отвергаем нулевую гипотезу, существует значимая разница.")
else:
    print("Не отвергаем нулевую гипотезу, значимой разницы нет.")

Z-статистика: 1.1403946685248914
P-значение: 0.2541219130571091
Не отвергаем нулевую гипотезу, значимой разницы нет.

Двухвыборочный Z-тест

Двухвыборочный Z-тест применяется для сравнения средних значений двух независимых выборок, чтобы определить, есть ли между ними статистически значимые различия. Часто юзают, когда известны стандартные отклонения генеральных совокупностей, и размеры обеих выборок достаточно велики.

Допустим, мы исследуем эффективность двух различных методик обучения. У нас есть результаты тестов двух групп студентов, где каждая группа обучалась по своей методике. Наша задача- определить, есть ли статистически значимые различия в средних результатах тестов между этими двумя группами. Порог будет, к примеру - 0.05

Предположим, что у нас есть следующие данные:

Группа А: средний балл = 78, стандартное отклонение = 10, количество студентов = 30.
Группа Б: средний балл = 72, стандартное отклонение = 12, количество студентов = 35.

import numpy as np
from scipy.stats import norm

# данные групп
mean_a = 78
std_a = 10
n_a = 30
mean_b = 72
std_b = 12
n_b = 35

# вычисляем Z-статистику без прямого использования формулы
pooled_std = np.sqrt(((n_a - 1) * std_a ** 2 + (n_b - 1) * std_b ** 2) / (n_a + n_b - 2))
se = pooled_std * np.sqrt(1 / n_a + 1 / n_b)
Z = (mean_a - mean_b) / se

# вычисляем p-значение
p_value = 2 * (1 - norm.cdf(abs(Z)))

print(f"Z-статистика: {Z:.2f}")
print(f"p-значение: {p_value:.4f}")

Z-статистика: 2.17
p-значение: 0.0302

Т.к p-значение меньше заранее определенного порога, мы можем заключить, что между средними значениями двух групп есть статистически значимые различия.

Выборы между Z-тестом и T-тестом

Z-тест применяется, когда размер выборки больше 30. Благодаря центральной предельной теореме, распределение средних значений выборки приближается к нормальному распределению, что делает Z-тест приемлемым.

T-тест используется при размере выборки меньше 30. При малых выборках распределение средних значений может сильно отличаться от нормального, что требует использования T-распределения.

Z-тест требует, чтобы стандартное отклонение генеральной совокупности было известно.

T-тест не требует знания стандартного отклонения генеральной совокупности; вместо этого используется стандартное отклонение выборки.

Z-тест обычно используется для определения, отличается ли среднее значение выборки от известного среднего значения генеральной совокупности, или для сравнения средних двух различных генеральных совокупностей при известных стандартных отклонениях.

T-тест применяется для сравнения средних значений двух групп, когда стандартное отклонение генеральной совокупности неизвестно. Существуют различные виды T-теста которые используются в зависимости от конкретной ситуации исследования.

Критерий	Z-тест	T-тест
Размер выборки	> 30	≤ 30
Стандартное отклонение	Известно генеральной совокупности	Неизвестно генеральной совокупности
Распределение данных	Нормальное (для малых выборок требуется проверка)	Предполагается нормальное
Применение	Сравнение средних при известном стандартном отклонении	Сравнение средних при неизвестном стандартном отклонении

Z-тест позволяет делать выводы о популяции на основе выборочных данных, предоставляя статистические доказательства в поддержку наших гипотез.

Статья подготовлена в преддверии старта специализации Системный аналитик. На странице специализации вы сможете подробно узнать о программе, а также зарегистрироваться на бесплатный вебинар про основы BPMN для начинающих.

Источник: https://habr.com/ru/companies/otus/articles/793678/

Вернуться к списку

Интересные статьи

Минцифры подготовило проект постановления по увеличению лимитов по IT-ипотеке, чтобы не допустить остановки программы

6 февраля 2024 года Минцифры сообщило о подготовлении ведомством проекта постановления о продлении IT-ипотеки и об увеличении лимитов этой льготной программы для IT-специалистов.

Почему нельзя доверять Google

В 2005 году компания Google решила вступить в конкуренцию с ICQ, MSN и Skype — и выпустила мессенджер Google Talk (Gchat) на открытом протоколе XMPP с распределённой архитектурой. Казалось бы, зам...

Vagrant в РФ

Для работы с виртуальными машинами( тестирования Ansible, кластеров и т.п.) компанией HashiCorp был создан отличный инструмент под названиемVagrant. Но в прошлом году эта компания заблокировала доступ...

Глоссарий по информационной безопасности

Каждый департамент компании, каждая функция бизнеса стремится выполнить свою часть общей задачи по повышению экономической эффективности. При этом у разных отделов есть общий враг – это киберугрозы. Е...

Внести массовые изменения в микросервисы, автоматизировать код-ревью и сберечь нервы команде

Представьте ситуацию — ваше задание на работе изменить формат логирования. Сначала всё кажется просто. Ровно до того момента, пока все эти изменения не нужно вносить в 80+ микросервисах… ...