Онлайн калькулятор Z-критерия для проверки гипотез о среднем. Автоматический расчет Z-статистики, p-value и критических значений с пошаговой инструкцией и примерами.
Проверьте статистическую гипотезу о среднем значении, когда известна дисперсия генеральной совокупности. Быстрый расчёт Z-статистики, p-value и критических значений.
Z = (x̄ − μ₀) / (σ / √n)
где x̄ — среднее выборки, μ₀ — среднее генеральной совокупности, σ — стандартное отклонение генеральной совокупности, n — размер выборки.
SE = σ / √n
SE — стандартная ошибка среднего. Чем больше выборка, тем меньше ошибка и тем чувствительнее тест.
p-value (двусторонний) = 2 × (1 − Φ(|Z|))
Φ — функция распределения стандартного нормального распределения. Для одностороннего теста p-value = 1 − Φ(Z) (правосторонний) или Φ(Z) (левосторонний).
1. Вы вычисляете разницу между средним выборки и предполагаемым средним генеральной совокупности: x̄ − μ₀. Это наблюдаемое отклонение.
2. Делите это отклонение на стандартную ошибку среднего SE = σ / √n. Так вы узнаёте, на сколько стандартных ошибок ваше наблюдение отстоит от гипотетического значения.
3. Полученная Z-статистика показывает, насколько экстремален ваш результат. Если |Z| больше критического значения, гипотеза отвергается.
4. P-значение — это вероятность получить такое же или более экстремальное значение Z при условии, что нулевая гипотеза верна. Малое p-value (обычно меньше α) говорит против нулевой гипотезы.
Расчёт Z-статистики основан на классической теории проверки статистических гипотез, восходящей к работам Рональда Фишера (1925) и Ежи Неймана с Эгоном Пирсоном (1933). Критические значения взяты из стандартных таблиц нормального распределения. Аппроксимация функции распределения нормального распределения выполнена по формуле Абрамовица и Стиган (Abramowitz & Stegun, 1964, формула 26.2.17). Для практического применения рекомендуется сверяться с таблицами из ISO 2854:1976 и ГОСТ Р 50779.21-2004.
Z-критерий — один из старейших и наиболее изученных статистических инструментов. Он помогает ответить на простой, но важный вопрос: действительно ли среднее значение в моей выборке отличается от некоторого эталонного значения, или разница случайна? Если вы производите упаковки по 500 граммов, проверяете средний рост призывников или анализируете эффективность нового метода обучения — Z-тест даёт объективный критерий для принятия решений, а не полагается на интуицию и «на глаз».
В основе Z-критерия лежит идея стандартизации. Представьте, что вы измеряете рост студентов. Вы получили среднее 178 см, а по стране средний рост — 174 см при стандартном отклонении 7 см. Разница в 4 см выглядит заметной. Но насколько она велика относительно естественной вариативности данных?
Z-статистика отвечает именно на этот вопрос. Формула Z = (x̄ − μ₀) / (σ / √n) преобразует разницу средних в количество стандартных ошибок. Если Z = 2, ваша разница в два раза превышает типичную ошибку измерения — это уже интересно. Если Z = 0.3 — разница, скорее всего, шум.
Красота метода в том, что после стандартизации мы можем использовать свойства нормального распределения. Z-значения подчиняются стандартному нормальному закону со средним 0 и дисперсией 1 — это позволяет вычислять точные вероятности (p-value) и сравнивать результаты разных экспериментов на единой шкале.
Главное условие — стандартное отклонение генеральной совокупности (σ) должно быть известно. Это ключевое отличие от более популярного t-критерия. На практике σ редко известно точно, но есть ситуации, где это условие выполняется: производственные процессы с многолетней историей измерений, стандартизированные тесты (IQ, SAT), физические константы, демографические показатели из государственной статистики.
Если вы не знаете σ и оцениваете его по той же выборке — используйте t-критерий. Разница между ними уменьшается с ростом размера выборки. При n > 100 Z- и t-критерии дают практически одинаковые результаты. Но при n = 10 разница в критических значениях составляет около 15% — это может изменить вывод.
Второе условие — нормальность распределения данных. При больших выборках (n ≥ 30) Центральная предельная теорема защищает нас: распределение средних стремится к нормальному независимо от формы исходных данных. Но если данные сильно скошены (например, доходы, время отклика системы), а выборка мала — Z-тест может дать ошибочный результат.
Выбор типа теста — не техническая формальность, а отражение вашей исследовательской гипотезы. Двусторонний тест спрашивает: «Есть ли различие?» — в любую сторону. Если вы проверяете, отличается ли средний балл студентов от нормы, неважно, в какую сторону, — это двусторонний тест.
Односторонний тест уточняет направление: «Стало ли лучше?» или «Стало ли меньше?». Например, если вы внедрили новую технологию и хотите доказать, что время обработки сократилось, — это правосторонний тест для разницы (старое минус новое). Если проверяете, снизился ли процент брака после модернизации линии, — левосторонний.
Критические значения для односторонних тестов ниже: при α = 0.05 это 1.645 против 1.96 для двустороннего. Это значит, что односторонним тестом легче получить значимый результат — но только если направление выбрано обоснованно. Неэтично и методологически неверно переключаться на односторонний тест после того, как вы увидели данные.
P-значение — вероятно, самый неправильно понимаемый статистический показатель. Вот что оно означает на самом деле: если нулевая гипотеза верна (разницы нет), то p-value — это вероятность получить наблюдаемое или более экстремальное различие. Маленькое p-value говорит: «Такие данные были бы очень необычны, если бы нулевая гипотеза была правдой».
Что p-value НЕ означает: оно не сообщает вероятность того, что нулевая гипотеза истинна. Оно не измеряет величину эффекта. P-value = 0.001 не значит, что эффект сильнее, чем при p = 0.04, — оно значит, что данные сильнее противоречат нулевой гипотезе. Для оценки практической важности смотрите на саму разницу (x̄ − μ₀) и доверительный интервал.
Порог значимости α = 0.05 — не священная цифра. Рональд Фишер предложил её как удобное эмпирическое правило в 1925 году, но в разных областях применяют разные пороги. В физике элементарных частиц требуют α = 3×10⁻⁷ (правило «пять сигм»). В социальных науках иногда используют α = 0.10 для поисковых исследований.
Перед запуском теста сформулируйте гипотезы письменно. Нулевая гипотеза H₀: μ = μ₀ (разницы нет). Альтернативная H₁: μ ≠ μ₀, μ > μ₀ или μ < μ₀. Это дисциплинирует и защищает от подгонки post-hoc.
Заранее определите уровень значимости и тип теста. Запишите их до того, как увидите данные. Это предотвращает соблазн подогнать параметры под желаемый результат — распространённую ошибку, которую называют «p-hacking».
Всегда сообщайте не только p-value, но и величину эффекта и доверительный интервал. Например: «Средний вес упаковки ниже нормы на 3.2 г (95% ДИ: [1.1; 5.3], Z = 2.84, p = 0.004)». Такой отчёт даёт полную картину и позволяет читателю самостоятельно оценить практическую значимость.
Если у вас несколько групп для сравнения, не делайте серию отдельных Z-тестов. Каждый дополнительный тест увеличивает вероятность ложноположительного результата. Для k независимых тестов вероятность хотя бы одной ошибки первого рода равна 1 − (1 − α)k. При 10 тестах и α = 0.05 это уже 40%! Используйте ANOVA с последующими поправками.
Фармацевтическая компания фасует препарат во флаконы. Номинальный объём — 10.0 мл. Многолетние данные показывают, что стандартное отклонение процесса розлива σ = 0.12 мл. Инженер берёт выборку из 40 флаконов: средний объём x̄ = 9.96 мл. Вопрос: нужно ли останавливать линию для калибровки?
Расчёт: Z = (9.96 − 10.0) / (0.12 / √40) = −0.04 / 0.01897 = −2.11. Для двустороннего теста при α = 0.05 критическое значение — 1.96. |−2.11| > 1.96 — результат статистически значим. Линия действительно недоливает, калибровка необходима. Обратите внимание: разница всего 0.04 мл, но благодаря малой вариативности процесса и достаточному размеру выборки тест её обнаружил.
Этот пример иллюстрирует важный принцип: статистическая значимость и практическая важность — разные вещи. Недолив в 0.04 мл на флаконе в 10 мл — это 0.4%. Возможно, с точки зрения бизнеса такое отклонение приемлемо, даже если оно статистически значимо. Решение всегда остаётся за специалистом, понимающим контекст.
Задайте вопрос по этому калькулятору
Осталось вопросов: 5. Только по этому инструменту.
Нужен другой инструмент?
Все инструменты в категории