Когда использовать Z-критерий, а не t-критерий?

Какой размер выборки нужен для Z-теста? — Теоретически достаточно n ≥ 1, но на практике для надёжности Центральной предельной теоремы рекомендуется n ≥ 30. При меньших n проверяйте нормальность данных.

Что делать, если p-value равно ровно 0.05?

Отрицательное значение Z — это ошибка? — Нет. Отрицательный Z означает, что среднее выборки меньше предполагаемого среднего. Это нормально — направление учитывается при расчёте p-value.

Можно ли использовать Z-тест для сравнения двух выборок?

Что такое мощность Z-теста? — Это вероятность отвергнуть ложную нулевую гипотезу. Мощность растёт с увеличением n и величины эффекта (разницы x̄ − μ₀), а также с уменьшением σ.

Онлайн-инструментОнлайнБесплатно

Калькулятор Z-критерия

Q: Источники и справочные данные

Расчёт Z-статистики основан на классической теории проверки статистических гипотез, восходящей к работам Рональда Фишера (1925) и Ежи Неймана с Эгоном Пирсоном (1933). Критические значения взяты из стандартных таблиц нормального распределения. Аппроксимация функции распределения нормального распределения выполнена по формуле Абрамовица и Стиган (Abramowitz & Stegun, 1964, формула 26.2.17). Для практического применения рекомендуется сверяться с таблицами из ISO 2854:1976 и ГОСТ Р 50779.21-2004.

Онлайн калькулятор Z-критерия для проверки гипотез о среднем. Автоматический расчет Z-статистики, p-value и критических значений с пошаговой инструкцией и примерами.

Обновлено: 15 мая 2026 г.

Научный подход

На проверенных формулах

Точно и быстро

Результат за секунды

Конфиденциально

Данные не покидают браузер

ФормулыБыстроПриватно

Калькулятор Z-критерия

Проверьте статистическую гипотезу о среднем значении, когда известна дисперсия генеральной совокупности. Быстрый расчёт Z-статистики, p-value и критических значений.

Среднее выборки (x̄)

Среднее генеральной совокупности (μ₀)

Стандартное отклонение (σ) Должно быть больше нуля

Размер выборки (n) Минимум 1

Уровень значимости (α)

Тип критерия

—

Z-статистика

безразмерная

—

P-значение

вероятность

—

Критическое Z

при заданном α

—

Стандартная ошибка

ед. измерения

Введите данные и нажмите «Рассчитать»

Как пользоваться калькулятором

Введите среднее значение вашей выборки (x̄). Например, 105.2 — если вы измерили средний рост 30 студентов и получили 175.3 см, вводите 175.3.

Укажите среднее генеральной совокупности (μ₀) — значение, с которым сравниваете. Например, генеральный средний рост по стране равен 172.0 см.

Введите стандартное отклонение генеральной совокупности (σ). Для роста это может быть 8.5 см. Важно: σ должно быть больше нуля и известно заранее.

Укажите размер выборки (n) — сколько объектов вы измерили. Выберите уровень значимости α и тип критерия, затем нажмите «Рассчитать».

Примеры расчёта

Пример 1: Контроль качества упаковки

Производитель утверждает, что средний вес упаковки равен 500 г (μ₀ = 500). Вы взяли выборку из 36 упаковок: средний вес x̄ = 497 г, известное σ = 12 г. Z-статистика = (497 − 500) / (12 / √36) = −1.5. Для двустороннего теста при α = 0.05 критическое Z = 1.96. |−1.5| < 1.96 — нет оснований отвергнуть гипотезу. P-значение ≈ 0.134.

Пример 2: Успеваемость студентов

Средний балл по университету μ₀ = 72. В группе из 49 студентов x̄ = 76.2 при σ = 10. Z = (76.2 − 72) / (10 / √49) = 2.94. Для правостороннего теста при α = 0.01 критическое Z = 2.326. 2.94 > 2.326 — гипотеза отвергается, группа действительно имеет более высокий балл. P-значение ≈ 0.0016.

Пример 3: Артериальное давление

Нормальное диастолическое давление μ₀ = 80 мм рт. ст. Выборка из 64 пациентов: x̄ = 77.5, σ = 9. Z = (77.5 − 80) / (9 / √64) = −2.22. Для левостороннего теста при α = 0.05 критическое Z = −1.645. −2.22 < −1.645 — гипотеза отвергается, давление ниже нормы. P-значение ≈ 0.013.

Формулы расчёта

Z = (x̄ − μ₀) / (σ / √n)

где x̄ — среднее выборки, μ₀ — среднее генеральной совокупности, σ — стандартное отклонение генеральной совокупности, n — размер выборки.

SE = σ / √n

SE — стандартная ошибка среднего. Чем больше выборка, тем меньше ошибка и тем чувствительнее тест.

p-value (двусторонний) = 2 × (1 − Φ(|Z|))

Φ — функция распределения стандартного нормального распределения. Для одностороннего теста p-value = 1 − Φ(Z) (правосторонний) или Φ(Z) (левосторонний).

Пошаговое объяснение

1. Вы вычисляете разницу между средним выборки и предполагаемым средним генеральной совокупности: x̄ − μ₀. Это наблюдаемое отклонение.

2. Делите это отклонение на стандартную ошибку среднего SE = σ / √n. Так вы узнаёте, на сколько стандартных ошибок ваше наблюдение отстоит от гипотетического значения.

3. Полученная Z-статистика показывает, насколько экстремален ваш результат. Если |Z| больше критического значения, гипотеза отвергается.

4. P-значение — это вероятность получить такое же или более экстремальное значение Z при условии, что нулевая гипотеза верна. Малое p-value (обычно меньше α) говорит против нулевой гипотезы.

Где применяется

Контроль качества на производстве: проверка соответствия продукции заданным стандартам — вес упаковок, диаметр деталей, объём наполнения бутылок.
Медицинские исследования: сравнение средних показателей группы пациентов с популяционной нормой — артериальное давление, уровень холестерина, индекс массы тела.
Образование и педагогика: анализ успеваемости — отличается ли средний балл класса от среднего по школе или региону.
Маркетинг и анализ конверсии: проверка, значимо ли изменилась конверсия после рекламной кампании, если известна дисперсия исторических данных.
Социологические опросы: сравнение средних ответов респондентов с известными популяционными параметрами.
Сельское хозяйство: оценка урожайности — отличается ли средняя урожайность сорта от заявленной селекционером.

Важные нюансы

Z-критерий требует знания стандартного отклонения генеральной совокупности (σ). Если σ неизвестно, используйте t-критерий Стьюдента.
Предполагается, что данные распределены нормально или выборка достаточно велика (n ≥ 30) — тогда работает Центральная предельная теорема.
Наблюдения должны быть независимыми. Одно измерение не должно влиять на другое.
При малых выборках (n < 30) и неизвестной нормальности данных лучше использовать непараметрические аналоги, например, критерий знаков.
Результат Z-теста — это вероятностное утверждение. Отсутствие значимости не доказывает равенство средних, а лишь говорит о недостатке данных для опровержения.
При очень больших выборках даже маленькое практическое различие может стать статистически значимым. Всегда оценивайте практическую значимость результата, а не только p-value.

Частые ошибки

Путаница с t-критерием: если σ генеральной совокупности неизвестно и оценивается по выборке, Z-критерий даст заниженное p-value. Используйте t-тест.
Неправильный выбор типа теста: односторонний тест применяйте только когда у вас есть априорная гипотеза о направлении. Без оснований используйте двусторонний.
Игнорирование размера выборки: n = 1 делает расчёт невозможным де-факто, а n = 2-5 даёт очень низкую мощность теста — вы рискуете не заметить реальное различие.
Подгонка уровня значимости: выбор α = 0.05 после расчёта, чтобы «подогнать» результат под значимость — это нарушение методологии. Уровень значимости выбирается до анализа.
Интерпретация p-value как вероятности нулевой гипотезы: p-value — это вероятность данных при условии верности нулевой гипотезы, а не наоборот.
Множественное тестирование без поправок: если вы делаете несколько Z-тестов подряд, используйте поправку Бонферрони или аналогичную.

Ответы на частые вопросы

Когда использовать Z-критерий, а не t-критерий? — Когда стандартное отклонение генеральной совокупности (σ) точно известно. На практике это бывает редко, поэтому t-критерий применяется чаще. Но если у вас большой объём исторических данных и σ надёжно оценено, Z-тест — ваш выбор.
Какой размер выборки нужен для Z-теста? — Теоретически достаточно n ≥ 1, но на практике для надёжности Центральной предельной теоремы рекомендуется n ≥ 30. При меньших n проверяйте нормальность данных.
Что делать, если p-value равно ровно 0.05? — Это пограничный случай. Большинство исследователей считают результат значимым при p ≤ α. Но лучше собрать дополнительные данные или использовать доверительные интервалы для более полной картины.
Отрицательное значение Z — это ошибка? — Нет. Отрицательный Z означает, что среднее выборки меньше предполагаемого среднего. Это нормально — направление учитывается при расчёте p-value.
Можно ли использовать Z-тест для сравнения двух выборок? — Да, существует Z-тест для сравнения двух средних, но там формула сложнее и требуется знать дисперсии обеих совокупностей. Данный калькулятор — для одного среднего.
Что такое мощность Z-теста? — Это вероятность отвергнуть ложную нулевую гипотезу. Мощность растёт с увеличением n и величины эффекта (разницы x̄ − μ₀), а также с уменьшением σ.

Источники и справочные данные

Расчёт Z-статистики основан на классической теории проверки статистических гипотез, восходящей к работам Рональда Фишера (1925) и Ежи Неймана с Эгоном Пирсоном (1933). Критические значения взяты из стандартных таблиц нормального распределения. Аппроксимация функции распределения нормального распределения выполнена по формуле Абрамовица и Стиган (Abramowitz & Stegun, 1964, формула 26.2.17). Для практического применения рекомендуется сверяться с таблицами из ISO 2854:1976 и ГОСТ Р 50779.21-2004.

Z-критерий: что это такое и как его правильно применять

Z-критерий — один из старейших и наиболее изученных статистических инструментов. Он помогает ответить на простой, но важный вопрос: действительно ли среднее значение в моей выборке отличается от некоторого эталонного значения, или разница случайна? Если вы производите упаковки по 500 граммов, проверяете средний рост призывников или анализируете эффективность нового метода обучения — Z-тест даёт объективный критерий для принятия решений, а не полагается на интуицию и «на глаз».

Суть метода: одна формула, глубокая идея

В основе Z-критерия лежит идея стандартизации. Представьте, что вы измеряете рост студентов. Вы получили среднее 178 см, а по стране средний рост — 174 см при стандартном отклонении 7 см. Разница в 4 см выглядит заметной. Но насколько она велика относительно естественной вариативности данных?

Z-статистика отвечает именно на этот вопрос. Формула Z = (x̄ − μ₀) / (σ / √n) преобразует разницу средних в количество стандартных ошибок. Если Z = 2, ваша разница в два раза превышает типичную ошибку измерения — это уже интересно. Если Z = 0.3 — разница, скорее всего, шум.

Красота метода в том, что после стандартизации мы можем использовать свойства нормального распределения. Z-значения подчиняются стандартному нормальному закону со средним 0 и дисперсией 1 — это позволяет вычислять точные вероятности (p-value) и сравнивать результаты разных экспериментов на единой шкале.

Когда Z-тест работает хорошо, а когда — нет

Главное условие — стандартное отклонение генеральной совокупности (σ) должно быть известно. Это ключевое отличие от более популярного t-критерия. На практике σ редко известно точно, но есть ситуации, где это условие выполняется: производственные процессы с многолетней историей измерений, стандартизированные тесты (IQ, SAT), физические константы, демографические показатели из государственной статистики.

Если вы не знаете σ и оцениваете его по той же выборке — используйте t-критерий. Разница между ними уменьшается с ростом размера выборки. При n > 100 Z- и t-критерии дают практически одинаковые результаты. Но при n = 10 разница в критических значениях составляет около 15% — это может изменить вывод.

Второе условие — нормальность распределения данных. При больших выборках (n ≥ 30) Центральная предельная теорема защищает нас: распределение средних стремится к нормальному независимо от формы исходных данных. Но если данные сильно скошены (например, доходы, время отклика системы), а выборка мала — Z-тест может дать ошибочный результат.

Односторонний или двусторонний: как выбрать правильно

Выбор типа теста — не техническая формальность, а отражение вашей исследовательской гипотезы. Двусторонний тест спрашивает: «Есть ли различие?» — в любую сторону. Если вы проверяете, отличается ли средний балл студентов от нормы, неважно, в какую сторону, — это двусторонний тест.

Односторонний тест уточняет направление: «Стало ли лучше?» или «Стало ли меньше?». Например, если вы внедрили новую технологию и хотите доказать, что время обработки сократилось, — это правосторонний тест для разницы (старое минус новое). Если проверяете, снизился ли процент брака после модернизации линии, — левосторонний.

Критические значения для односторонних тестов ниже: при α = 0.05 это 1.645 против 1.96 для двустороннего. Это значит, что односторонним тестом легче получить значимый результат — но только если направление выбрано обоснованно. Неэтично и методологически неверно переключаться на односторонний тест после того, как вы увидели данные.

Интерпретация p-value без заблуждений

P-значение — вероятно, самый неправильно понимаемый статистический показатель. Вот что оно означает на самом деле: если нулевая гипотеза верна (разницы нет), то p-value — это вероятность получить наблюдаемое или более экстремальное различие. Маленькое p-value говорит: «Такие данные были бы очень необычны, если бы нулевая гипотеза была правдой».

Что p-value НЕ означает: оно не сообщает вероятность того, что нулевая гипотеза истинна. Оно не измеряет величину эффекта. P-value = 0.001 не значит, что эффект сильнее, чем при p = 0.04, — оно значит, что данные сильнее противоречат нулевой гипотезе. Для оценки практической важности смотрите на саму разницу (x̄ − μ₀) и доверительный интервал.

Порог значимости α = 0.05 — не священная цифра. Рональд Фишер предложил её как удобное эмпирическое правило в 1925 году, но в разных областях применяют разные пороги. В физике элементарных частиц требуют α = 3×10⁻⁷ (правило «пять сигм»). В социальных науках иногда используют α = 0.10 для поисковых исследований.

Практические советы для осмысленного анализа

Перед запуском теста сформулируйте гипотезы письменно. Нулевая гипотеза H₀: μ = μ₀ (разницы нет). Альтернативная H₁: μ ≠ μ₀, μ > μ₀ или μ < μ₀. Это дисциплинирует и защищает от подгонки post-hoc.

Заранее определите уровень значимости и тип теста. Запишите их до того, как увидите данные. Это предотвращает соблазн подогнать параметры под желаемый результат — распространённую ошибку, которую называют «p-hacking».

Всегда сообщайте не только p-value, но и величину эффекта и доверительный интервал. Например: «Средний вес упаковки ниже нормы на 3.2 г (95% ДИ: [1.1; 5.3], Z = 2.84, p = 0.004)». Такой отчёт даёт полную картину и позволяет читателю самостоятельно оценить практическую значимость.

Если у вас несколько групп для сравнения, не делайте серию отдельных Z-тестов. Каждый дополнительный тест увеличивает вероятность ложноположительного результата. Для k независимых тестов вероятность хотя бы одной ошибки первого рода равна 1 − (1 − α)^k. При 10 тестах и α = 0.05 это уже 40%! Используйте ANOVA с последующими поправками.

Реальный пример из производства

Фармацевтическая компания фасует препарат во флаконы. Номинальный объём — 10.0 мл. Многолетние данные показывают, что стандартное отклонение процесса розлива σ = 0.12 мл. Инженер берёт выборку из 40 флаконов: средний объём x̄ = 9.96 мл. Вопрос: нужно ли останавливать линию для калибровки?

Расчёт: Z = (9.96 − 10.0) / (0.12 / √40) = −0.04 / 0.01897 = −2.11. Для двустороннего теста при α = 0.05 критическое значение — 1.96. |−2.11| > 1.96 — результат статистически значим. Линия действительно недоливает, калибровка необходима. Обратите внимание: разница всего 0.04 мл, но благодаря малой вариативности процесса и достаточному размеру выборки тест её обнаружил.

Этот пример иллюстрирует важный принцип: статистическая значимость и практическая важность — разные вещи. Недолив в 0.04 мл на флаконе в 10 мл — это 0.4%. Возможно, с точки зрения бизнеса такое отклонение приемлемо, даже если оно статистически значимо. Решение всегда остаётся за специалистом, понимающим контекст.

Спросить у ИИ

Задайте вопрос по этой странице

Осталось вопросов: 5. Только по этой странице.

Оцените страницу

Нужен другой инструмент?

Все инструменты в категории