Рассчитайте t-статистику, p-значение и доверительный интервал для двух независимых выборок. Проверьте статистическую значимость различий с помощью t-критерия Стьюдента.
Рассчитайте t-статистику, p-значение и доверительный интервал для двух независимых выборок и проверьте статистическую значимость различий.
Калькулятор использует t-критерий для двух независимых выборок с равными дисперсиями (критерий Стьюдента):
Sp = √[ ((n₁ − 1)·s₁² + (n₂ − 1)·s₂²) / (n₁ + n₂ − 2) ]
t = (X̄₁ − X̄₂) / (Sp · √(1/n₁ + 1/n₂))
df = n₁ + n₂ − 2
SE = Sp · √(1/n₁ + 1/n₂)
CI₉₅ = (X̄₁ − X̄₂) ± tкрит · SEp-значение вычисляется численным интегрированием функции плотности t-распределения. Используется двусторонний тест: p = 2 · (1 − CDF(|t|, df)).
Расчёт t-критерия проходит в несколько этапов:
p-значение — это вероятность получить наблюдаемую (или более экстремальную) разность средних при условии, что нулевая гипотеза верна (то есть группы на самом деле не различаются). Маленькое p (обычно < 0.05) говорит о том, что различие вряд ли случайно.
Оба проверяют гипотезы о средних. Z-критерий требует знания истинной дисперсии генеральной совокупности. T-критерий использует выборочную дисперсию и применяется, когда дисперсия неизвестна — это более реалистичный сценарий.
Традиционно α = 0.05. В исследованиях с высокими ставками (например, медицинские испытания) могут использовать α = 0.01. В exploratory-анализе допустим α = 0.10.
Да, но с осторожностью. Если проценты получены из бинарных данных (доля успехов), лучше использовать z-тест для пропорций или критерий хи-квадрат, особенно при малых выборках.
Формально при α = 0.05 это граничный случай. На практике принимают решение исходя из контекста: если p = 0.050 — можно считать результат погранично значимым, но лучше собрать больше данных.
Доверительный интервал симметричен относительно наблюдаемой разности средних, а не относительно нуля. Если разность средних равна 5, а SE = 2, то 95% ДИ будет примерно от 1 до 9.
Расчёт основан на классическом t-критерии Стьюдента для независимых выборок с равными дисперсиями, описанном Уильямом Госсетом (псевдоним «Student») в 1908 году. P-значение вычисляется численным интегрированием функции плотности t-распределения методом Симпсона. Критические значения t-распределения для доверительных интервалов находятся методом бисекции. Формулы соответствуют стандартам, принятым в руководствах: Zar J.H. «Biostatistical Analysis», Sokal R.R. & Rohlf F.J. «Biometry», а также ГОСТ Р 50779.22-2005 по статистическим методам.
T-критерий Стьюдента — один из самых популярных статистических методов проверки гипотез. Он отвечает на простой вопрос: действительно ли две группы различаются по среднему значению какого-либо показателя, или наблюдаемая разница — лишь случайность? Метод разработан в 1908 году Уильямом Госсетом, химиком пивоварни Guinness, который публиковался под псевдонимом «Student».
В основе критерия лежит сравнение разности средних с естественной вариативностью данных. Если разница велика по сравнению с разбросом — она статистически значима. Математически это выражается через t-статистику: отношение разности средних к её стандартной ошибке.
Существует три основных варианта t-критерия, каждый для своей ситуации:
Выбор неправильного варианта — распространённая ошибка. Если вы измеряете давление у 20 пациентов до и после приёма препарата, нужно использовать парный критерий, а не критерий для независимых групп.
Чтобы результаты t-теста были достоверными, данные должны удовлетворять нескольким условиям:
После нажатия «Рассчитать» вы получаете несколько показателей. Ключевые — t-статистика и p-значение. Абсолютная величина t показывает силу различия: |t| > 2 обычно указывает на значимое различие при достаточном размере выборки. P-значение — вероятность случайно получить такое различие, если группы на самом деле одинаковы.
Если p < 0.05 — вы можете говорить о статистически значимом различии на уровне 5%. Это означает, что вероятность ошибки первого рода (ложного обнаружения эффекта, когда его нет) не превышает 5%. Доверительный интервал дополняет картину: если 95% ДИ для разности средних не включает ноль — различие значимо на уровне 0.05.
Важно: статистическая значимость не равна практической важности. Различие может быть значимым, но очень маленьким (например, 0.3 мм рт.ст. давления). Оценивайте величину эффекта отдельно.
T-критерий — мощный, но не универсальный инструмент. Он плохо работает с выбросами, асимметричными данными и порядковыми шкалами. В таких случаях лучше применять:
Для сравнения более двух групп используйте однофакторный дисперсионный анализ (ANOVA). Попарное применение t-тестов к трём и более группам без поправки на множественность сравнений резко увеличивает вероятность ложных открытий.
Перед расчётом проверьте данные на выбросы — одно экстремальное значение может сильно исказить среднее и стандартное отклонение. При малых выборках (n < 15) особенно важно убедиться в отсутствии явных нарушений нормальности — постройте гистограмму или Q-Q график.
Всегда указывайте не только p-значение, но и величину эффекта. Cohen's d — популярная мера: d = (X̄₁ − X̄₂) / Sp. Значения 0.2, 0.5 и 0.8 интерпретируются как слабый, средний и сильный эффект соответственно. Доверительный интервал даёт больше информации, чем бинарный ответ «значимо / не значимо», и настоятельно рекомендуется к отчёту.
Планируя исследование, заранее рассчитайте необходимый размер выборки. Для обнаружения среднего эффекта (d = 0.5) с мощностью 80% и α = 0.05 требуется примерно по 64 наблюдения в каждой группе. Недостаточная выборка — частая причина ложноотрицательных результатов.
И наконец, статистический тест — лишь инструмент. Он не заменяет продуманный дизайн исследования и критическое мышление. Результат t-теста должен интерпретироваться в контексте предметной области и с учётом возможных систематических ошибок.
Задайте вопрос по этому калькулятору
Осталось вопросов: 5. Только по этому инструменту.
Нужен другой инструмент?
Все инструменты в категории