Онлайн-инструментОнлайнБесплатно

Калькулятор A/B теста

Q: Что такое p-значение простыми словами?

P-значение — это вероятность получить наблюдаемую разницу (или ещё большую) чисто случайно, если на самом деле разницы между вариантами нет. Маленькое p-значение (обычно

Q: Какой уровень значимости выбрать?

Стандарт в отрасли — 95% (p

Q: Сколько нужно посетителей для A/B теста?

Зависит от базовой конверсии и желаемого минимального обнаруживаемого эффекта. Например, чтобы надёжно найти прирост с 5% до 5,5% при уровне значимости 95% и мощности 80%, нужно около 100 000 посетителей на группу. Для грубой оценки используйте калькуляторы размера выборки.

Q: Можно ли сравнивать больше двух вариантов?

Да, но тогда нужно применять поправки на множественное сравнение (например, ANOVA или поправку Бонферрони). Данный калькулятор рассчитан на сравнение ровно двух групп.

Q: Что делать, если тест не показал значимости?

Не спешите объявлять вариант B неудачным. Возможно, не хватило выборки. Рассчитайте необходимый размер выборки заранее. Или проанализируйте, не было ли внешних помех.

Q: Насколько точны результаты калькулятора?

Калькулятор использует аппроксимацию нормального распределения и даёт точность, достаточную для практических бизнес-решений. Для выборок с малым числом конверсий (

Калькулятор A/B теста для расчета статистической значимости различий между двумя вариантами. Введите данные групп A и B, получите Z-статистику, P-значение и вывод о значимости.

Обновлено: 14 мая 2026 г.

Научный подход

На проверенных формулах

Точно и быстро

Результат за секунды

Конфиденциально

Данные не покидают браузер

ФормулыБыстроПриватно

Калькулятор A/B теста

Рассчитайте статистическую значимость различий между двумя вариантами и определите, какой из них эффективнее.

Посетители группы A

Конверсии группы A

Посетители группы B

Конверсии группы B

Уровень значимости (%)

—

Конверсия A

—

Конверсия B

—

Абсолютная разница

п.п.

—

Относительный прирост

—

Z-статистика

—

P-значение

Как пользоваться калькулятором

Введите количество посетителей для группы A (контроль) и группы B (тестируемый вариант). Например: в каждой группе по 5000 посетителей.

Укажите число конверсий для каждой группы. Например: группа A — 250 конверсий (5%), группа B — 300 конверсий (6%).

Задайте уровень значимости (по умолчанию 95%). Это порог, при котором разница считается статистически значимой.

Нажмите «Рассчитать». Если p-значение меньше (1 − уровень значимости), разница статистически значима — вариант B действительно лучше A.

Примеры расчёта

Пример 1: Значимое улучшение

Группа A: 10 000 посетителей, 400 конверсий (4,00%). Группа B: 10 000 посетителей, 460 конверсий (4,60%). Абсолютная разница: +0,60 п.п. Относительный прирост: +15,0%. Z-статистика: 2,07. P-значение: 0,0384. Вывод: статистически значимо на уровне 95%.

Пример 2: Недостаточно данных

Группа A: 1 000 посетителей, 50 конверсий (5,00%). Группа B: 1 000 посетителей, 60 конверсий (6,00%). Абсолютная разница: +1,00 п.п. Z-статистика: 0,98. P-значение: 0,3271. Вывод: разница не значима — нужна большая выборка.

Пример 3: Очень большая выборка

Группа A: 100 000 посетителей, 3 200 конверсий (3,20%). Группа B: 100 000 посетителей, 3 400 конверсий (3,40%). Абсолютная разница: +0,20 п.п. Z-статистика: 2,52. P-значение: 0,0117. Вывод: даже маленький прирост значим при большом объёме данных.

Формулы расчёта

Калькулятор использует двухвыборочный z-тест для пропорций:

Конверсия A = C_A / N_A × 100%

Конверсия B = C_B / N_B × 100%

Общая доля p = (C_A + C_B) / (N_A + N_B)

SE = √(p × (1 − p) × (1/N_A + 1/N_B))

Z = (Конв.B − Конв.A) / SE

P-значение = 2 × (1 − Φ(|Z|)), где Φ — функция стандартного нормального распределения.

Если P-значение < (1 − уровень значимости/100), разница считается статистически значимой.

Пошаговое объяснение

1. Сбор данных: вы запускаете A/B тест, разделяя трафик поровну между контрольной группой A и тестовой группой B. Фиксируете количество посетителей и конверсий.

2. Вычисление конверсий: для каждой группы конверсия = (число целевых действий / число посетителей) × 100%.

3. Оценка разброса: вычисляется общая доля конверсий и стандартная ошибка разности (SE). SE учитывает размер выборок — чем они больше, тем SE меньше.

4. Z-статистика: показывает, насколько сильно наблюдаемая разница отличается от нулевой гипотезы (что разницы нет). Значение |Z| > 1,96 соответствует значимости на уровне 95%.

5. P-значение: вероятность получить такую или бо́льшую разницу случайно. Если p < 0,05 при уровне значимости 95% — отвергаем нулевую гипотезу, разница значима.

Где применяется

Маркетинг: сравнение конверсии двух вариантов посадочной страницы или рекламного креатива.
Email-рассылки: тестирование двух тем писем или призывов к действию.
Интернет-магазины: сравнение конверсии в покупку для разных макетов карточки товара.
SAAS-продукты: тестирование onboarding-сценариев для увеличения регистраций или удержания.
Мобильные приложения: сравнение ретеншена или конверсии в подписку между группами пользователей.
Пользовательский опыт (UX): сравнение времени до завершения задачи или доли успешных сценариев.

Важные нюансы

Размер выборки критичен. Маленькие выборки (менее 100 конверсий на группу) снижают надёжность z-теста. В таких случаях лучше использовать точный тест Фишера.
Длительность теста. Не останавливайте тест раньше запланированного срока, даже если видите значимость — это повышает риск ложноположительного результата.
Множественное тестирование. Если вы тестируете сразу много гипотез, применяйте поправку Бонферрони или другие методы коррекции p-значений.
Внешние факторы. Сезонность, праздники, рекламные акции и технические сбои могут исказить результаты. Старайтесь изолировать тест от таких событий.
Практическая значимость. Статистически значимый прирост в 0,1% может не окупить затраты на внедрение. Оценивайте и абсолютный эффект.
Округление. Калькулятор округляет результаты до 2 знаков после запятой для конверсий и до 4 знаков для p-значения. Это достаточная точность для практических решений.

Частые ошибки

Слишком ранняя остановка теста. Многие прекращают тест, как только видят p < 0,05. Это некорректно — дождитесь запланированного объёма выборки и длительности.
Подглядывание за результатами. Многократная проверка p-значения в ходе теста повышает вероятность ложного вывода. Используйте калькулятор только один раз — в конце.
Игнорирование размера эффекта. Статистическая значимость не равна практической полезности. Всегда смотрите на абсолютную и относительную разницу конверсий.
Неравные группы. Если распределение трафика между A и B сильно неравномерно, это снижает чувствительность теста. Стремитесь к равному делению.
Путаница с уровнем значимости. Уровень 95% означает 5% вероятность ошибки первого рода. Не трактуйте это как «вероятность, что вариант B лучше».
Применение z-теста к малым выборкам. Если ожидаемое число конверсий в любой ячейке меньше 5, z-тест даёт неточный результат. Используйте точные методы.

Ответы на частые вопросы

Что такое p-значение простыми словами?

P-значение — это вероятность получить наблюдаемую разницу (или ещё большую) чисто случайно, если на самом деле разницы между вариантами нет. Маленькое p-значение (обычно < 0,05) говорит, что разница вряд ли случайна.

Какой уровень значимости выбрать?

Стандарт в отрасли — 95% (p < 0,05). Для высокорисковых решений можно использовать 99% (p < 0,01). Для предварительных тестов допустим уровень 90% (p < 0,10).

Сколько нужно посетителей для A/B теста?

Зависит от базовой конверсии и желаемого минимального обнаруживаемого эффекта. Например, чтобы надёжно найти прирост с 5% до 5,5% при уровне значимости 95% и мощности 80%, нужно около 100 000 посетителей на группу. Для грубой оценки используйте калькуляторы размера выборки.

Можно ли сравнивать больше двух вариантов?

Да, но тогда нужно применять поправки на множественное сравнение (например, ANOVA или поправку Бонферрони). Данный калькулятор рассчитан на сравнение ровно двух групп.

Что делать, если тест не показал значимости?

Не спешите объявлять вариант B неудачным. Возможно, не хватило выборки. Рассчитайте необходимый размер выборки заранее. Или проанализируйте, не было ли внешних помех.

Насколько точны результаты калькулятора?

Калькулятор использует аппроксимацию нормального распределения и даёт точность, достаточную для практических бизнес-решений. Для выборок с малым числом конверсий (< 5) рекомендуется использовать точный тест Фишера.

Источники и справочные данные

Расчёт основан на методологии двухвыборочного z-теста для пропорций — стандартного инструмента статистического вывода, описанного в учебниках по прикладной статистике и математической статистике (например, «Statistical Methods for Rates and Proportions» Дж. Флейса). Аппроксимация кумулятивной функции нормального распределения выполнена по алгоритму, описанному в Abramowitz & Stegun, Handbook of Mathematical Functions (1964). Данный подход широко применяется в A/B-тестировании и признан отраслевым стандартом такими компаниями, как Google, Microsoft и Amazon.

Полное руководство по A/B тестированию: от идеи до внедрения

A/B тестирование — это метод сравнения двух версий одного элемента (страницы, письма, кнопки), при котором трафик делится случайным образом между контрольной и тестовой группами. Цель — выяснить, какой вариант лучше справляется с задачей: приносит больше конверсий, кликов, регистраций или покупок. Этот подход лежит в основе data-driven маркетинга и позволяет принимать решения, опираясь на факты, а не на интуицию.

Зачем нужен A/B тест

Представьте: вы обновили дизайн посадочной страницы, и конверсия выросла на 0,5%. Это реальный прирост или случайное колебание? Без статистического теста вы рискуете либо пропустить полезное изменение, либо внедрить вариант, который на самом деле хуже. A/B тест с правильно рассчитанным p-значением даёт объективный ответ.

По данным исследования Harvard Business Review, компании, активно использующие A/B тестирование, увеличивают конверсию в среднем на 20–30% в течение первого года системной работы. При этом каждое отдельное улучшение может давать от 1% до 15% прироста — но только при условии, что оно внедряется на основе статистически подтверждённых результатов.

Как работает статистика A/B теста

В основе калькулятора лежит z-тест для сравнения двух пропорций. Нулевая гипотеза предполагает, что конверсии в группах A и B равны. Z-статистика показывает, насколько наблюдаемая разница превышает случайные колебания. Если |Z| > 1,96 при уровне значимости 95%, нулевая гипотеза отвергается — разница признаётся статистически значимой.

Ключевой параметр — размер выборки. Чем больше посетителей участвует в тесте, тем меньшую разницу можно надёжно обнаружить. Например, при выборке в 50 000 человек на группу можно зафиксировать прирост конверсии с 10,00% до 10,25% (всего 0,25 п.п.) с уверенностью 95%. А при выборке в 1 000 человек такой же прирост останется незамеченным.

Интерпретация результатов калькулятора

После нажатия кнопки «Рассчитать» вы получаете шесть показателей. Конверсия A и B — процент посетителей, совершивших целевое действие. Абсолютная разница (в процентных пунктах) говорит о масштабе эффекта: например, рост с 5% до 6% — это +1 п.п. Относительный прирост показывает изменение в процентах от базового уровня: в том же примере это +20%.

Z-статистика и p-значение — ключевые индикаторы надёжности. Если p < 0,05 при уровне значимости 95%, вы можете с высокой уверенностью утверждать, что вариант B действительно отличается от A. Если p > 0,05 — данных недостаточно для вывода, и тест нужно продолжить или перезапустить с большей выборкой.

Типичные цифры и ориентиры

На практике минимальный обнаруживаемый эффект для стандартного A/B теста с 10 000 посетителей на группу и базовой конверсией 5% составляет около 0,9 п.п. при уровне значимости 95% и мощности 80%. Чтобы надёжно поймать прирост в 0,5 п.п., нужно уже около 35 000 посетителей на группу. А для эффекта в 0,1 п.п. потребуется более 800 000 посетителей.

Ориентируйтесь на эти цифры при планировании тестов. Если ваш сайт получает 3 000 посетителей в день, тест на 10 000 человек в группе займёт около недели. Для small-бизнеса с трафиком 200 человек в день тестирование одного изменения может растянуться на месяцы — в таких случаях лучше тестировать только крупные изменения с ожидаемым эффектом от 2 п.п. и выше.

Ограничения A/B тестирования

A/B тест — мощный, но не всесильный инструмент. Он не отвечает на вопрос «почему» один вариант лучше другого, только на вопрос «какой» вариант лучше. Для понимания причин нужны качественные исследования: юзабилити-тесты, опросы, тепловые карты.

Также важно помнить: результат, полученный на одной аудитории в конкретный период, не гарантирует такого же эффекта через месяц или на другой аудитории. Внешние условия меняются, и победивший вариант может со временем устареть. Регулярное повторное тестирование — залог устойчивого роста.

Практические рекомендации

Начинайте с формулировки чёткой гипотезы. Не «поменяем цвет кнопки», а «изменение цвета кнопки с зелёного на оранжевый повысит конверсию в клик на 10%, потому что оранжевый контрастнее на белом фоне и привлекает внимание». Затем определите ключевую метрику, рассчитайте необходимый размер выборки и установите фиксированную длительность теста.

Не вносите изменения в тест на ходу. Если вы изменили дизайн страницы B в процессе, все собранные до этого данные теряют смысл. Доведите тест до конца, проанализируйте результат и только потом принимайте решение о внедрении.

Используйте этот калькулятор как финальный этап проверки. Введите собранные данные, получите p-значение и сделайте вывод. Если тест показал значимость, внедряйте вариант B. Если нет — анализируйте, в чём причина, и планируйте следующий тест. Системный подход к A/B тестированию со временем даёт накопительный эффект, который может увеличить общую конверсию воронки в 1,5–2 раза.

Спросить у ИИ

Задайте вопрос по этой странице

Осталось вопросов: 5. Только по этой странице.

Оцените страницу

Нужен другой инструмент?

Все инструменты в категории