18 апреля 2026 · Romi+

p-value vs Bayesian в A/B-тестах: что выбрать для бизнес-решения

Запускаете A/B-тест на новый креатив. На пятый день видите CTR контроля 5.0 %, теста 5.3 %. «Аналитик» говорит «p = 0.07, не значимо», маркетолог говорит «B лучше на 6 %, поехали». Кто прав? Это разница между частотным и байесовским подходом. Разберёмся, что они на самом деле говорят.

Что такое p-value

p-value — вероятность увидеть такую (или ещё бóльшую) разницу между группами, если на самом деле эффекта нет. Ключевое слово — «если». p-value задаёт условную вероятность под нулевой гипотезой H₀ («варианты A и B одинаковы»).

Пример: p = 0.07 значит, что если бы B был ровно как A, то в 7 % случаев случайность дала бы такую же или ещё бóльшую разницу. Не значит, что «B лучше A с вероятностью 93 %» — это распространённое неправильное толкование.

Решение принимается по порогу α (обычно 0.05): если p < α → отвергаем H₀, говорим «разница статистически значима». Это бинарное решение, без полутонов.

Что такое Bayesian подход

Bayesian статистика отвечает на прямой вопрос: «какова вероятность, что B действительно лучше A?». Формально это posterior probability P(B > A | data).

Пример: «P(B > A) = 92 %» означает: с учётом наблюдённых данных, вероятность того, что B истинно лучше A, составляет 92 %. Соответственно, P(A > B) = 8 %. Никаких порогов и бинарных ответов — есть распределение уверенности.

Сравнение подходов

Вопрос	Частотный (p-value)	Bayesian
«B лучше A?»	Бинарно: значимо / нет	P(B > A) = 0–100 %
Что такое 95 % CI	Если повторить эксп. 100 раз, в 95 случаях CI накроет истину	Истина лежит в credible interval с вероятностью 95 %
Можно подсматривать?	Нет (раздувает α)	Да (credible interval сужается монотонно)
Что если эффект маленький?	Нужна большая выборка	Получим P(B>A) близко к 50 % — честный ответ «не понятно»
Бизнес-понятность	Низкая («p < 0.05» нужно объяснять)	Высокая («92 % уверенности» — интуитивно)

Когда какой подход уместен

Частотный — когда нужна формальная защита

Публикация результатов в индустриальном отчёте
Соблюдение compliance / регуляторных требований
Решение принимает большой комитет, нужен общепринятый «proof»

Bayesian — когда нужно бизнес-решение

Запуск нового креатива, цена ошибки невелика
Маленькая выборка (микро-тесты, нишевые гео)
Нужно объяснить результат не-статистикам
Хочется early-stop на сильных эффектах без раздувания α

Что делает Romi+

В A/B-калькуляторе Romi+ показывает оба ответа:

z-test пропорций или Welch t-test → p-value + классическое решение
Beta-Binomial conjugate prior → P(B > A) и credible interval

Так вы получаете оба нарратива — формальный для отчёта и понятный для бизнес-стейкхолдера. На лендинге калькулятор работает без регистрации — введите свои числа, получите оба результата за секунду.

Прикладное правило

Если P(B > A) ≥ 85 % И ожидаемая разница (expected lift) ≥ вашему MDE — масштабируйте B. Это часто срабатывает быстрее, чем ждать «p < 0.05», и при этом редко обманывает. См. также статью про MDE и выборку — две эти статьи работают в паре.

Частые вопросы

Что такое p-value простыми словами?

p-value — вероятность увидеть такую (или большую) разницу между вариантами, если на самом деле разницы нет. p-value = 0.03 значит: будь эффект нулевым, такой результат выпал бы случайно в 3% случаев. Порог 0.05 — классический. Важно: это НЕ вероятность того, что B лучше A.

Что лучше для A/B-теста: p-value или байесовский подход?

Для бизнес-решения часто удобнее байесовский: он отвечает прямо «вероятность, что B лучше A = 92%», что понятно стейкхолдеру. p-value нужен для формального отчёта. Romi+ показывает оба. Прикладное правило: если P(B>A) ≥ 85% и прирост ≥ MDE — масштабируйте вариант B.

Что означает P(B>A) в A/B-тесте?

P(B>A) — байесовская вероятность того, что вариант B действительно лучше A, рассчитанная через Beta-Binomial conjugate prior. В отличие от p-value, это прямой ответ на бизнес-вопрос «стоит ли катить B»: P(B>A) = 95% означает 95% уверенности, что B выигрывает.

Какой порог значимости использовать в A/B-тесте?

Классический порог p-value < 0.05 (5% риск ложного срабатывания). Для байесовского подхода — P(B>A) ≥ 95% для осторожных решений или ≥ 85% в связке с проверкой, что прирост превышает MDE. Чем дороже ошибка масштабирования бюджета, тем выше стоит ставить порог.