p-value vs Bayesian в A/B-тестах: что выбрать для бизнес-решения
Запускаете A/B-тест на новый креатив. На пятый день видите CTR контроля 5.0 %, теста 5.3 %. «Аналитик» говорит «p = 0.07, не значимо», маркетолог говорит «B лучше на 6 %, поехали». Кто прав? Это разница между частотным и байесовским подходом. Разберёмся, что они на самом деле говорят.
Что такое p-value
p-value — вероятность увидеть такую (или ещё бóльшую) разницу между группами, если на самом деле эффекта нет. Ключевое слово — «если». p-value задаёт условную вероятность под нулевой гипотезой H₀ («варианты A и B одинаковы»).
Пример: p = 0.07 значит, что если бы B был ровно как A, то в 7 % случаев случайность дала бы такую же или ещё бóльшую разницу. Не значит, что «B лучше A с вероятностью 93 %» — это распространённое неправильное толкование.
Решение принимается по порогу α (обычно 0.05): если p < α → отвергаем H₀, говорим «разница статистически значима». Это бинарное решение, без полутонов.
Что такое Bayesian подход
Bayesian статистика отвечает на прямой вопрос: «какова вероятность, что B действительно лучше A?». Формально это posterior probability P(B > A | data).
Пример: «P(B > A) = 92 %» означает: с учётом наблюдённых данных, вероятность того, что B истинно лучше A, составляет 92 %. Соответственно, P(A > B) = 8 %. Никаких порогов и бинарных ответов — есть распределение уверенности.
Сравнение подходов
| Вопрос | Частотный (p-value) | Bayesian |
|---|---|---|
| «B лучше A?» | Бинарно: значимо / нет | P(B > A) = 0–100 % |
| Что такое 95 % CI | Если повторить эксп. 100 раз, в 95 случаях CI накроет истину | Истина лежит в credible interval с вероятностью 95 % |
| Можно подсматривать? | Нет (раздувает α) | Да (credible interval сужается монотонно) |
| Что если эффект маленький? | Нужна большая выборка | Получим P(B>A) близко к 50 % — честный ответ «не понятно» |
| Бизнес-понятность | Низкая («p < 0.05» нужно объяснять) | Высокая («92 % уверенности» — интуитивно) |
Когда какой подход уместен
Частотный — когда нужна формальная защита
- Публикация результатов в индустриальном отчёте
- Соблюдение compliance / регуляторных требований
- Решение принимает большой комитет, нужен общепринятый «proof»
Bayesian — когда нужно бизнес-решение
- Запуск нового креатива, цена ошибки невелика
- Маленькая выборка (микро-тесты, нишевые гео)
- Нужно объяснить результат не-статистикам
- Хочется early-stop на сильных эффектах без раздувания α
Что делает Romi+
В A/B-калькуляторе Romi+ показывает оба ответа:
- z-test пропорций или Welch t-test → p-value + классическое решение
- Beta-Binomial conjugate prior → P(B > A) и credible interval
Так вы получаете оба нарратива — формальный для отчёта и понятный для бизнес-стейкхолдера. На лендинге калькулятор работает без регистрации — введите свои числа, получите оба результата за секунду.
Прикладное правило
Если P(B > A) ≥ 85 % И ожидаемая разница (expected lift) ≥ вашему MDE — масштабируйте B. Это часто срабатывает быстрее, чем ждать «p < 0.05», и при этом редко обманывает. См. также статью про MDE и выборку — две эти статьи работают в паре.
Частые вопросы
Что такое p-value простыми словами?
p-value — вероятность увидеть такую (или большую) разницу между вариантами, если на самом деле разницы нет. p-value = 0.03 значит: будь эффект нулевым, такой результат выпал бы случайно в 3% случаев. Порог 0.05 — классический. Важно: это НЕ вероятность того, что B лучше A.
Что лучше для A/B-теста: p-value или байесовский подход?
Для бизнес-решения часто удобнее байесовский: он отвечает прямо «вероятность, что B лучше A = 92%», что понятно стейкхолдеру. p-value нужен для формального отчёта. Romi+ показывает оба. Прикладное правило: если P(B>A) ≥ 85% и прирост ≥ MDE — масштабируйте вариант B.
Что означает P(B>A) в A/B-тесте?
P(B>A) — байесовская вероятность того, что вариант B действительно лучше A, рассчитанная через Beta-Binomial conjugate prior. В отличие от p-value, это прямой ответ на бизнес-вопрос «стоит ли катить B»: P(B>A) = 95% означает 95% уверенности, что B выигрывает.
Какой порог значимости использовать в A/B-тесте?
Классический порог p-value < 0.05 (5% риск ложного срабатывания). Для байесовского подхода — P(B>A) ≥ 95% для осторожных решений или ≥ 85% в связке с проверкой, что прирост превышает MDE. Чем дороже ошибка масштабирования бюджета, тем выше стоит ставить порог.