7 апреля 2026 · Romi+

MDE и размер выборки A/B-теста: формулы, ошибки и калькулятор

Запуская A/B-тест без расчёта размера выборки, вы либо тратите бюджет на трафик, который не нужен (слишком большая выборка), либо завершаете тест с неуловимым результатом «p = 0.07 — нужно ещё пару дней» (слишком маленькая). Размер выборки определяется тремя параметрами: MDE, α, мощность 1−β. Разберёмся.

Что такое MDE (Minimum Detectable Effect)

MDE — минимальная разница между контролем и тестом, которую вы хотите статистически достоверно зафиксировать.

Пример: текущий CTR = 5%. Вы хотите детектировать улучшение до 5.25%. MDE = +0.25 пп abs, или +5% relative. Если реальная разница окажется меньше MDE, тест её «не увидит» — это нормально и так задумано.

Чем меньше MDE — тем больше выборка. Зависимость квадратичная: уменьшение MDE в 2 раза = увеличение выборки в 4 раза. Поэтому в перфоманс-маркетинге не стоит ставить MDE меньше 5% relative для CTR/CR — иначе тесты будут идти месяцами.

Формула размера выборки для пропорций

Для бинарных метрик (кликнул / не кликнул, конвертировал / не конвертировал) используется z-test двух пропорций:

n = (z_α/2 + z_β)² × (p₁(1−p₁) + p₂(1−p₂)) / (p₁ − p₂)²

где:
  p₁ — базовая конверсия (например 0.05 = 5% CTR)
  p₂ — целевая конверсия (например 0.0525 = 5.25% CTR)
  z_α/2 — критическое значение для α (для α=0.05 → 1.96)
  z_β — критическое значение для β (для 1−β=0.8 → 0.84)

Подставив для CTR 5% → 5.25%, α=0.05, мощность 0.8:

n = (1.96 + 0.84)² × (0.05×0.95 + 0.0525×0.9475) / (0.0025)²
n ≈ 47 600 на группу
n ≈ 95 200 всего

Для воронки CR install 2% → 2.2% та же формула даст ~58 000 на группу. Если у вас 50 000 уников в день — тест на 2.5 дня.

Что такое статистическая мощность

Мощность (power) 1−β — вероятность обнаружить реально существующий эффект размера MDE. Если 1−β = 0.8, значит, с вероятностью 20% вы тест проведёте, эффект будет, а вы скажете «значимости нет» (ложный негатив, β-ошибка).

0.8 (80%) — индустриальный стандарт. Баланс выборка / риск.
0.9 (90%) — для решений с высокой ценой ошибки (масштабирование большого бюджета).
0.5 (50%) — антипаттерн. Эквивалент броска монеты, выборка минимальна, но и достоверность около нуля.

Типичные ошибки расчёта выборки

1. Пиппинг — подсматривание результата каждый день

Если каждый день в течение недели смотрите p-value и останавливаете тест когда он впервые опустится ниже 0.05 — реальный α уже не 5%, а ~15%. Один из пяти таких тестов даст ложный positive. Решение: фиксированный размер выборки от старта + один финальный замер. Или last-look стратегии (always-valid p-values).

2. Игнор multiple testing

Тестируете 5 вариантов креатива против контроля одновременно с α=0.05. Реальная вероятность ложного positive хотя бы в одном из них = 1 − (1−0.05)⁵ = 22%. Решение: Bonferroni-коррекция (α/k для каждого теста) или FDR (False Discovery Rate).

3. Неравные группы

Формула выше предполагает равный размер контроля и теста. Если split 90/10 (маленькая тестовая группа), эффективная мощность падает — выборку нужно увеличить пропорционально.

Калькулятор — посчитайте за 5 секунд

На главной Romi+ внизу — встроенный калькулятор A/B-теста. Введите свой CTR/CR и желаемый MDE — получите размер выборки на каждую группу, минимальный срок теста по вашему трафику и P(B > A) по Байесу когда закончите эксперимент. Без регистрации.

Для непрерывных метрик (выручка, время в приложении, ARPU) используется Welch t-test — формула чуть другая, но логика та же. Об этом — в следующей статье.

Частые вопросы

Что такое MDE в A/B-тесте?

MDE (Minimum Detectable Effect) — минимальная разница между контролем и тестом, которую вы хотите статистически достоверно зафиксировать. Например, при текущем CTR 5% желание уловить рост до 5.25% — это MDE +0.25 п.п. Если реальный эффект меньше MDE, тест его не обнаружит, и это нормально — так задумано.

Сколько трафика нужно для A/B-теста?

Зависит от baseline-конверсии и MDE. По формуле z-test двух пропорций: при CTR 5%→5.25%, α=0.05 и мощности 80% нужно около 47 600 на группу (~95 000 всего). Чем меньше MDE, тем больше выборка: уменьшение эффекта в 2 раза увеличивает требуемую выборку в 4 раза.

Что такое статистическая мощность и почему 0.8?

Мощность (1−β) — вероятность обнаружить реально существующий эффект размера MDE. 0.8 (80%) — индустриальный стандарт: баланс между размером выборки и риском пропустить эффект (20% ложных негативов). Мощность 0.9 берут для дорогих решений, 0.5 — антипаттерн, эквивалентный броску монеты.

Почему нельзя подсматривать результаты A/B-теста?

Если ежедневно смотреть p-value и остановить тест при первом падении ниже 0.05 (peeking), реальный уровень ошибки вырастает с 5% до ~15% — каждый пятый тест даст ложный положительный результат. Решение: зафиксировать размер выборки до старта и сделать один финальный замер.