MDE и размер выборки A/B-теста: формулы, ошибки и калькулятор
Запуская A/B-тест без расчёта размера выборки, вы либо тратите бюджет на трафик, который не нужен (слишком большая выборка), либо завершаете тест с неуловимым результатом «p = 0.07 — нужно ещё пару дней» (слишком маленькая). Размер выборки определяется тремя параметрами: MDE, α, мощность 1−β. Разберёмся.
Что такое MDE (Minimum Detectable Effect)
MDE — минимальная разница между контролем и тестом, которую вы хотите статистически достоверно зафиксировать.
Пример: текущий CTR = 5%. Вы хотите детектировать улучшение до 5.25%. MDE = +0.25 пп abs, или +5% relative. Если реальная разница окажется меньше MDE, тест её «не увидит» — это нормально и так задумано.
Чем меньше MDE — тем больше выборка. Зависимость квадратичная: уменьшение MDE в 2 раза = увеличение выборки в 4 раза. Поэтому в перфоманс-маркетинге не стоит ставить MDE меньше 5% relative для CTR/CR — иначе тесты будут идти месяцами.
Формула размера выборки для пропорций
Для бинарных метрик (кликнул / не кликнул, конвертировал / не конвертировал) используется z-test двух пропорций:
n = (z_α/2 + z_β)² × (p₁(1−p₁) + p₂(1−p₂)) / (p₁ − p₂)² где: p₁ — базовая конверсия (например 0.05 = 5% CTR) p₂ — целевая конверсия (например 0.0525 = 5.25% CTR) z_α/2 — критическое значение для α (для α=0.05 → 1.96) z_β — критическое значение для β (для 1−β=0.8 → 0.84)
Подставив для CTR 5% → 5.25%, α=0.05, мощность 0.8:
n = (1.96 + 0.84)² × (0.05×0.95 + 0.0525×0.9475) / (0.0025)² n ≈ 47 600 на группу n ≈ 95 200 всего
Для воронки CR install 2% → 2.2% та же формула даст ~58 000 на группу. Если у вас 50 000 уников в день — тест на 2.5 дня.
Что такое статистическая мощность
Мощность (power) 1−β — вероятность обнаружить реально существующий эффект размера MDE. Если 1−β = 0.8, значит, с вероятностью 20% вы тест проведёте, эффект будет, а вы скажете «значимости нет» (ложный негатив, β-ошибка).
- 0.8 (80%) — индустриальный стандарт. Баланс выборка / риск.
- 0.9 (90%) — для решений с высокой ценой ошибки (масштабирование большого бюджета).
- 0.5 (50%) — антипаттерн. Эквивалент броска монеты, выборка минимальна, но и достоверность около нуля.
Типичные ошибки расчёта выборки
1. Пиппинг — подсматривание результата каждый день
Если каждый день в течение недели смотрите p-value и останавливаете тест когда он впервые опустится ниже 0.05 — реальный α уже не 5%, а ~15%. Один из пяти таких тестов даст ложный positive. Решение: фиксированный размер выборки от старта + один финальный замер. Или last-look стратегии (always-valid p-values).
2. Игнор multiple testing
Тестируете 5 вариантов креатива против контроля одновременно с α=0.05. Реальная вероятность ложного positive хотя бы в одном из них = 1 − (1−0.05)⁵ = 22%. Решение: Bonferroni-коррекция (α/k для каждого теста) или FDR (False Discovery Rate).
3. Неравные группы
Формула выше предполагает равный размер контроля и теста. Если split 90/10 (маленькая тестовая группа), эффективная мощность падает — выборку нужно увеличить пропорционально.
Калькулятор — посчитайте за 5 секунд
На главной Romi+ внизу — встроенный калькулятор A/B-теста. Введите свой CTR/CR и желаемый MDE — получите размер выборки на каждую группу, минимальный срок теста по вашему трафику и P(B > A) по Байесу когда закончите эксперимент. Без регистрации.
Для непрерывных метрик (выручка, время в приложении, ARPU) используется Welch t-test — формула чуть другая, но логика та же. Об этом — в следующей статье.
Частые вопросы
Что такое MDE в A/B-тесте?
MDE (Minimum Detectable Effect) — минимальная разница между контролем и тестом, которую вы хотите статистически достоверно зафиксировать. Например, при текущем CTR 5% желание уловить рост до 5.25% — это MDE +0.25 п.п. Если реальный эффект меньше MDE, тест его не обнаружит, и это нормально — так задумано.
Сколько трафика нужно для A/B-теста?
Зависит от baseline-конверсии и MDE. По формуле z-test двух пропорций: при CTR 5%→5.25%, α=0.05 и мощности 80% нужно около 47 600 на группу (~95 000 всего). Чем меньше MDE, тем больше выборка: уменьшение эффекта в 2 раза увеличивает требуемую выборку в 4 раза.
Что такое статистическая мощность и почему 0.8?
Мощность (1−β) — вероятность обнаружить реально существующий эффект размера MDE. 0.8 (80%) — индустриальный стандарт: баланс между размером выборки и риском пропустить эффект (20% ложных негативов). Мощность 0.9 берут для дорогих решений, 0.5 — антипаттерн, эквивалентный броску монеты.
Почему нельзя подсматривать результаты A/B-теста?
Если ежедневно смотреть p-value и остановить тест при первом падении ниже 0.05 (peeking), реальный уровень ошибки вырастает с 5% до ~15% — каждый пятый тест даст ложный положительный результат. Решение: зафиксировать размер выборки до старта и сделать один финальный замер.