A/B-тесты в маркетинге: как строить гипотезы, проверять и масштабировать
A/B-тест — это не «запустить два баннера и посмотреть, какой лучше». Это дисциплина: сформулировать гипотезу, оценить её приоритет, рассчитать выборку, проверить на данных и принять решение — масштабировать, убить или итерировать. Разберём весь цикл на практике performance-маркетинга.
Что такое A/B-тест и зачем он нужен
A/B-тест (сплит-тест) — сравнение двух вариантов (A — контроль, B — изменение) на случайно разделённых группах аудитории. Случайное разделение гарантирует, что единственное системное отличие между группами — ваше изменение, а значит разницу в метрике можно приписать именно ему. Без рандомизации вы измеряете не эффект, а различия аудиторий.
Анатомия гипотезы: If — Then — Because
Слабая гипотеза: «давай попробуем видео вместо картинки». Её нельзя проверить — нет метрики и ожидаемого эффекта. Сильная гипотеза строится по формуле:
- If (если) — конкретное изменение: «заменим статичный баннер на 6-секундное видео»
- Then (то) — измеримый эффект: «CTR вырастет на 20%, CPI упадёт на 15%»
- Because (потому что) — причина/механизм: «видео лучше показывает геймплей, аудитория точнее понимает продукт до клика»
Часть «Because» — самая важная и чаще всего пропускаемая. Именно она превращает разрозненные тесты в накопление знаний: если гипотеза не подтвердилась, вы узнаёте, что неверна была причина, а не просто «не получилось».
Приоритизация: какую гипотезу тестировать первой
Гипотез всегда больше, чем ресурсов на тесты. Два рабочих фреймворка:
ICE
ICE = Impact × Confidence × Ease. Каждый фактор — оценка 1–10: потенциальный эффект, уверенность в успехе, лёгкость реализации. Быстро и подходит для маленьких команд.
RICE
RICE = (Reach × Impact × Confidence) / Effort. Добавляет охват (сколько пользователей затронет) и делит на трудозатраты. Точнее для продуктовых команд с разными по масштабу гипотезами.
Главная польза — не точность числа, а единая шкала: споры «чья идея важнее» заменяются на сортировку по баллу.
Проверка: выборка, метрика, длительность
Перед запуском нужно ответить на три вопроса:
- Какая метрика успеха? Одна главная (например, CR клик→установка). Десять метрик = десять шансов на ложное срабатывание.
- Какой минимальный эффект важен (MDE)? Прирост на 1% и на 20% требуют принципиально разной выборки. Рассчитайте заранее — см. статью про MDE и размер выборки.
- Сколько времени? Минимум 1–2 полные недели для покрытия недельной сезонности, и до набора расчётной выборки.
Чтение результата: масштабировать, убить, итерировать
Когда выборка набрана — оцените значимость. Частотный подход (p-value) и байесовский (P(B>A)) дают два нарратива; что выбрать для бизнес-решения, разобрано в отдельной статье. Дальше — три исхода:
- Масштабировать: B значимо лучше И эффект ≥ MDE — выкатывайте на 100%.
- Убить: разница мизерная или B хуже — оставьте контроль, переходите к следующей гипотезе.
- Итерировать: результат на грани — увеличьте выборку или уточните гипотезу.
Что делать после теста
Тест не заканчивается решением. Зафиксируйте результат и инсайт (подтвердилась ли причина из «Because») в базе знаний. Победившая гипотеза порождает следующую: «видео сработало → проверим, какая длина видео оптимальна». Так отдельные тесты складываются в систему — это и есть HADI-цикл.
Типичные ошибки
- Peeking — остановка теста, как только «появилась значимость». Завышает ложные срабатывания в разы. Решение: фиксируйте длительность заранее.
- Недо-выборка — вывод по 50 кликам. Случайный шум выглядит как эффект.
- Множественные сравнения — 10 метрик одновременно. Хотя бы одна «значима» случайно. Выберите одну главную.
- Нет «Because» — тест без гипотезы о причине не накапливает знание.
- Игнор сезонности — тест запущен в пятницу на 3 дня, выходные искажают результат.
В Romi+ A/B-калькулятор считает выборку и значимость (частотную и байесовскую) сразу — пошаговая инструкция. Калькулятор работает без регистрации.
Частые вопросы
Как правильно сформулировать гипотезу для A/B-теста?
Используйте формулу «Если [изменение], то [метрика] вырастет на [сколько], потому что [причина]». Пример: «Если заменим статичный баннер на видео, то CTR вырастет на 20%, потому что видео лучше передаёт механику игры». Гипотеза должна быть измеримой, с конкретной метрикой и ожидаемым эффектом — иначе её нельзя проверить.
Сколько должен длиться A/B-тест?
До набора расчётного размера выборки (зависит от baseline-конверсии и MDE — считается заранее в калькуляторе), но минимум 1–2 полные недели, чтобы покрыть недельную сезонность (будни/выходные). Нельзя останавливать тест в момент, когда «появилась значимость» — это peeking, который завышает ложные срабатывания.
Как приоритизировать гипотезы, если их много?
Используйте фреймворк ICE (Impact × Confidence × Ease) или RICE (Reach × Impact × Confidence / Effort). Каждый фактор оценивается по шкале, гипотезы сортируются по итоговому баллу. Это убирает споры «давай тестить мою идею» и фокусирует на максимальном эффекте при минимальных затратах.
Что делать, если A/B-тест не показал значимой разницы?
Это валидный результат — он экономит вам деньги. Варианты: (1) если разница была близка к значимой — увеличить выборку; (2) если эффект мизерный — оставить текущий вариант и перейти к следующей гипотезе; (3) пересмотреть гипотезу: возможно, причина (Because) была неверной. Отрицательный результат тоже инсайт.