25 апреля 2026 · Romi+

A/B-тесты в маркетинге: как строить гипотезы, проверять и масштабировать

A/B-тест — это не «запустить два баннера и посмотреть, какой лучше». Это дисциплина: сформулировать гипотезу, оценить её приоритет, рассчитать выборку, проверить на данных и принять решение — масштабировать, убить или итерировать. Разберём весь цикл на практике performance-маркетинга.

Что такое A/B-тест и зачем он нужен

A/B-тест (сплит-тест) — сравнение двух вариантов (A — контроль, B — изменение) на случайно разделённых группах аудитории. Случайное разделение гарантирует, что единственное системное отличие между группами — ваше изменение, а значит разницу в метрике можно приписать именно ему. Без рандомизации вы измеряете не эффект, а различия аудиторий.

Анатомия гипотезы: If — Then — Because

Слабая гипотеза: «давай попробуем видео вместо картинки». Её нельзя проверить — нет метрики и ожидаемого эффекта. Сильная гипотеза строится по формуле:

If (если) — конкретное изменение: «заменим статичный баннер на 6-секундное видео»
Then (то) — измеримый эффект: «CTR вырастет на 20%, CPI упадёт на 15%»
Because (потому что) — причина/механизм: «видео лучше показывает геймплей, аудитория точнее понимает продукт до клика»

Часть «Because» — самая важная и чаще всего пропускаемая. Именно она превращает разрозненные тесты в накопление знаний: если гипотеза не подтвердилась, вы узнаёте, что неверна была причина, а не просто «не получилось».

Приоритизация: какую гипотезу тестировать первой

Гипотез всегда больше, чем ресурсов на тесты. Два рабочих фреймворка:

ICE

ICE = Impact × Confidence × Ease. Каждый фактор — оценка 1–10: потенциальный эффект, уверенность в успехе, лёгкость реализации. Быстро и подходит для маленьких команд.

RICE

RICE = (Reach × Impact × Confidence) / Effort. Добавляет охват (сколько пользователей затронет) и делит на трудозатраты. Точнее для продуктовых команд с разными по масштабу гипотезами.

Главная польза — не точность числа, а единая шкала: споры «чья идея важнее» заменяются на сортировку по баллу.

Проверка: выборка, метрика, длительность

Перед запуском нужно ответить на три вопроса:

Какая метрика успеха? Одна главная (например, CR клик→установка). Десять метрик = десять шансов на ложное срабатывание.
Какой минимальный эффект важен (MDE)? Прирост на 1% и на 20% требуют принципиально разной выборки. Рассчитайте заранее — см. статью про MDE и размер выборки.
Сколько времени? Минимум 1–2 полные недели для покрытия недельной сезонности, и до набора расчётной выборки.

Чтение результата: масштабировать, убить, итерировать

Когда выборка набрана — оцените значимость. Частотный подход (p-value) и байесовский (P(B>A)) дают два нарратива; что выбрать для бизнес-решения, разобрано в отдельной статье. Дальше — три исхода:

Масштабировать: B значимо лучше И эффект ≥ MDE — выкатывайте на 100%.
Убить: разница мизерная или B хуже — оставьте контроль, переходите к следующей гипотезе.
Итерировать: результат на грани — увеличьте выборку или уточните гипотезу.

Что делать после теста

Тест не заканчивается решением. Зафиксируйте результат и инсайт (подтвердилась ли причина из «Because») в базе знаний. Победившая гипотеза порождает следующую: «видео сработало → проверим, какая длина видео оптимальна». Так отдельные тесты складываются в систему — это и есть HADI-цикл.

Типичные ошибки

Peeking — остановка теста, как только «появилась значимость». Завышает ложные срабатывания в разы. Решение: фиксируйте длительность заранее.
Недо-выборка — вывод по 50 кликам. Случайный шум выглядит как эффект.
Множественные сравнения — 10 метрик одновременно. Хотя бы одна «значима» случайно. Выберите одну главную.
Нет «Because» — тест без гипотезы о причине не накапливает знание.
Игнор сезонности — тест запущен в пятницу на 3 дня, выходные искажают результат.

В Romi+ A/B-калькулятор считает выборку и значимость (частотную и байесовскую) сразу — пошаговая инструкция. Калькулятор работает без регистрации.

Частые вопросы

Как правильно сформулировать гипотезу для A/B-теста?

Используйте формулу «Если [изменение], то [метрика] вырастет на [сколько], потому что [причина]». Пример: «Если заменим статичный баннер на видео, то CTR вырастет на 20%, потому что видео лучше передаёт механику игры». Гипотеза должна быть измеримой, с конкретной метрикой и ожидаемым эффектом — иначе её нельзя проверить.

Сколько должен длиться A/B-тест?

До набора расчётного размера выборки (зависит от baseline-конверсии и MDE — считается заранее в калькуляторе), но минимум 1–2 полные недели, чтобы покрыть недельную сезонность (будни/выходные). Нельзя останавливать тест в момент, когда «появилась значимость» — это peeking, который завышает ложные срабатывания.

Как приоритизировать гипотезы, если их много?

Используйте фреймворк ICE (Impact × Confidence × Ease) или RICE (Reach × Impact × Confidence / Effort). Каждый фактор оценивается по шкале, гипотезы сортируются по итоговому баллу. Это убирает споры «давай тестить мою идею» и фокусирует на максимальном эффекте при минимальных затратах.

Что делать, если A/B-тест не показал значимой разницы?

Это валидный результат — он экономит вам деньги. Варианты: (1) если разница была близка к значимой — увеличить выборку; (2) если эффект мизерный — оставить текущий вариант и перейти к следующей гипотезе; (3) пересмотреть гипотезу: возможно, причина (Because) была неверной. Отрицательный результат тоже инсайт.