exp-tools

Множественное тестирование

Поправки Bonferroni · Holm · BH · BY — когда α перестаёт работать.

Почему это важно

При тестировании нескольких гипотез одновременно вероятность хотя бы одного ложного срабатывания растёт нелинейно. При α = 0.05 и 20 независимых метриках она равна 64%, а не 5%.

При m = 10 тестах вероятность хотя бы одного ложного сигнала = 40.1%

Калькулятор поправок

Введите p-values ваших метрик — таблица покажет, какие гипотезы остаются значимыми после каждой поправки.

Метрика
p-value
Метрикаp-valueBonferroniHolmBH (FDR)BY (FDR)
Выручка0.0080
Конверсия0.0320
Retention0.0480
CTR0.1200
Время на сайте0.2100
Итого1 / 51 / 51 / 50 / 5
График порогов
Мощность после коррекции

Как выбрать метод

МетодЧто контролируетМощностьКогда применять
BonferroniFWERНизкаяМало гипотез, высокая цена любой ошибки
HolmFWERВыше BonferroniВсегда лучше Bonferroni — использовать вместо него
BH (FDR)FDRВысокаяМного метрик, исследовательский A/B анализ
BY (FDR)FDR (любая зависимость)Ниже BHМетрики сильно коррелируют
FWER (Family-Wise Error Rate) — вероятность хотя бы одной ложной находки среди всех отвергнутых гипотез. Строгий критерий: при mm независимых тестах с уровнем α\alpha суммарная ошибка равна 1(1α)m1 - (1-\alpha)^m.
FWER=P ⁣(хотя бы одно ложное отвержение)α\text{FWER} = P\!\left(\text{хотя бы одно ложное отвержение}\right) \leq \alpha
FDR (False Discovery Rate) — ожидаемая доля ложных находок среди значимых результатов. Менее строгий, но более мощный: подходит для исследовательского анализа, когда важно не пропустить реальные эффекты.
FDR=E ⁣[VR1]α\text{FDR} = E\!\left[\frac{V}{R \vee 1}\right] \leq \alpha

VV — число ложных отвержений, RR — общее число отвержений. BH контролирует FDR при независимых гипотезах и PRDS-зависимости. BY — при произвольной.

Как считается график мощности

Для каждой гипотезы ранга ii вычисляется ожидаемая мощность — вероятность обнаружить реальный эффект при данном пороге:

poweri=1Φ ⁣(zαiz1β)\text{power}_i = 1 - \Phi\!\left(z_{\alpha_i} - z_{1-\beta}\right)
  • αi\alpha_i — скорректированный порог значимости для ранга ii (зависит от метода)
  • zαi=Φ1(1αi)z_{\alpha_i} = \Phi^{-1}(1 - \alpha_i) — критическое z-значение двустороннего теста
  • z1β=Φ1(целевая мощность)z_{1-\beta} = \Phi^{-1}(\text{целевая мощность}) — z-значение, соответствующее желаемой мощности
  • Φ\Phi — функция нормального распределения

Чем строже порог αi\alpha_i (больше zαiz_{\alpha_i}), тем меньше разность z1βzαiz_{1-\beta} - z_{\alpha_i} и тем ниже мощность. Bonferroni — один плоский порог α/m\alpha/m для всех рангов. BH — нарастающий (i/m)α(i/m)\cdot\alpha. Поэтому у старших рангов BH заметно мощнее.

Подписывайся на обновленияexp_tools_ru →