Множественное тестирование

Поправки Bonferroni · Holm · BH · BY — когда α перестаёт работать.

Почему это важно

При тестировании нескольких гипотез одновременно вероятность хотя бы одного ложного срабатывания растёт нелинейно. При α = 0.05 и 20 независимых метриках она равна 64%, а не 5%.

Количество гипотез: 10

При m = 10 тестах вероятность хотя бы одного ложного сигнала = 40.1%

Калькулятор поправок

Введите p-values ваших метрик — таблица покажет, какие гипотезы остаются значимыми после каждой поправки.

Уровень значимости α

Мощность теста

Метрика

p-value

Метрика	p-value	Bonferroni	Holm	BH (FDR)	BY (FDR)
Выручка	0.0080	✓	✓	✓	✗
Конверсия	0.0320	✗	✗	✗	✗
Retention	0.0480	✗	✗	✗	✗
CTR	0.1200	✗	✗	✗	✗
Время на сайте	0.2100	✗	✗	✗	✗
Итого	—	1 / 5	1 / 5	1 / 5	0 / 5

График порогов

Мощность после коррекции

Как выбрать метод

Метод	Что контролирует	Мощность	Когда применять
Bonferroni	FWER	Низкая	Мало гипотез, высокая цена любой ошибки
Holm	FWER	Выше Bonferroni	Всегда лучше Bonferroni — использовать вместо него
BH (FDR)	FDR	Высокая	Много метрик, исследовательский A/B анализ
BY (FDR)	FDR (любая зависимость)	Ниже BH	Метрики сильно коррелируют

FWER (Family-Wise Error Rate) — вероятность хотя бы одной ложной находки среди всех отвергнутых гипотез. Строгий критерий: при

m

независимых тестах с уровнем

\alpha

суммарная ошибка равна

1 - (1-\alpha)^m

\text{FWER} = P\!\left(\text{хотя бы одно ложное отвержение}\right) \leq \alpha

FDR (False Discovery Rate) — ожидаемая доля ложных находок среди значимых результатов. Менее строгий, но более мощный: подходит для исследовательского анализа, когда важно не пропустить реальные эффекты.

\text{FDR} = E\!\left[\frac{V}{R \vee 1}\right] \leq \alpha

$V$ — число ложных отвержений, $R$ — общее число отвержений. BH контролирует FDR при независимых гипотезах и PRDS-зависимости. BY — при произвольной.

Как считается график мощности

Для каждой гипотезы ранга $i$ вычисляется ожидаемая мощность — вероятность обнаружить реальный эффект при данном пороге:

\text{power}_i = 1 - \Phi\!\left(z_{\alpha_i} - z_{1-\beta}\right)

$\alpha_i$ — скорректированный порог значимости для ранга $i$ (зависит от метода)
$z_{\alpha_i} = \Phi^{-1}(1 - \alpha_i)$ — критическое z-значение двустороннего теста
$z_{1-\beta} = \Phi^{-1}(\text{целевая мощность})$ — z-значение, соответствующее желаемой мощности
$\Phi$ — функция нормального распределения

Чем строже порог $\alpha_i$ (больше $z_{\alpha_i}$ ), тем меньше разность $z_{1-\beta} - z_{\alpha_i}$ и тем ниже мощность. Bonferroni — один плоский порог $\alpha/m$ для всех рангов. BH — нарастающий $(i/m)\cdot\alpha$ . Поэтому у старших рангов BH заметно мощнее.