При тестировании нескольких гипотез одновременно вероятность хотя бы одного ложного срабатывания растёт нелинейно. При α = 0.05 и 20 независимых метриках она равна 64%, а не 5%.
Введите p-values ваших метрик — таблица покажет, какие гипотезы остаются значимыми после каждой поправки.
| Метрика | p-value | Bonferroni | Holm | BH (FDR) | BY (FDR) |
|---|---|---|---|---|---|
| Выручка | 0.0080 | ✓ | ✓ | ✓ | ✗ |
| Конверсия | 0.0320 | ✗ | ✗ | ✗ | ✗ |
| Retention | 0.0480 | ✗ | ✗ | ✗ | ✗ |
| CTR | 0.1200 | ✗ | ✗ | ✗ | ✗ |
| Время на сайте | 0.2100 | ✗ | ✗ | ✗ | ✗ |
| Итого | — | 1 / 5 | 1 / 5 | 1 / 5 | 0 / 5 |
| Метод | Что контролирует | Мощность | Когда применять |
|---|---|---|---|
| Bonferroni | FWER | Низкая | Мало гипотез, высокая цена любой ошибки |
| Holm | FWER | Выше Bonferroni | Всегда лучше Bonferroni — использовать вместо него |
| BH (FDR) | FDR | Высокая | Много метрик, исследовательский A/B анализ |
| BY (FDR) | FDR (любая зависимость) | Ниже BH | Метрики сильно коррелируют |
— число ложных отвержений, — общее число отвержений. BH контролирует FDR при независимых гипотезах и PRDS-зависимости. BY — при произвольной.
Для каждой гипотезы ранга вычисляется ожидаемая мощность — вероятность обнаружить реальный эффект при данном пороге:
Чем строже порог (больше ), тем меньше разность и тем ниже мощность. Bonferroni — один плоский порог для всех рангов. BH — нарастающий . Поэтому у старших рангов BH заметно мощнее.