Интересное что-то

58 views10:43

Последовательная проверка SRM

TL;DR
Позволяет во время эксперимента проверять корректность долей выборок. Эффективен при длинных тестах.

Почему обсуждается?
Мы хотим останавливать эксперимент как можно раньше, если в нём есть ошибки. Один из простых индикаторов таких проблем — Sample Ratio Mismatch (SRM). Это сильное расхождение между планируемыми и фактическими долями участников в группах. SRM позволяет выявить сбои в рандомизации, ошибки в фильтрации и сетевые эффекты.

Проблема
Нужно принимать решение о наличии SRM без ожидания конца эксперимента и накопления всей выборки.

Предположения
1. Распределение пользователей по группам случайное, сетевые эффекты отсутствуют.

Решение
Фиксируем:
– вероятность ошибки α,
– ожидаемые доли групп p(1), …, p(k),
– параметры априорного распределения b(1), …, b(k).

Часто b(i) = 1 или B·p(i), где B > 0. Эти параметры влияют на баланс между мощностью и скоростью принятия решения.

Во время теста:
1. Добавляем наблюдение — номер группы, в которую попал новый пользователь.
2. Обновляем наблюдаемые доли групп q = (q(1), …, q(k)).
3. Считаем байесовское отношение правдоподобий O(q).
4. Если O(q) > 1 / α → считаем, что SRM присутствует; иначе — продолжаем.

Достоинства
– Быстрее останавливает тест в случае SRM.
– Статистика критерия и граница считаются по простым формулам.
– Для запуска достаточно зафиксировать всего один параметр — уровень значимости. Параметры априорного распределения можно задать равными единице.

Ограничения
– Обладает меньшей мощностью в сравнении с применением критерия хи-квадрат в конце эксперимента.
– Критерий консервативен: фактическая вероятность ошибки обычно ниже заданного α, из-за чего немного снижается мощность.
– Если данные поступают раз в день, их нужно случайно упорядочить перед подачей в критерий.
– Выбор параметров априорного распределения не всегда очевиден — требует экспертной настройки или моделирования.

Библиография
Основная статья:
Lindon M., Malek A. Anytime-valid inference for multinomial count data //Advances in Neural Information Processing Systems. – 2022. – Т. 35. – С. 2817-2831.
Популярное изложение:
A Better Way to Test for Sample Ratio Mismatches (SRMs) and Validate Experiment Implementations
На русском:
Как оценить валидность A/B-тестов. SRM и другие критерии

Medium

A Better Way to Test for Sample Ratio Mismatches (SRMs) and Validate Experiment Implementations

…or why I don’t use a Chi-squared test.

55 views10:43