Статистическая значимость: особенности, ограничения и применение в маркетинге

Статическая значимость — это вероятность того, что различие между двумя наборами числовых данных обусловлены реальным отличием тестируемых вариантов и не являются случайными.

В маркетинге статическую значимость применяют при проверке гипотез о результативности внедренных или планируемых изменений.

Статистическая значимость помогает понять, стоит ли:

выпускать новый продукт, если тестовые продажи идут хорошо;
менять дизайн сайта или рассылки по результатам A/B-тестирования;
верить проведенным опросам потребителей;
считать, что рекламная кампания оказалась эффективной, если продажи выросли.

Как определить статистическую значимость

Соберите и обработайте исходные данные. Например, при A/B-тестировании берутся данные по трафику или конверсии с альтернативных вариантов сайта.

При этом из исходных чисел лучше убрать выбросы, чтобы они не искажали результаты. Например, посещаемость сайта колеблется в районе 100 посетителей в день. Внезапно происходит всплеск трафика до 5 000 посещений. Проверка показывает, что это результат разового фактора: сайт упомянул инфлюенсер или произошла хакерская атака. Значит, этот день лучше убрать из анализа.
Репрезентативная выборка в рекламе: что это и как определить
Также нужно определить размер выборки и проследить, чтобы она была репрезентативна по отношению к генеральной совокупности.

Сформулируйте нулевую и альтернативную гипотезы. Нулевая гипотеза (H0) — принимается по умолчанию и утверждает, что разница в данных обусловлена случайностью.

Альтернативная гипотеза (H1), наоборот, говорит что разница в данных является результатом какого-то воздействия (процесса). В отличие от нулевой гипотезы, её нужно доказать.

Для объяснения различий между нулевой и альтернативной гипотезами в научной литературе часто используют метафору презумпции невиновности.

Презумпция невиновности принимается судом по умолчанию, поэтому соответствует нулевой гипотезе. Обвинитель же должен доказать альтернативную гипотезу, что подсудимый виновен.

Если он не может этого сделать, то это не означает, что подсудимый невиновен (нулевая гипотеза корректна). Это лишь говорит о том, что предоставленные суду данные не являются достаточно значимыми для вынесения обвинительного приговора (верности альтернативной гипотезы).

Нулевую гипотезу отвергают или принимают, исходя из последующего анализа. Если она будет отвергнута, то вместо неё принимается альтернативная гипотеза.

Например, вы провели рекламную кампанию и хотите проанализировать ее результаты. Нулевая гипотеза в таком случае будет утверждать, что продажи товаров значимо не увеличились, а те изменения, которые есть, не выходят за рамки случайности. Альтернативная же будет подтверждать эффективность рекламной кампании.

Для принятия альтернативной гипотезы нужно доказать, что увеличение сбыта товара выходит за рамки простых колебаний.

Установите уровень значимости, который показывает допустимое число экстремальных значений, приемлемых при условии корректности нулевой гипотезы. Например, уровень 0,05 показывает, что в 5 случаях из 100 возможны экстремальные значения. Чаще всего выбирают это значение, но также уровень может быть равным 0,01 или 0,1.

Чем меньше порог значимости, тем весомее должны быть результаты для отказа от нулевой гипотезы. Так, при уровне значимости 0,05 в среднем в 95 случаях из 100 решение отклонить нулевую гипотезу окажется правильным, а в 1 случае из 20 исследователь ошибется. При уровне значимости 0,01 решение об отклонении нулевой гипотезы окажется верным в 99 случаях из 100.

Вычислите P-значение для числовых данных. Показатель, который находится в обратной зависимости от надежности результата.

Для доказательства альтернативной гипотезы найденное P-значение должно быть меньше заранее выбранного уровня значимости. В таком случае результаты считаются статически значимыми.

Для нахождения P-значения применяют разные методы, в том числе метод доверительных интервалов и t-статистику. Их задача выяснить, достаточно ли различаются показатели в выборке и генеральной совокупности, чтобы можно было принять альтернативную гипотезу. Подробнее эти методы разберем в примере ниже.

Существуют и другие способы определить P-значение: Z-тест, F-Test и так далее.

Также можно использовать готовые калькуляторы, чтобы определить, насколько значим полученный результат.

Так, калькулятор от Яндекса помогает рассчитать результаты A/B-тестирования в Яндекс Директе. Другой калькулятор позволяет выяснить размер выборки и провести t-тест при A/B-тестировании.

Сделайте выводы. Если P-значение меньше заранее заданного уровня значимости, то принимается альтернативная гипотеза. В противном случае изменения считаются случайными.

Пример вычисления статистической значимости

Допустим, маркетолог хочет оценить, стоит ли менять старый дизайн упаковки товара на новый. У него есть данные о продажах, которые вроде как подтверждают, что обновленный продукт покупают чаще. Задача — оценить, насколько статически значимы полученные результаты.

Для примера возьмем средние ежедневные результаты тестовых продаж нового продукта (доступны за неделю). С ними сравниваются аналогичные продажи старой версии продукта, которые доступны за год.

Среднее число продаж новой версии товара (единиц, в день)	400
Среднее число продаж старой версии товара (единиц, в день)	340
Стандартная ошибка	35
Число дней тестирования (размер выборки)	7

В таблице есть данные по стандартной ошибке. Она показывает, каким будет стандартное отклонение (типичная разницу между средним значением выборки и ее отдельными значениями, в Excel вычисляется при помощи функции СТАНДОТКЛОНА), если взять большое количество выборок, определить для каждой них среднее и рассмотреть эти выборочные средние как набор данных.

Для вычисления стандартной ошибки нужно определить стандартное отклонение, а потом разделить его на корень объема выборки.

Проверка данных. Маркетолог проверяет полученные данные, убеждается, что в них нет выбросов или следов манипуляций.

Формулировка гипотез. Нулевая гипотеза (H0) утверждает, что разница в продажах обусловлена случайностью, средние продажи старой и новой версии товаров не отличаются на более длительном интервале.

Альтернативная гипотеза (H1) утверждает, что разница продаж является результатом обновления продукта. Отличие средних величин продаж является статистически значимым.

Выбор уровня значимости. Маркетолог устанавливает стандартный уровень значимости в 0,05.

Вычисление P-значения. Решить задачу можно с помощью доверительных интервалов и t-критерия Стьюдента. Оба метода должны подтверждать результаты друг друга.

В первом случае нужно проверить, находится ли исследуемое значение внутри 95% интервала (соответствует уровню значимости 0,05). Если это так, то оно не является экстремальным и альтернативная гипотеза считается недоказанной.

Порядок действий следующий:

Находим степень свободы (для одной выборки этот показатель равен числу наблюдений минус единица): 7 - 1 = 6.
Используем t-таблицу для поиска значения t. Смотрим пересечение уровня значимости 0,05 и степени свободы 6. Находим число 2,447.
Следом находим доверительный интервал 95%. Для этого нужно прибавить и отнять от среднего числа продаж новой версии (400) произведение числа 2,447 на ст. ошибку (35). Получим 400 - (2,447*35) = 314 и 400 + (2,447*35) = 486. В Excel вычисляется при помощи функции ДОВЕРИТ.
Интерпретируем полученные числа следующим образом: присутствует 95% уверенность, что среднее количество продаж обновленного продукта будет в границах между 314 и 486 единицами.
Видно, что среднее число продаж старого продукта (340), которое по нулевой гипотезе незначительно отличается от показателей обновленной версии, входит в данный интервал. Статистически значимое доказательство неверности нулевой гипотезы отсутствует. Если бы значение было выше или ниже интервала, то можно было бы сделать статически значимый вывод, что среднее число продаж новой версии товара лучше (хуже) продаж старой версии.

Второй метод заключается в вычислении t-критерия для имеющихся данных. Если он меньше, чем ранее найденное значение из t-таблицы, то принимается нулевая гипотеза. В противном случае — альтернативная. В Excel вычисляется при помощи функции СТЬЮДЕНТ.ТЕСТ.

Алгоритм вычисления:

Для вычисления t-критерия вычитаем из нового среднего старый показатель и делим на ст. ошибку. (400 - 340) / 35 = 1,71.
Видим, что найденное значение меньше значения из t-таблицы (2,447).
Мы не можем отвергнуть нулевую гипотезу. Если бы результат был бы обратный, следовало принять альтернативную гипотезу.

Для обоих методов P-значение будут выше уровня значимости 0,05. Точное P-значение можно рассчитать с помощью соответствующих калькуляторов.

Выводы. Можно ли считать, что продажи новой версии товара не имеют смысла? Нет, просто представленные данные не позволяют сделать статистически значимый вывод о его преимуществах. Возможно, нужно расширить выборку: взять результаты за более длительный период времени.

Главные ошибки при расчете статистической значимости

Учитывать не все результаты вычислений (p-hacking). Случаи, когда P-значение не позволяет подтвердить альтернативную гипотезу, отбрасываются. Эта проблема довольно часто возникает, если исследователь хочет любой ценой подтвердить, что его выводы статистически значимы.

Допустим, маркетолог вложил много сил и времени в создание альтернативного варианта сайта. Он проводит A/B-тестирование, но получает, что P > 0,05. Альтернативная гипотеза об эффективности нового сайта не подтверждается. Однако показатель P очень близок к 0,05. Возникает искушение использовать p-хакинг. Можно, к примеру, расширить тестируемую выборку. Другой вариант — разбить ее на сегменты. В конечном итоге один из вариантов приведет к P < 0,05. Теперь можно смело обосновывать внедрение нового сайта.

Сначала вычислить P-значение, а потом подогнать уровень надежности. Это позволяет манипулировать результатами проверки гипотез. Например, после вычислений P-значение получилось 0,08. Если уровень значимости = 0,05, то гипотеза H1 неверна. Но если маркетолог установит уровень значимости = 0,1, то альтернативная гипотеза будет признана корректной.

Использовать прошлые данные и полученные ранее результаты. Не нужно думать, что найденная статистическая значимость или её отсутствие на 100% гарантируют будущие результаты. К примеру, A/B-тест доказал актуальность нового дизайна. Сайт модернизировали, он показывает хорошие результаты, но потом цифры идут вниз. Почему? Причин может быть много: от действий конкурентов до ошибок выборки, на которой тестировался новый дизайн.

Выбрать слишком низкий уровень надежности. Если уровень надежности поставить чересчур низким, например 0,1, то нулевая гипотеза будет отвергаться чаще, чем она того заслуживает. Данная ситуация называется в статистике ошибкой первого рода. С другой стороны, если порог для опровержения нулевой гипотезы будет слишком высоким, к примеру 0,01, то даже корректную альтернативную гипотезу будет трудно доказать. В этой ситуации возникает ошибка второго рода.

Прежде чем принимать решение на основе статистической значимости, важно понимать, что она не отображает силу связи. Например, версия сайта А более результативна, чем В. Но насколько? Если сайт после модернизации посещают больше людей, то оправдывает ли этот прирост сделанные вложения? Это должно быть предметом отдельного анализа.

Кроме того, если статистическая значимость не доказана, это не означает, что нулевая гипотеза верна. Это лишь показывает, что данных недостаточно для её опровержения. Маркетолог может попробовать провести новые тесты, но тут возникает опасность манипулирования данными.