В продолжение предыдущих Часть-1 и Часть-2

Классический процесс статистического вывода состоит из следующих шагов:

  • Гипотеза — предположение, сделанное в качестве основы для рассуждения, без каких-либо предположений о его истинности (цена А более выгодна, чем цена В).
  • Планирование эксперимента — тест A/B — эксперимент, предназначенный для проверки гипотезы и получения убедительных результатов.
  • Сбор данных
  • Выводы — данные собираются, анализируются и затем делается вывод

А/А тестирование

А/А-тестирование — это статистический тест, который проводится для сравнения двух идентичных впечатлений на случайной группе пользователей. Хотя трафик распределяется поровну между обоими вариантами, цель A/A-теста состоит в том, чтобы подтвердить статистический тест, который не дает разницы в коэффициентах конверсии между двумя вариантами.

А/Б тестирование

A/B-тестирование — это экспериментальный процесс, в котором две или более версий веб-страницы/продукта/приложения (или элемента веб-страницы/продукта/приложения) тестируются на аудитории для достижения конкретных целей, чтобы определить, какая версия оказывает наибольшее влияние на аудиторию. бизнес-метрики.

Пример :

  • Текущее лечение «А» назначается пациентам
  • Типичная гипотеза состоит в том, что новое лечение «В» лучше.

Субъекты — предметы, подвергающиеся обработке.

Лечение — что-то, чему подвергается субъект.

Лечебная группа — группа субъектов, подвергшихся определенному лечению.

Контрольная группа — группа субъектов, не получавших лечения или получавших стандартное лечение.

В правильном A/B-тесте есть испытуемые, которым можно назначить то или иное лечение. В идеале субъекты рандомизируются для лечения, чтобы знать, что разница между группами лечения связана с одной из следующих двух вещей:

  • Эффект от разных процедур
  • Удача розыгрыша, в котором предметы назначены на какие процедуры.

Если ожидается, что эксперимент приведет к выбору между лечением «А» и лечением «В», необходимо заранее установить единую метрику или тестовую статистику. Выбор тестовой статистики после проведения эксперимента открывает дверь для предвзятости исследователя.

A/B-тестирование — отличный способ быстро разобраться в вопросе.

Проверка гипотез

Проверка гипотез используется для подтверждения выводов о параметре совокупности. С помощью проверки гипотез мы можем определить, достаточно ли доказательств, чтобы сделать вывод, верна ли гипотеза о параметре популяции.

Проверка гипотез помогает узнать, может ли случайность быть причиной наблюдаемого эффекта. A/B-тест строится с учетом гипотезы. Статистическая проверка гипотез была изобретена как способ защитить исследователей от случайного обмана. Тесты гипотез также называются тестами значимости.

В тестах гипотез используется следующая логика: «Учитывая, что человеческая природа реагирует на необычное, но случайное поведение и интерпретирует его как осмысленное, Эксперимент должен требовать доказательства того, что различия между группами более значительны, чем то, что может разумно возникнуть по воле случая». .

Нулевая гипотеза — базовое предположение, которое всегда предсказывает отсутствие эффекта или связи между переменными.

Альтернативная гипотеза — противоположность нулевой гипотезе, в которой излагается наш исследовательский прогноз эффекта или взаимосвязи.

В тесте A/B мы тестируем новый вариант (B) против установленного варианта по умолчанию (A), и предполагается, что мы будем придерживаться варианта по умолчанию, если новый вариант не докажет, что он определенно лучше. В таком случае мы хотим, чтобы проверка гипотезы защитила нас от того, чтобы случай не одурачил нас в пользу В. Нас не волнует, что случай одурачит нас в другом направлении, потому что мы будем придерживаться А, если только В не окажется окончательно лучшим. .

При проверке гипотез мы принимаем решение отклонить нулевую гипотезу или не отклонить нулевую гипотезу.

Статистическая значимость — это то, как статистики измеряют, дает ли эксперимент более экстремальный результат, чем тот, который может быть получен случайно. Если результат выходит за рамки случайных вариаций, он называется статистически значимым.

Проверка гипотезы может быть разделена на 4 этапа:

Шаг 1.Выскажите гипотезу.

Пример. Нулевая гипотеза: дети в США смотрят телевизор в среднем 3 часа в неделю. Альтернативная гипотеза: дети смотрят телевизор более (›) или менее (‹) 3 часов в неделю. Если вы не уверены в направлении, укажите, что значение нулевой гипотезы не равно (≠) 3 часам.

Шаг 2. Установите критерии для принятия решения.

Критерий основан на вероятности получения статистики, измеренной в выборке, если бы значение, указанное в нулевой гипотезе, было верным. Уровень значимости или уровень значимости относится к критерию суждения, на основании которого принимается решение относительно значения, указанного в нулевой гипотезе. Критерий или уровень значимости обычно устанавливается на уровне 5%. Когда вероятность получения выборочного среднего меньше 5%, мы отвергаем значение, указанное в нулевой гипотезе.

Шаг 3.Вычислите статистику теста

Тестовая статистика – это математическая формула, которая позволяет исследователям определить вероятность получения результатов выборки, если нулевая гипотеза верна. Значение тестовой статистики используется для принятия решения относительно нулевой гипотезы.

Шаг 4.Примите решение

Используйте значение тестовой статистики, чтобы принять решение относительно нулевой гипотезы. Принимать решение. Если вероятность получения среднего значения выборки меньше 5%, когда ноль истинен, то нулевая гипотеза отклоняется. Если вероятность получения выборочного среднего значения больше 5%, когда ноль истинен, то сохраняем нулевую гипотезу.

pзначение — это вероятность получения результата выборки при условии, что значение, указанное в нулевой гипотезе, верно. Значение p для получения результата выборки сравнивается с уровнем значимости. Решение отклонить или сохранить нулевую гипотезу называется значимостью.

Решение может состоять в том, чтобы оставить нуль (p > 0,05) или отклонить нуль (p ‹ 0,05).

Решения принимаются по выборке, а не по генеральной совокупности, т решение может быть как правильным (правильно отклонить или оставить нуль), так и неправильным (неправильно отклонить или оставить нулевым).

Ошибка типа I — это вероятность отклонения нулевой гипотезы, которая на самом деле верна. Исследователи напрямую контролируют вероятность совершения такого рода ошибок. Эта ошибка аналогична признанию виновным невиновного человека. Предположим, что нулевая гипотеза верна, когда начинаете проверку гипотезы, чтобы свести к минимуму ошибку первого рода.

Альфа-уровень – это уровень значимости или критерий проверки гипотезы. Это наибольшая вероятность совершения ошибки типа I, которую мы допустим и все же решим отвергнуть нулевую гипотезу. Этот критерий обычно устанавливается равным 0,05, и мы сравниваем альфа-уровень со значением p. Когда вероятность ошибки типа I меньше 5% (p‹ .05), мы принимаем решение отклонить нулевую гипотезу; в противном случае мы сохраняем нулевую гипотезу.

Ошибка типа II – это неправильное решение оставить ложную нулевую гипотезу.

Мощность при проверке гипотез – это вероятность отклонения ложной нулевой гипотезы. Это вероятность того, что случайно выбранная выборка покажет, что нулевая гипотеза ложна, когда нулевая гипотеза ложна.

Пример проверки гипотез с использованием Z-теста в качестве тестовой статистики

z-критерий используется для проверки гипотез о среднем значении генеральной совокупности, когда известна дисперсия генеральной совокупности.

Ненаправленные тесты или двухсторонние тесты — это тесты гипотез, в которых альтернативная гипотеза указывается как не равна(≠). Направленные тесты, или односторонние тесты, – это тесты гипотез, в которых альтернативная гипотеза указывается как большая (›) или меньшая (‹) значения, указанного в нулевом поле. гипотеза. Статистика теста для теста z с одной независимой выборкой называется статистикой z . Статистика z — это выводная статистика, используемая для определения количества стандартных отклонений в стандартном нормальном распределении, когда среднее значение выборки отклоняется от среднего значения генеральной совокупности, указанного в нулевая гипотеза.

Пример. Темплер и Томео (2002) сообщили, что средний балл по количественной части Общего теста GRE для студентов, сдавших экзамен в период с 1994 по 1997 год, составил 558 ± 139. Предположим, мы выбираем выборку из 100 участников. Мы записываем среднее значение выборки, равное 585. Вычисляем тест z с одной независимой выборкой, чтобы определить, сохраним ли мы нулевую гипотезу на уровне значимости 0,05.

Решение

Шаг 1. Гипотеза состояния

Шаг 2. Установите критерии для принятия решения.

Чтобы найти вероятность получения среднего значения выборки из данной совокупности, мы используем стандартное нормальное распределение. Мы найдем значения z в стандартном нормальном распределении, которые являются пороговыми или критическими значениями для выборочных средних значений с вероятностью менее 5 %, если значение указанное в нуле (m = 558) верно.

В ненаправленном двустороннем тесте мы делим значение альфа пополам, чтобы в верхнем и нижнем хвостах находилась равная доля площади.

Z-оценка для 0,0250 равна 1,96.

Шаг 3. Вычислите статистику теста

Шаг 4. Примите решение

Полученное значение Z равно 1,94.

Критические значения Z равны 1,96.

Поскольку полученное значение не достигает пороговой области, мы должны сохранить нулевую гипотезу, которая означает, что средние результаты теста равны 550 в популяции при уровне значимости 0,05.

Существует множество других тестов гипотез, таких как t-критерий, хи-квадрат, Колмогорова-Смирнова, Манна-Уитни и т. д. в одновыборочных и двухвыборочных тестах. В следующей части мы углубимся в эти тесты.

Продолжение следует…….

Использованная литература: