Анализ статистической мощности (Power analysis)

PA.1 Теоретические основания

Анализ статистической мощности (Power Analysis) касается оценки ошибки второго рода при выводе на основе тестирования нулевой гипотезы. Напомним, что при отвержении или неотвержении нулевой гипотезы исследователь может сделать ошибки двух типов:

  • Ошибка первого рода, связанная с неверным отвержением нулевой гипотезы в то время, как она верна. Эта ошибка традиционно считается более важной и «серьёзной» и для её контроля используется значимость получаемых значений статистики. Вероятность этой ошибки стандартно обозначается греческой буковой α (альфа).
  • Ошибка второго рода, напротив, связана с принятием ложной нулевой гипотезы. Фактически, это означает, что исследователь не замечает некоего эффекта, который на самом деле есть. Вероятность этой ошибки обозначается греческой буквой β (бета).

Графически соотношение этих двух типов ошибок изображены на рис. PA.1(1).

Рис. PA1(1). Соотношение двух типов статистических ошибок.

Мощностью критерия является значение 1-β (на графике это площадь распределения статистики при H1 правее выбранной границы). Таким образом, смысл коэффициента мощности – это вероятность отвергнуть H0 когда она неверна, то есть обнаружить эффект как статистически значимый в случае, когда он действительно присутствует. Чем меньше вероятность ошибки второго рода, тем больше значение мощности (1-β). В идеале значение мощности может равняться 100%, но в реальном исследовании мощность всегда ниже 100%, хотя её можно пытаться увеличить, таким образом, реже допуская ошибку второго рода. Можно выделить несколько факторов, которые могут позволить увеличить мощность критерия.

Прежде всего, это размер выборки[1]. Увеличение выборки позволяет «уловить», оценить, как значимый реально существующий небольшой эффект. Для лучшего понимания механизма этого важно заметить, что в случае отсутствия эффекта (при верной нулевой гипотезе) размер выборки мало что изменит, увеличение мощности с увеличением размера выборки относится к ситуации наличия (пусть даже и слабого) статистического эффекта. Для прояснения того, как размер выборки влияет на мощность, рассмотри элементарный пример, в котором можно использовать одновыборочный t-критерий. Допустим, мы хотим оценить изменение самооценки у студентов до и после экзамена, используя методику Дембо-Рубинштейн. Для проверки этого предположения мы можем на выборке размера n измерить самооценку перед экзаменом и после него и рассчитали разность (таким образом, сведя ситуацию с двумя зависимыми выборками к одновыборочной). Чтобы проверить нашу гипотезу об изменении самооценки можно сравнить среднюю разность с нулём – при отсутствии изменений мы, в идеальном случае, ожидаем получить в среднем ноль, а достаточно заметное отклонение разности от нуля будет говорить о наличии изменений.

Рассмотрим две идеальных ситуации: а) изменения самооценки на самом деле не происходит (то есть средняя разность равна нулю и верна статистическая гипотеза H0) и б) изменение самооценки на самом деле есть (то есть верна гипотеза H1), и оно отражается в изменении на 1 балл по используемой шкале. Стандартное отклонение разности (неизбежно присутствующее в реальных данных и связанное с индивидуальными отличиями и случайными причинами) будем считать равной 4.

Если обратиться к формуле одновыборочного t-критерия (​ t = \frac{\overline{x}-\mu}{s_x}\sqrt{n} ​), то становится видно, что размер выборки становится существенным в ситуации H1, то есть при ​ \overline{x}\neq0 ​: в случае H0 при заданных условиях будет равен ​ t = \frac{0}{4}\sqrt{n} ​, при любом n, а во случае H1 — ​ t = \frac{1}{4}\sqrt{n} ​, то есть растет при увеличении n[2].

Этот же эффект может быть продемонстрировано с помощью модельного эксперимента (скрипт, написанный на языке R доступен по ссылке). Он устроен так: мы смоделируем по 10000 выборок разного размера (n = 25, n = 100 и n = 400), которые могут быть получены при истинной средней разности равной 0  при стандартном отклонении 4 и в каждом случае рассчитаем и сохраним полученные статистики t, а затем построим их распределения. Они изображены на рис. PA.1(2)А. Видно, что распределения не отличаются с точностью до различий в степенях свободы (рассчитываемых как df=n-1, при небольшой выборке распределение Стьюдента с небольшим числом df  имеет более «тяжелые» хвосты).

Если провести аналогичное моделирование при среднем значении сдвига равным 1 с тем же стандартным отклонение 4, обнаружится, что при увеличении выборки сдвиг t-статистики будет меняться, результат такого эксперимента представлено на рис. PA.1(2)Б. На нём отчётливо видно, что, во-первых, распределение статистики, практически не меняя свою форму, сдвигается вправо по мере увеличения выборки, и, во-вторых, при небольшой выборке ​ n=25 ​ t-статистика достаточно часто оказывается ниже верхнего квантиля, то есть даёт оснований отвергнуть H0, которая по нашим условиям неверна. Это как раз случаи ошибки второго рода, число которых уменьшается при увеличении выборки.

Теоретическое распределение t-статистики в этих двух примерах с учетом размера выборки представлены на рис. РА.1(2)В

Рис. PA.1(2) Распределения эмпирических значений t-критерия, полученных на выборках разного размера (n) в случае верной нулевой (А) и альтернативной (Б) гипотезе и теоретические распределения t-статистики в этих двух случаях (В). На рисунке В красным закрашена значимость (вероятность ошибки первого рода, всегда одна и та же 0.05), а зеленым – мощность (1-вероятность ошибки второго рода).

Также в качестве факторов, влияющих на мощность, надо указать на соотношение между ошибками первого и второго рода. В целом, при прочих равных, снижение допустимой вероятности ошибки первого рода увеличивает вероятность ошибки второго рода и наоборот. Для наглядности графически это соотношение можно найти на рисунке PA.1(1). Из него видно, что выбранная граница, обозначающая критерий принятия или отвержения нулевой гипотезы при смещении приводит одновременно к уменьшению вероятности α и увеличению вероятности β, либо, наоборот, увеличению α и уменьшению β.

В связи с этим рисунком укажем на важный момент: «возможное» распределение статистики, свидетельствующее против принятия нулевой гипотезы никогда не известно исследователю и любое единичное исследование в принципе не может быть основанием для определения этого распределения. В то же время, процедуры анализа мощности выборки могут требовать предположений об ожидаемой силе эффекта, который подразумевает то или иное смещение статистики. Такие предположения могут быть основаны на предшествующих исследованиях или каких-то других соображениях, но важно понимать их условность. При анализе мощности исследователь сталкивается с необходимостью некоторых предположений о тех или иных параметрах, характеризующих исследуемый эффект. Наиболее часто приходится устанавливать уровень значимости (максимальную вероятность совершения ошибки первого рода) и размер статистического эффекта. В качестве примера можно привести одну из задач, которая решается с помощью анализа мощности – определение минимального размера выборки, на которой с определенной вероятностью ошибок первого и второго рода эффект определенной силы будет оценен как значимый. Для проведения вычислений должны быть определены три параметра – α (оценка вероятности ошибки I рода), 1-β (статистическая мощность) и коэффициент величины статистического эффекта. Вероятности ошибок обычно устанавливаются в соответствии с общепринятыми границами – 0.05 для α и 0.80, 0.90 или 0.95 для 1-β. Это достаточно произвольные значения, которые закладывают в качестве исходных значений при определении предполагаемого размера выборки.

Если говорить в общем, основными параметрами, использующимися в анализе мощности, являются:

  • Размер выборки
  • Размер статистического эффекта
  • Критический уровень значимости α (вероятность ошибки первого рода)
  • Мощность (1-β) – вероятность не совершить ошибку второго рода.

 

Анализ построен на том, что, зная три из этих параметров, можно вычислить четвертый. Читатель может заметить, что при расчете размера выборки на этапе планирования эксперимента исследователь должен принять ряд априорных допущений – он должен установить прогнозируемый размер эффекта, а также выбрать уровни вероятностей α и β. Эти решения чаще всего основываются на традиции и анализе существующей литературы, практических соображениях и т.п., но в конечном итоге зависят от решения исследователя. Это стоит иметь в виду как ограничение такого рода анализа, но, тем не менее, он может быть полезен как с точки зрения планирования исследования, так и анализа уже полученных результатов.

Основные принципы анализа мощности.

Техника расчета в анализе мощности достаточно сложна, мы ограничимся кратким описанием общих идей, используя для иллюстраций достаточно прозрачный вариант анализа мощности для t-критерия Стьюдента.

Важная идея – это использование силы эффекта (d Коэна для t-критерия) как меры  «сдвига» распределений статистики в условиях нулевой и альтернативной гипотезы. Напомним, что d Коэна в самом простом случае двух зависимых выборок вычисляется как разность средних выборок деленая на стандартное отклонение этой разности (подробнее см. Приложение 4):

d=\frac{\overline{x}-\overline{y}}{s_{pooled}}

В случае совпадения оценок средних в двух выборках d=0 и распределения оцениваемого параметра совпадают. При увеличении размера статистического эффекта (увеличения модуля d) распределения начинают «расходиться». В допущении, что измеряемый параметр имеет нормальное распределение и однородную дисперсию (то есть, дисперсии в группах не различаются), коэффициент d может быть пересчитан в степень «расхождения» распределений средних в популяциях, соответствующих двум сравниваемым выборкам.

На рисунке PA.1(3) схематически изображены два распределения разности средних – одно соответствующее H0, а второе – соответствующее H1 при заданной величине эффекта (d) и размере выборки (n), определяющих сдвиг распределения (так называемый параметр нецентральности распределения Стьюдента (noncentrality parameter))[3].

Рис. PA.1(3). Распределения, соответствующие H0 и H1 при заданной величине эффекта (d) и размере выборки (n), определяющих сдвиг распределения.

Если мы рассчитываем статистическую мощность (1-β), то она может быть рассчитана как функция от

  • Размера эффекта (чем меньше распределения «перекрываются», тем больше мощность при прочих равных);
  • Размера выборки (чем больше размер выборки, тем меньше дисперсия средних и тем больше мощность);
  • Уровня α (чем меньше α, тем меньше мощность).

Таким образом, проведя исследование, мы можем использовать имеющиеся у нас значения размера эффекта, используемого нами уровня значимости (например, стандартные 0.05) и размеры выборки, мы можем вычислить эмпирическую мощность нашего анализа. Алгоритмически эта задача решается путем нахождения площади под кривой нецентрального (noncentral) распределения Стьюдента с соответствующим размеру выборок числом степеней свободы и коэффициентом смещения (non-centrality parameter) равным ​ \sqrt{n}*d ​ , отсекаемого квантилем стандартного распределения Стьюдента, соответствующего установленному значению α. Например, в случае двух зависимых выборок при проверке двухсторонней гипотезы, ​ d=0.5, α=0.05 ​ и размере выборок 50 значение мощности составляет 0.934. По содержанию, это оценка вероятности отвергнуть нулевую гипотезу при условии, что она не верна (то есть не допустить ошибку второго рода).

Аналогично, можно провести и другие расчеты, например, имея предположения об ожидаемой силе эффекта, установив уровень значимости α и желаемую мощность (1-β), можно рассчитать рекомендуемый размер выборки, на которой с заданной достоверностью будет обнаружен эффект ожидаемого размера. Например, если при сравнении средних в двух независимых выборках исследователь ожидает получить достаточно сильный эффект (d=0.8), при этом задан уровень значимости 0.05 и мощность равная 0.8, то рекомендуемый минимальный размер выборки оказывается равен 26 (в каждой из групп).

В случае анализа мощности других критериев и статистик может потребоваться указание дополнительных параметров (например, в дисперсионном анализе – число групп), а также по-разному рассчитываемая величина статистического эффекта, но базовая идея остается такой же – при указании эмпирических или предполагаемых значений различных параметров можно рассчитать либо мощность статистики, либо величину статистического эффекта, либо размер выборки. В дальнейших примерах мы рассмотрим две наиболее типичных ситуации, встречающиеся в исследовательской практике. Это, во-первых, расчет примерного размера выборки при планировании исследования, а во-вторых – оценка мощности уже проведенного эмпирического исследования.

 

PA.2 Практические примеры.

Ручной расчёт при анализе мощности требует использования специальных таблиц, в которых можно найти значение мощности статистики или размер выборки при заданных параметрах. Такие таблицы для наиболее распространенных методов можно найти, например, в книге Cohen J. Statistical power analysis for the behavioral sciences. – Routledge, 2013 (https://doi.org/10.4324/9780203771587). В настоящее время на практике для анализа мощности используются либо специальные программы, либо онлайновые калькуляторы, которые достаточно легко найти с помощью поисковых систем. Мы рассмотрим возможности Jamovi, в котором есть модуль jpower, позволяющий провести анализ мощности для различных видов t-критерия, библиотеку pwr в R, а также специализированную программу G*Power, специально разработанную для анализа мощности в самых разных случаях.

Пример PA.2(1). Расчет размера выборки в случае сравнения двух независимых выборок

Рассмотрим следующую ситуацию: исследователь планирует проанализировать гендерные различия удовлетворенностью жизнью у подростков. В качестве инструмента для измерения удовлетворенности жизнью он намерен использовать краткую шкалу удовлетворенности жизнью (satisfaction with life scale (SWLS), см.: Diener E., Emmons R.A., Larsen R.J., et al. The Satisfaction with Life Scale // Journal of Personality Assessment. 1985. Vol. 49 (1). P. 71—75; Осин Е.Н., Леонтьев Д.А. Краткие русскоязычные шкалы диагностики субъективного благополучия: психометрические характеристики и сравнительный анализ // Мониторинг общественного мнения: экономические и социальные перемены. 2020. № 1. С. 117—142). Анализ существующей литературы по данной тематике показывает противоречивость получаемых результатов – в ряде исследований получены свидетельства в пользу различий в уровне удовлетворенности у юношей и девушек, в других различий не обнаружено (см., например, Emerson S. D., Guhn M., Gadermann A. M. Measurement invariance of the Satisfaction with Life Scale: Reviewing three decades of research //Quality of Life Research. – 2017. – Т. 26. – №. 9. – С. 2251-2264).

Опираясь на частные исследования, проведенные в разных странах, можно предположить, что в случае различий этот эффект будет маленьким. Так, например на выборке норвежских подростков значимое различие между юношами и девушками с точки зрения размера статистического эффекта было небольшим – коэффициент d Коэна составил 0.28 (Moksnes U. K. et al. Satisfaction with life scale in adolescents: Evaluation of factor structure and gender invariance in a Norwegian sample //Social Indicators Research. – 2014. – Т. 118. – №. 2. – С. 657-671 ). Исходя из этого предварительного анализа, исследователь решает установить ожидаемый размер эффекта минимальным – 0.2, уровень значимости – стандартный – 0.05. Уровень мощности, которого исследователь хочет достичь – 0.80 (то есть, он допускает вероятность ошибки второго рода – 0.2) [4]. Таким образом, исходные данные для расчета минимального требуемого размера выборки для обнаружения этого эффекта таковы:

— Используется двусторонний t-критерий Стьюдента (нет предварительных предположений о том, что юноши более удовлетворены жизнью, чем женщины или наоборот);

  • Сила эффекта – слабая — 0.2 (в терминах d Коэна);
  • Уровень значимости – стандартный – 0.05;
  • Требуемая мощность анализа – 0.8.
Рассчет в Jamovi
Расчет в R
Расчет G*Power

Упражнение PA.2(9). Мы предлагаем читателю предположить, как изменится рекомендуемый размер выборки (уменьшится или увеличится) при:

  • Увеличении минимального ожидаемого размера эффекта до 0.8.
  • Увеличении мощности до 0.95.
  • Снижении уровня значимости до 01.

Проведите соответствующие расчёты в jpower, R или G*Power и проверьте свои предположения.

Упражнение PA.2(10). Расчет размера выборки для оценки различий в парных выборках.

Исследователь планирует оценить эффективность тренинга коммуникативных способностей. Он предварительно полагает, что тренинг может иметь средний эффект (по крайней мере d=0.6)[5]. Уровень значимости он планирует использовать стандартный — 0.05, а мощность исследования хотел бы получить достаточно высокую – 0.95. С помощью Jamovi, пакета pwr в R или G*Power рассчитайте минимальный требуемый в этих условиях размер выборки испытуемых.

Ответ для самопроверки: N = 39 при двусторонней или N=32 при односторонней гипотезе.

Пример PA.2(11). Оценка мощности, полученной в проведенном исследовании (post hoc).

Решим обратную задачу – расчет мощности проведенного исследования. Допустим, исследователь сравнил с помощью t-критерия Стьюдента уровень тревожности в небольшой выборке студентов размером в 40 человек в начале и в конце учебного семестра. Уровень значимости, который он использовал был стандартным – 0.05, размер обнаруженного эффекта d= 0.6. Какова мощность полученного результата и как можно проинтерпретировать эту мощность? Сначала опишем техническое решение в разных программных пакетах, а затем остановимся на его смысле.

Расчет в Jamovi
Расчет в R
Расчет в G*power

Теперь остановимся на важном вопросе – что означает полученная мощность, как её интерпретировать? Напомним, что мощность определяется как вероятность не совершить ошибку второго рода, то есть, можно сказать – вероятность не пропустить реально существующий эффект. Когда исследование уже проведено и результат получен, эффект оценён, то к этому коэффициенту можно отнестись как к ориентиру воспроизводимости этого эффекта в последующих исследованиях. Если полученная в нашем исследовании оценка эффекта отражает реальное положение вещей, то оценка мощности показывает вероятность его воспроизвести, не совершив ошибку второго рода, на выборке такого же размера в аналогичном исследовании[6]. Насколько такая оценка важна и стоит подробного обсуждения – дискуссионный вопрос. Заметим в связи с этим, что на практике такой анализ проводится довольно редко. Гораздо чаще в настоящее время используется оценка требуемого размера выборки – это помогает планировать исследования в целом и становится особенно важным в случае предварительной регистрации исследований.

В заключении раздела приведем еще несколько коротких примеров оценок размера выборок для двух распространенных статистических критериев – коэффициента корреляции Пирсона и F-отношения в дисперсионном анализе.

Пример PA.2(13). Оценка размера выборки для корреляционного исследования.

Допустим, исследователь хочет рассчитать корреляцию между уровнем удовлетворенности жизнью и уровнем оптимизма. Он, не анализируя литературу, просто рассчитывает на достаточно распространенное значение корреляции между психологическими параметрами – 0.3, использует стандартный уровень значимости – 0.05 и хочет получить мощность 0.95. Каков должен быть минимальный размер выборки в этих условиях? В Jamovi такой анализ провести пока что нельзя, поэтому опишем решение в R и G*Power.

Расчет в R
Расчет в G*Power

Пример PA.2(15). Оценка размера выборки в дисперсионном анализе.

Исследователь планирует  оценить уровень депрессии в группах больных с различными типами психических заболеваний – больных, страдающих обсессивно-компульсивным расстройством, шизофреников, и людьми с расстройством пищевого поведения – в сравнении с группой нормы. Предполагаемый эффект он оценивает как невысокий, в терминах знакомого нам из раздела 7.3  коэффициента η2 равного 0.1, планирует использовать уровень значимости 0.05 и желаемую мощность устанавливает на уровне 0.9. Требуется рассчитать требуемый размер выборки для получения значимого эффекта в таких условиях. Также как в случае корреляции в предыдущем примере такой анализ нельзя провести в Jamovi, но можно в R и G*Power. Однако, прежде, чем описать как это можно сделать, остановимся на одной технической детали. В качестве коэффициента размера статистического эффекта в обоих пакетах используется не η2, а коэффициент f, рассчитываемый как отношение стандартного отклонения средних сравниваемых групп к общему стандартному внутригрупповому стандартному отклонению. Этот коэффициент пересчитывается из η2 по формуле ​ f=\sqrt{(η^2/(1-η^2))} ​. Таким образом, в нашем случае ​ f = \sqrt{(.1/.9)}=.33(3) [7][/simple_tooltip].

Расчет в R
Расчет в G*Power

[1] Интересный вопрос – может ли быть объём выборки «слишком большим»? При увеличении выборки с учётом особенностей генеральной совокупности (например, соблюдение её половой и возрастной структуры и т.п.) её репрезентативность повышается. Также растёт мощность выборки – то есть, вероятность избежать ошибку второго рода, а также повышается чувствительность статистики (все меньшее значение статистик могут быть оценены как значимые). Таким образом, увеличение выборки выглядит как положительный фактор, позволяющий получить более точный результат. Однако, при работе с большими выборками нужно быть осторожными с точки зрения интерпретации получаемых эффектов и их практической или содержательной «значимости». На больших выборках легко получить значимый результат при минимальном размере эффекта, поэтому в этих случаях особенно важно дополнять данные о полученной значимости коэффициентами статистического эффекта.

[2] Заметим также, что эффект в первом случае равен 0, а во втором – \( d=\frac{1}{4}=0.25 \, что считается слабым эффектом.

[3] Подробное рассмотрение нецентрального распределения Стьюдента выходит за пределы этого небольшого введения в анализ мощности, но укажем, что оно в отличие от стандартного распределения Стьюдента, асимметрично и описывает распределение t-статистики в случае, когда его математическое ожидание смещено относительно нуля (см. подробнее https://ru.qaz.wiki/wiki/Noncentral_t-distribution, https://scask.ru/m_book_prs1.php?id=35)

[4] Обратим внимание читателя, что такой подход требует дополнительной содержательной работы – обзора имеющихся исследований по соответствующей тематике, учета уже полученных в других работах данных и т.п. При этом чем конкретнее план исследования, тем проще формулировать такие априорные предположения, ориентируясь на конкретные измерительные процедуры и методики.

[5] Заметим, что в данном случае можно рассуждать и так: более слабый эффект тренинга неинтересен, поэтому если он не будет оценен как значимый (будет совершена ошибка второго рода из-за малой эффективности тренинга) – это будет в некотором смысле адекватно.

[6] При этом надо помнить о том, что при истинной нулевой гипотезе мы можем получить случайно заметный эффект и совершить ошибку первого рода – в таком случае расчёт мощности технически возможен, но содержательно бессмысленен, как и разговоры о воспризводимости этой ошибки, естественно.

[7] В G*Power есть калькулятор, позволяющий сделать этот пересчет без обращения к формуле.

[8] Расчет в данном случае проводится для равных по размеру групп.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.