Приложение 4. Величина статистического эффекта

В разных главах учебника мы говорили о величине эффекта и упоминали несколько способов его оценки. В данном приложении мы сведем эту картину воедино: обсудим, зачем и как оценивать статистический эффект при разных гипотезах и разных методах обработки данных.

П4.1. Зачем и как оценивать статистический эффект

В подпараграфе 6.1.2 приводился пример, в котором нас интересовало влияние кофеина на продуктивность и обсуждалось два вопроса:

  1. Насколько сильно сдвигается продуктивность под действием кофеина?
  2. Насколько мы можем быть уверены, что этот эффект оценен достаточно точно?

На практике первый вопрос, которым задается исследователь, еще более простой: влияет ли кофеин на эффективность вообще? К сожалению, как раз на этот вопрос статистика прямого ответа не дает, хотя предлагает косвенный ответ. Используя T-критерий Стьюдента и вычисляя значимость, мы отвечаем на противоположный вопрос: насколько вероятно, набрав случайную выборку, получить такое или более экстремальное значение t-статистики, если на самом деле кофеин не действует? Если вероятность маленькая, это дает основания отвергнуть нулевую гипотезу и принять альтернативную — сделать вывод, что скорее кофеин все же влияет на продуктивность.

Напоминание П4.1(1). Проверяя нулевую гипотезу (или, другими словами, пользуясь методологией проверки нулевой гипотезы, NHST), важно помнить, что уровень значимости не означает вероятности гипотезы ​\( H_0 \)​, а выбор его (например, 0.05) — результат условной договоренности (подпараграф 5.1.4).

Уровень значимости не поможет и в ответе на вопросы о силе эффекта и точности его оценки, поскольку он зависит от объема выборки. Например, для того, чтобы такая сильная линейная связь, как r = 0.81  достигла уровня значимости p < 0.05, достаточно выборки лишь в шесть человек, но при выборке в 100 испытуемых этого уровня значимости будет достигать и корреляция  r = 0.20. Однако понятно, что корреляция 0.81 и корреляция 0.20 — это совсем разная по силе связь и для психолога она может иметь очень разное значение. Чтобы оценить силу связи, или силу сдвига продуктивности, требуется показатель, от размера выборки не зависящий.

По аналогии с тем, как ранее мы предполагали, что в генеральной совокупности существуют неизвестные нам математическое ожидание и среднеквадратичное отклонение по данной переменной (например, продуктивности), и оценивали их в исследовании на основе среднего и стандартного отклонения выборки, предположим теперь, что для любого исследовательского вопроса, проверяющего нулевую гипотезу, в генеральной совокупности существует некая неизвестная нам величина эффекта, и попытаемся оценить ее с помощью статистики на основе данных выборки. Существует два ключевых подхода к пониманию величины статистического эффекта (статистической оценки эффекта). Первый подход предлагает оценивать эффект по силе связи между переменными примерно так, как силу линейной связи между двумя интервальными переменными можно оценить по величине корреляции (r = 0.81  в отличие от r = 0.20) или коэффициенту детерминации (​\( R^2=0.66 \)​  в отличие от \( R^2=0.04 \), т.е. 66% общей дисперсии двух переменных в отличие от 4%). Теоретическую величину такого статистического эффекта обычно называют R, а способы ее оценки в разных методах обработки данных — оценками силы связи, или оценками с учетом дисперсии (или — «семья r»). Такие аналоги коэффициента корреляции предложены для самых разных методов обработки данных — и все они представляют собой разные оценки теоретического статистического эффекта как силы связи.

Пример второго подхода приведен в исследовании с кофеином в подпараграфе 6.1.2: в нем статистический эффект понимается как стандартизованная разница между средними, или, другими словами, разница между средними, измеренная в стандартных отклонениях. Такую теоретическую величину обычно обозначают D, и для разных методов обработки данных придумано немало способов оценить теоретическую величину D по имеющейся выборке (их иногда называют «семья d»).

Замечание П4.1(2). Как самостоятельный метод, оценка величины статистического эффекта не добавляет исследователю уверенности в выборе между нулевой и альтернативной гипотезой или в точности оценки параметров (математического ожидания, среднеквадратичного отклонения) генеральной совокупности. Она лишь напоминает ему, что результат может быть значимым, но при этом весьма скромным или даже не имеющим смысла в данной области науки. Для сравнения, не добавляет этой уверенности и доверительный интервал: он лишь напоминает, что оценка может быть неточной.

Замечание П4.1(3). Оба понимания величины статистического эффекта применяются в психологии. Оценивая эффект как силу связи, удобнее интерпретировать результат по аналогии с коэффициентом корреляции. Оценка же эффекта как стандартизованной разницы средних обладает другим преимуществом: одна из таких оценок (которая носит название d Коэна) используется в метаанализе, процедуре, позволяющей обобщить результаты разных исследований, рассчитав их общий, взвешенный эффект. Именно поэтому к настоящему моменту оценка статистического эффекта при помощи d Коэна стала настолько распространенной, что иногда, говоря «статистический эффект», имеют в виду именно этот критерий. Ниже мы покажем, что это очень упрощенное понимание.

Обратим также внимание читателя, что существуют формулы «перевода» одних способов оценки величины статистического эффекта в другие. Они полезны, если у исследователя нет доступа к «сырым» данным и по разным показателям в статьях он пытается провести единый метаанализ. Однако не во всех случаях это точные формулы, часто это лишь приблизительная «подгонка», экстраполяция, хотя и вполне приемлемая.

П4.2. Статистический эффект как оценка силы связи

Если нас интересует попарная линейная связь переменных (например, возраста детей и их успешности в запоминании некоторого материала, см. подпараграф 9.1.1), оценить статистический эффект легко двумя уже знакомыми нам способами:

  1. По коэффициенту корреляции r: чем дальше показатель от нуля, тем сильнее линейная связь.
  2. По коэффициенту детерминации ​\( R^2 \)​: в линейной регрессии он описывает долю суммы квадратов, учтенных в модели, по отношению к общей сумме квадратов (​\( \frac{S_{model}}{S_{total}}=\frac{S_{total}-S_{error}}{S_{total}} \)​).

Напомним, если переменных всего две, коэффициент детерминации равен квадрату коэффициента корреляции (​\( R^2=r^2 \)​) и описывает общую дисперсию двух переменных.

Во множественной линейной регрессии (например, если нас интересует связь возраста, успеваемости и поддержки со стороны родителей у детей с их успешностью запоминания) сила связи также описывается коэффициентом детерминации ​\( R^2 \)​: чем ближе он к единице, тем больше величина статистического эффекта; чем ближе к 0 — тем меньше. В иерархической линейной регрессии и в анализе модерации (см. параграф 10.2) изменение процента объясняемой дисперсии зависимой переменной ​\( \Delta R^2 \)​ говорит об изменении «силы связи» (в смысле — объяснительной силы модели) при добавлении новых независимых переменных.

Упражнение П4.2(1). Вернитесь к примерам 10.3(14) и 10.3(19) и, опираясь на приведенные значения \( R^2 \) и \( \Delta R^2 \), сравните, каких изменений (в смысле объяснительной силы — значительных или небольших) удалось достичь добавлением новых независимых переменных. Обратите внимание, что в первом случае улучшение модели достигает принятого в психологии уровня значимости, а во втором — нет. Какие выводы из исследований следует сделать, если учитывать только уровень значимости? Достаточно ли велика разница между улучшением в 12% объясняемой дисперсии и улучшением в 9% объясняемой дисперсии, чтобы в одном случае признать ее имеющейся, а во втором — отсутствующей? Упражнение иллюстрирует, что выводы из исследования становятся более осмысленными, если помимо уровня значимости, учитывать величину эффекта.

Для дисперсионного анализа величина эффекта оценивается показателем ​\( \eta ^2 \) ​ (греческая буква «эта» в квадрате), который при сравнении двух и более выборок параметрическими методами (t-критерий Стьюдента для несвязанных выборок, однофакторный дисперсионный анализ) совпадает с ​\( R^2=\frac{S_{model}}{S_{model}+S_{error}} \)[1].

Упражнение П4.2(3). Вернитесь к примеру 7.3(1) и 7.3(2) и рассчитайте ​\( \eta^2 \)​ для вклада способа привлечения студентов к дополнительному курсу в экзаменационную оценку. Проверьте свои вычисления, используя SPSS. Обратите внимание, что хотя в 7.3(1) различия между группами далеки от приемлемого уровня значимости, а в 7.3(2) мы можем сделать вывод, что группы различаются (если ориентироваться на p < 0.05), величина статистического эффекта одинакова. Это неудивительно, потому что в 7.3(2) мы лишь удвоили выборку (что повлияло на уровень значимости), а сила связи сохранилась.

Если проводится многофакторный дисперсионный анализ, величина эффекта рассчитывается отдельно для каждого фактора и для каждого взаимодействия. В двухфакторном анализе таких показателей будет три: два фактора и взаимодействие. Формула при этом несколько изменяется: вместо ​\( S_{model} \)​ используются сумма по тому фактору (или взаимодействию), который нас интересует. В обозначениях параграфа 8.2\( \eta^2=S_f/(S_f+S_{error}) \)​. В первом случае в знаменателе мы учитываем всю дисперсию, а во втором — ту, которая объясняется одним из факторов (и которая не объясняется ни одним из других факторов). Поскольку в разных исследованиях дополнительные факторы могут быть разными, то выделение эффекта отдельного фактора становится вполне разумным, если мы сопоставляем эти исследования. В таких случаях используют дополнительную букву в обозначении — ​\( \eta_p^2 \)​ (от английского partial, частичная эта в квадрате).

Упражнение П4.2(4). Вернитесь к примеру 8.3(1) и рассчитайте величины статистического эффекта ​\( \eta^2 \)​ для вклада мотивации студента, опыта преподавателя и их взаимодействия в итоговый уровень знаний по предмету. Проверьте свои вычисления, используя SPSS (Воспользуйтесь инструкциями параграфе 8.3, затем перейдите по кнопке Параметры (Options) и отметьте пункт Оценки размера эффекта (Estimates of effect size)).

П4.3. Статистический эффект как стандартизованная разница между средними

Наиболее известный вариант расчета величины статистического эффекта как стандартизованной разницы между средними был предложен Дж. Коэном для сравнения двух несвязанных выборок и носит название d Коэна. Идея ее расчета проста: разность между средними двух выборок делится на их общее стандартное отклонение — в результате получается разность, измеренная в стандартных отклонениях, или стандартизованная разность. Однако идея может быть реализована по-разному. Например, в подпараграфе 6.1.2 мы вычитали из среднего времени реакции тех, кто не принимал кофеин, среднее время реакции тех, кто принимал, — и делили на стандартное отклонение контрольной группы. Такой показатель величины эффекта называется дельтой Гласса.

Предположим, что в каждой группе по 10 человек, при этом среднее время реакции у принимавших кофеин ​\( \overline{x}=4 \)​, а стандартное отклонение ​\( s_x=2 \)​, а у непринимавших (контрольная группа) — ​\( \overline{y}=5 \)​ со стандартным отклонением ​\( s_y=1 \)​. Тогда дельта Гласса вычисляется так:

\[ \sigma=\frac{\overline{x}-\overline{y}}{s_y}=\frac{5-4}{1}=1 \].

Соображения в пользу такого выбора приведены в 6.1.2.

Если группы равноправны (например, как мы писали, в одной группе пили кофе, а в другой принимали таблетку кофеина), то можно взять среднее стандартное отклонение ​\( s=(1+2)/2=1.5 \)​ (тогда величина эффекта будет равна 0.667) или рассчитывать среднюю дисперсию по выборкам, а затем извлекать из нее корень ​\( s=\sqrt{\frac{1^2+2^2}{2}}=1.58 \)​ (результат отличается от предыдущего).

Надо иметь в виду, что интерес к величине эффекта не исчерпывается существом дела для данного конкретного эксперимента, важным аспектом этого интереса является желание унифицировать отчеты о результатах единичных исследований так, чтобы их можно было использовать в метааналитических исследованиях. Упомянутый показатель d Коэна имеет в виду, прежде всего, эту цель.

С этой точки зрения становится понятными выбор Коэна: в общем случае неравных по объему выборок ​\( {x_n,y_m} \)​ он предлагает такую формулу:

\[ d=\frac{\overline{x}-\overline{y}}{S_{pooled}} \]

где

\[ S_{pooled}=\sqrt{\frac{(n-1)s_x^2+(m-1)s_y^2}{n+m-2}}=\sqrt{\frac{1}{n+m-2}(\sum{(x_i-\overline{x}})^2+\sum{(y_i-\overline{y})^2)}} \]

(правая часть равенства получается подстановкой вместо ​\( s_x \)​ и ​\( s_y \)​ их выражений).

При равенстве объемов формула приобретает понятный вид

\[ S_{pooled}=\sqrt{(s_x^2+s_y^2)/2} \]

но при неравенстве вклад каждой выборки пропорционален ее объему, что выглядит не оправданно, если иметь в виду существо дела. Однако такая формула позволяет получать статистический эффект, если из отчета об исследовании известны только объемы выборок и значение t-статистики. Действительно, формулы d Коэна и t Стьюдента отличаются только множителем, поскольку в знаменателе статистики Стьюдента стоит

\[ se=\frac{\sqrt{\frac{1}{n+m-2}(\sum{(x_i-\overline{x}})^2+\sum{(y_i-\overline{y})^2)}}}{\sqrt{\frac{nm}{n+m}}} \],

а в знаменателе d Коэна

\[ S_{pooled}=\sqrt{\frac{1}{n+m-2}(\sum{(x_i-\overline{x}})^2+\sum{(y_i-\overline{y})^2)}} \].

Таким образом, ​\( d=\frac{t}{\sqrt{\frac{nm}{n+m}}} \)​.

Всегда ли «объединенное» стандартное отклонение ​\( S_{pooled} \)​ — хорошая единица измерения? Предположим, из предыдущих масштабных исследований нам известно стандартное отклонение в скорости реакции на большой выборке испытуемых. Если мы подозреваем, что эта оценка популяционного среднеквадратичного отклонения более точна, чем в наших двух небольших экспериментальных выборках, не разумнее ли воспользоваться ею и подставить в знаменатель в формуле?

Другой пример: что, если прием кофеина сказывается не только на средней скорости реакции, но и на ее дисперсии (а значит, и стандартном отклонении)? Например, предположим, что время реакции после кофеина становится более разнообразным — чаще попадаются как очень быстрые ответы, так и медленные. «Объединяя» стандартные отклонения контрольной и экспериментальной групп так, как предложил Коэн, мы не приближаемся к оценке среднеквадратичного отклонения в скорости реакции в популяции, как нам того бы хотелось, а отдаляемся от нее! Происходит это потому, что стандартное отклонение в контрольной группе действительно описывает различия между людьми во времени реакции, а стандартное отклонение в экспериментальной группе принимавших кофеин — уже нет, поскольку само искажено действием кофеина. В таких случаях разумнее использовать формулу Дж. Гласса (см. выше). Обратите внимание, что и интерпретация этого эффекта будет другой: принимающие кофеин реагируют в среднем быстрее, чем не принимающие, на одно стандартное отклонение во времени реакции контрольной группы. Тот факт, что при приеме кофеина растет дисперсия времени реакции, представляет, заметим, отдельный интерес.

Замечание П4.3(1). Мы видим, что для решения одной и той же задачи — оценки статистического эффекта как стандартизованной разности средних при сравнении двух несвязанных выборок — исследователи могут использовать разные меры, если обоснуют, почему в их случае та или иная оценка среднеквадратичного отклонения в популяции более разумна. Однако, это меняет и сам результат, и его интерпретацию — и мы советуем читателю внимательно проверять, какую именно меру оценки величины эффекта использовали авторы того или иного исследования.

Замечание П4.3(2). Поскольку в «объединенном» стандартном отклонении стандартные отклонения каждой из групп учтены пропорционально количеству испытуемых в каждой группе, интерпретировать результат особенно трудно, если сильно отличаются не только стандартные отклонения в сравниваемых группах, но и их размеры. «Перекос» получается в пользу той группы, которая больше по размеру. Поэтому исследователи рекомендуют при разных дисперсиях (и стандартных отклонениях) в группах стараться, чтобы в большей по размеру группе было не более 60% всех испытуемых (а в меньшей, следовательно, не менее 40%).

Для сравнения двух связанных выборок расчеты, казалось бы, можно упростить: если для каждого человека рассчитать изменение его показателей. Так, в примере 6.3.1 это изменение в скорости реакции до и после приема алкоголя у каждого испытуемого.

Вариант 1. Легко рассчитать среднее и стандартное отклонение переменной «изменение скорости реакции». Разделив одно на другое, получим некоторую величину — можно ли ее считать оценкой величины эффекта?

Вариант 2. В подпараграфе 6.1.2 в качестве величины эффекта мы брали другой показатель: отношение средней разности к стандартному отклонению стартового замера и обосновывали этот выбор. Теперь мы обсудим новые детали вопроса.

В случае связанных выборок показатели первого и второго замеров, как правило, коррелируют между собой. Если «сдвиг» в скорости реакции после приема алкоголя у всех похожий (например, скорость реакции убывает), самые быстрые люди будут реагировать довольно быстро и после приема алкоголя, а самые медленные по-прежнему медленнее других. Т.е. корреляция между переменными «скорость реакции до алкоголя» и «скорость реакции после» будет положительной.

Как мы отмечали в подпараграфе 6.1.1, связанные выборки могут порождаться не только в результате повторных измерений. Следующий фантастический пример показывает весь спектр возможностей для связанных выборок.

Пример П4.3(3). Предположим, что исследуется различие действия таблетки кофеина против плацебо на субъективный уровень бодрствования. Авторы выбрали следующий дизайн: взяли несколько пар однояйцевых близнецов, воспитывавшихся в разных семьях, и отнесли одного из каждой пары в контрольную, а другого в экспериментальную группу. Авторы хотят, так сказать, вычесть эффект плацебо из эффекта кофеина. Такой дизайн имеет тем больше смысла, чем сильнее плацебо-внушаемость определяется наследственностью — и тем сильнее будет тогда корреляция между близнецовыми замерами. Если же плацебо-внушаемость не имеет наследственной компоненты, то корреляция будет равна нулю.

Если бы корреляция была близка к единице — это означало бы[2], что плацебо-эффект и действие кофеина практически суммируются. Тогда дисперсия разности была бы близка к нулю и вариант 1 расчета величины эффекта (см. выше) дал бы очень большое число. Ясно, что в таком виде он нам не подходит.

Если же корреляция равна нулю, то мы фактически имеем дело с независимыми выборками, и вариант 1 даст число, похожее на d Коэна.

Коэн предложил единую формулу, которая дает разумный результат при всех промежуточных ситуациях:

\[ S_{pooled}=\frac{S_{dif}}{\sqrt{2(1-r_{xy})}} \],

где ​\( r_{xy} \)​ — коэффициент корреляции, а ​\( S_{dif} \)​ — стандартное отклонение разности парных замеров.

В случае нулевой корреляции (при условии приблизительного равенства дисперсий замеров) ​\( S_{pooled} \)​ становится почти очевидно равно дисперсии экспериментальной (= контрольной) выборки, при промежуточных значениях ​\( r_{xy} \)​ дает приемлемые приближения к этим значениям. Для доказательства этого надо использовать равенство

\[ S_{X-Y}=S_X^2+S_Y^2-2\cdot r_{XY}\cdot S_X \cdot S_Y \],

которое верно как для случайных величин и их теоретических среднеквадратических отклонений и корреляции, так и для выборочных оценок.

Замечание П4.3(4). При сравнении двух выборок, зная t или F, всегда можно рассчитать оба показателя — и ​\( \eta^2=F/(F+df_{error})=t^2/(t^2+df_{error}) \)​, и Коэна ​\( d=t/\sqrt{n} \)​, воспользовавшись эквивалентностью T-критерия и дисперсионного анализа при сравнении двух групп: ​\( F=t^2 \)​ (параграф 7.2) (число степеней свободы модели на единицу меньше числа уровней независимой переменной, т.е. ​\( df=2-1=1 \)​).

П4.4. Величина эффекта в случаях непараметрических статистик

Для оценки силы эффекта для коэффициента корреляции Спирмена можно использовать сам коэффициент или его квадрат.

При непараметрических сравнениях групп, например, для статистик Вилкоксона, Манна-Уитни или Краскала-Уоллиса — распределения этих статистик аппроксимируются нормальным распределением (Z-распределением). Эту Z-оценку, аналог полученного результата в нормальном распределении, можно использовать для расчета статистического эффекта как силы связи: аналог коэффициента корреляции можно получить, если Z-оценку разделить на корень из объема выборки, а аналог коэффициента детерминации, или ​\( \eta^2 \)​, — если возвести полученный результат в квадрат.

Аналогичные показатели используются для таблиц сопряженности.

В расширенном варианте этого приложения, помещенного там же, где файлы данных для практикума, можно познакомиться с дальнейшими деталями обсуждаемого предмета.

[1] Показатель выводится в таблице SPSS. Повторите какую-либо задачу параграфа 7.3 и убедитесь в этом.

[2] Точно — лишь при равенстве дисперсий обеих выборок.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.