7.1.1. Почему недостаточно парных сравнений
Предположим, что мы планируем провести исследование влияния способа проведения дополнительных занятий по математике на экзаменационные оценки студентов. Пусть студентов разделили на три примерно равные по силе группы и предложили первой группе по желанию прослушать факультативный курс, разъясняющий существенные аспекты использования статистических методов. Вторую группу обязали прослушать такой курс, а третьей, контрольной, возможности прослушать этот курс не предоставили. После прослушивания курса первыми двумя группами состоялся экзамен для всех трех групп. Как оценить воздействие дополнительного курса при данных трех условиях?
Разумеется, в первую очередь следует вычислить средние экзаменационные оценки по группам. Предположим, некоторые интересные различия обнаружены: добровольные слушатели показали наиболее высокие оценки, а лишенные возможности слушать курс — самые низкие в среднем оценки. Как и в случае сравнения средних для двух групп, нас интересуют два вопроса: (1) оценка — насколько велики расхождения между группами? (величина эффекта) и (2) насколько надежны полученные нами результаты? (статистическая значимость). Требуется метод, обобщающий Т-критерий на случай трех и более групп.
Прежде всего, заметим, нельзя решить задачу, сравнивая попарно каждую группу с каждой — такое попарное сравнение может приводить к ошибкам тем более серьезным, чем больше количество сравниваемых групп. Если мы станем сравнивать 20 различных условий по влиянию на подобный или какой-то иной показатель, ошибка станет практически неизбежной.
В практикуме в конце главы вы убедитесь, что двадцать групп по пятьдесят испытуемых в каждой практически всегда продемонстрируют отличие лучшей группы от худшей на уровне значимости меньше 0.05, даже если группы эти набирались совершенно случайно и ни о каком воздействии, которое могло бы привести к систематическому сдвигу среднего значения, речи не шло. Например, вы можете сравнить пассажиров двадцати вагонов метро по тесту интеллекта и убедиться, что значимость отличия лучшего вагона от худшего по Т-критерию, как правило, меньше 0.05.
Можно сказать, что \( 20(20-1)/2 \) (число сочетаний из 20 по 2) попарных сравнений «всех со всеми» практически гарантируют хотя бы одну ошибку первого рода, т.е. отвержение гипотезы \( H_0 \), когда она на самом деле верна. Вспомним, что уровень значимости критерия (например, 0.05 — см. 5.1.4) — это и есть вероятность ошибки первого рода, и повторив сравнения двадцать раз на разных парах групп, мы с большой вероятностью будем наблюдать хотя бы один случай события, вероятность которого равна 0.05 (или 1/20), т.е. хотя бы раз совершим ошибку первого рода. В нашем случае сравнения «всех со всеми» вероятность еще больше. Чтобы избежать опасности такой ошибки, дисперсионный анализ охватывает всю совокупность групп общей оценкой — насколько похожа на случайную вся эта совокупность результатов.
Дисперсионный анализ сравнивает дисперсии двух видов — внутри групп (связанную со случайными, неконтролируемыми различиями между испытуемыми) и между группами (связанную с влиянием группирующей переменной, или фактора). Мы помним, что при сравнении двух групп t-статистика измеряет разность средних стандартной ошибкой. Дисперсионный анализ измеряет квадрат разности средних квадратами стандартной ошибки, т.е. результат для двух выборок равен квадрату рассчитанной по этим же данным t-статистики (подробнее параграфе 7.2). Далее мы приводим пример расчета этого показателя. Вместо дисперсий мы будем считать похожие на них суммы квадратов. В конце эти суммы будут поделены на соответствующие константы и превратятся в оценки дисперсии.
7.1.2. Числовой пример. Сравнение условий обучения
Естественного аналога разности средних, которая стоит в числителе Т-статистики, для нескольких групп придумать не удается. Однако модифицированный вариант (детали в параграфе 7.2), сравнивающий дисперсии внутри групп с дисперсией средних значений по группам, обобщается на случай нескольких групп совершенно естественно. Если в различных группах влияние определяющего группу фактора (в нашем случае это способ вовлечения в прослушивание курса) на результат различается, то разброс между группами окажется относительно большим, если же влияние незначительно, то и разброс между группами будет примерно равен разбросу внутри групп.
Предположим, конечные результаты экзамена первой экспериментальной группы представлены выборкой {2, 4, 6}, результаты второй группы — {2, 3, 4}, а результаты контрольной группы — выборкой {1, 2, 3}. Разумеется, никогда такие исследования не проводятся на группах из трех испытуемых каждая. Наш пример таков исключительно из соображений удобства ручных расчетов. Мы рекомендуем, если возможно, параллельно с чтением текста выполнять пример 7.3(1).
Мы начнем с вопроса о статистической значимости результата, а оценкой эффекта займемся в девятой главе, где рассмотрим этот вопрос сразу и для регрессионного, и для дисперсионного анализа.
Мы оценим значимость относительно полученного результата гипотезы \( H_0 \), утверждающей, что теоретические средние (математические ожидания) во всех группах равны, т.е. способ вовлечения в прослушивание курса не сказывается на результате[1]. Альтернативная гипотеза \( H_1 \) утверждает, что теоретические групповые средние в каждой группе свои[2], а варьирование условий подачи материала производит некоторый систематический сдвиг показателей у целой группы.
Для расчета значимости запишем данные в таблицу:
факультатив | обязательный | отсутствие |
2
4 6 |
2
3 4 |
1
2 3 |
Далее мы разложим таблицу в сумму трех таблиц. Во-первых, выделим таблицу, в которой заполним все клетки общим для трех выборок средним. Заголовки столбцов опускаем для краткости.
2
4 6 |
2
3 4 |
1
2 3 |
= | 3
3 3 |
3
3 3 |
3
3 3 |
+ | −1
1 3 |
−1
0 1 |
−2
-1 0 |
Каждая клетка таблицы в левой части равенства представлена суммой соответствующих клеток таблиц в правой части. Во второй таблице справа сумма всех чисел равна нулю, поскольку общее среднее «ушло» в предыдущую таблицу.
Теперь для последней таблицы рассчитаем в каждом столбце среднее значение (среднее по группе) и разложим ее в сумму таблицы, содержащей в каждом столбце соответствующее групповое среднее, и таблицы, содержащей остатки:
2
4 6 |
2
3 4 |
1
2 3 |
= | 3
3 3 |
3
3 3 |
3
3 3 |
+ | 1
1 1 |
0
0 0 |
−1
-1 -1 |
+ | -2
0 2 |
-1
0 1 |
-1
0 1 |
Каждая клетка левой таблицы представлена теперь суммой соответствующих клеток трех следующих таблиц. При этом сумма групповых средних во второй таблице в правой части равна нулю, а в третьей таблице равна нулю сумма в каждом столбце, поскольку из этих чисел вычтено среднее по столбцу. Посчитаем теперь для всех четырех таблиц суммы квадратов всех клеток таблицы.
Для таблицы слева \( S_{Total}=2^2+2^2+1^2+4^2+3^2+2^2+6^2+4^2+3^2=4+4+1+16+9+4+36+16+9=99 \).
Для первой таблицы справа \( S_{const}=3^2*9=81 \).
Для второй таблицы справа \( S_{model}=1^2*3+0^2*3+(-1)^2*3=6 \).
Для третьей таблицы справа \( S_{error}=(-2)^2+(-1)^2+(-1)^2+0^2*3+2^2+1^2+1^2=12 \).
Наше разложение таблиц обладает замечательным свойством: разложились также и суммы квадратов: \( 99=81+6+12 \).
Суммы имеют стандартное обозначение:
\[ S_{total}=S_{const}+S_{model}+S_{error} \]
(общая сумма, сумма константы, сумма модели и сумма ошибки, которую также называют остатком[3] ). Константа выражает среднее значение признака по всей выборке, сумма модели — изменчивость признака в зависимости от фактора (различие между группами), сумма ошибки отражает случайные по отношению к влиянию фактора колебания признака.
Примечание для знакомых с линейной алгеброй. Если каждую, состоящую из 9 элементов таблицу представить 9-мерным вектором, то получится векторное равенство, причем попарные скалярные произведения векторов в правой части все равны нулю, что означает, что они ортогональны. Не удивительно, что при разложении вектора по ортогональным направлениям квадрат длины гипотенузы равен сумме квадратов обобщенных катетов (теорема Пифагора в многомерном случае), а это и есть наше разложение сумм квадратов.
Заметим, что первая таблица разложения (в правой части), состоящая из одинаковых чисел, психологов обычно не интересует, поскольку шкалы психологических переменных практически всегда интервальные, а значит, положение нуля в них неопределенное. Сделав же допустимое преобразование шкалы — изменив положение нулевой точки, мы получим другие константы, но две последние таблицы останутся без изменений. Они-то нас и интересуют.
Нам потребуется еще расчет так называемых степеней свободы (обозначается df — Degrees of Freedom) для каждой таблицы. Число степеней свободы таблицы — это число независимых чисел в этой таблице. В первой таблице все девять чисел могут быть какие угодно, поэтому для нее \( df_{Total}=9 \). Для второй таблицы только одно число может изменяться независимо, остальные должны быть ему равны, поэтому \( df_{const}=1 \). Далее, для таблицы, содержащей средние по группам, независимы два числа: первые числа в первом и втором столбце. Другие числа в этих столбцах совпадают с первыми, а числа в третьем столбце должны дополнять первые два до нуля, следовательно, \( df_{model}=2 \). В последней таблице в каждом столбце два независимых числа, третье дополняет их до нуля, поэтому \( df_{error}=2*3=6 \) (3 — число столбцов). Легко видеть, что и здесь имеет место равенство \( df_{Total}=df_{const}+df_{model}+df_{error} \)[4].
Значимость, характеризующая гипотезу \( H_0 \) по отношению к полученным данным, рассчитывается далее так.
Сначала составляется так называемое F-отношение и вычисляется его значение:
\[ F=\frac{S_{model}/df_{model}}{S_{error}/df_{error}}, \]
а затем по таблице или другим каким-нибудь способом (в статистическом пакете программа берет эту проблему на себя) находится вес соответствующего хвоста распределения правее данного значения F. Это распределение называется распределением Фишера. Деление на число степеней свободы делает из сумм квадратов оценки дисперсии (именно поэтому метод называется дисперсионным анализом). Если верна гипотеза о том, что настоящие средние по группам (может быть, понятнее будет сказать: по генеральным совокупностям, за группами стоящим) равны, то в числителе и знаменателе стоят оценки одной и той же дисперсии. Это значит, что F-отношение будет колебаться около единицы. К сожалению, распределение Фишера совсем не похоже на нормальное распределение. Для каждого сочетания объема выборок в группах и количества групп распределение F будет свое, поэтому правильнее будет, если количество степеней свободы мы подпишем в качестве индексов к F. Тогда в нашем случае
\[ F_6^2=\frac{6/2}{12/6}=1.5. \]
В нашем случае хвосты надо будет смотреть по распределению Фишера с числом степеней свободы (2, 6). Примерный вид графика плотности распределения Фишера можно найти на рис. 7.1.2(1)[5].
Рис. 7.1.2(1). Примерный вид распределения Фишера
Чем больше значение F, тем надежнее можно говорить о влиянии фактора на результат. Точная значимость в нашем случае равна 0.296 (см. рис. 7.1.2(1)), т.е. результат не позволяет сделать вывод о существенном влиянии способа подачи дополнительных занятий на результаты экзамена.
7.1.3. Зависимость значимости от объема выборки
Как и в случае Т-критерия, в случае дисперсионного анализа увеличение объема выборки также приводит к повышению надежности вывода. Чтобы в этом убедиться, достаточно посмотреть внимательно на формулу
\[ F=\frac{S_{model}/df_{model}}{S_{error}/df_{error}}, \]
и приведенные ниже таблицы. Предположим, мы набрали еще по три испытуемых в каждую группу, причем их показатели имеют те же характеристики, которые имели и первые три представителя данной группы. Для удобства расчетов просто повторим уже имеющиеся числа. Поскольку нас интересуют две последние таблицы, запишем только их для обоих объемов выборок.
Для первоначального объема выборок:
1
1 1 |
0
0 0 |
-1
-1 -1 |
+ | -2
0 2 |
-1
0 1 |
-1
0 1 |
Для удвоенных выборок:
1
1 1 1 1 1 |
0
0 0 0 0 0 |
−1
-1 -1 -1 -1 -1 |
+ | −2
0 2 -2 0 2 |
−1
0 1 -1 0 1 |
1
0 1 -1 0 1 |
В первом случае \( S_{model1}=6;S_{error1}=12 \).
Во втором случае \( S_{model2}=12;S_{error2}=24 \) — обе суммы удвоились.
Значения F будут различаться только из-за различий степеней свободы. В первом случае \( df_{model}=2;df_{error}=6 \) во втором случае \( df_model=2;df_error=15 \) (в каждом из трех столбцов по пять независимых чисел).
Таким образом, в первом случае
\[ F_6^2=\frac{6/2}{12/6}=1.5. \]
во втором случае
\[ F_{15}^2=\frac{12/2}{24/15}=3.75. \]
т.е. F увеличилось более чем в два раза (при удвоении больших выборок F бы почти точно удвоилось — убедитесь в этом, сравнив степени свободы для больших выборок). Соответствующая значимость равна 0.048, против 0.296 в первом случае.
Заметим еще, что отношение рассчитанных по двум таблицам сумм квадратов без учета степеней свободы оказалось постоянным при удвоении выборки. В реальных исследованиях тождества, конечно, не бывает, но, как и в случае Т-критерия, увеличение выборки заставляет это отношение приближаться к теоретическому отношению разбросов по генеральным совокупностям, т.е. наблюдаемые значения этого отношения в той или иной степени близки к константе. Насколько надежно можно считать их близкими, мы судим по значимости, описанной выше. В главе, посвященной регрессии, мы дадим показатель, который обычно используют, чтобы характеризовать это отношение в духе величины эффекта.
7.1.4. Дисперсионный анализ для повторных измерений.
В описанном выше примере 7.1.2 проводится сравнение трех групп учащихся, это стандартный пример сопоставления независимых выборок. Однако, в исследованиях достаточно часто встречается ситуация, в которой один и тот же параметр измеряется несколько раз в одной и той же группе людей – с течением времени или в различных экспериментальных условиях. В этом случае встаёт задача сравнения между собой нескольких связанных или зависимых выборок. Ситуация похожа на сравнение парных выборок с помощью соответствующего t-критерия Стьюдента, описанного в предыдущих главах учебника. Однако, если сравнивать попарно больше одной пары выборок, встаёт описанная в разделе 7.1.1 проблема множественных сравнений. Для её решения используется особая разновидность дисперсионного анализа – так называемый дисперсионный анализ для повторных измерений. В этом случае каждый из нескольких замеров сравниваемого параметра оказывается одним из уровней внутригруппового фактора. Опишем простой пример. Допустим, мы хотим исследовать сезонные колебания уровня депрессии у студентов в течение учебного года. Для этого мы просим группу испытуемых заполнить опросник, направленный на оценку уровня депрессии, три раза: в середине осени, в средине зимы и в середине весны. В этом случае, так как мы опрашиваем одних и тех же испытуемых, в качестве внутригруппового фактора выступает сезон, он имеет три уровня – «осень», «зима» и «весна». С помощью дисперсионного анализа для повторных измерений мы можем оценить колебания уровня депрессии в зависимости от этого фактора.
Прежде, чем перейти к числовому примеру, коротко обсудим, в чем заключается специфика дисперсионного анализа с повторными измерениями. В нём при разложении общей дисперсии данных на составные части появляется дополнительный компонент – вариативность данных, связанная с индивидуальными различиями состояния анализируемой зависимой переменной. Если обратиться к описанному выше примеру, то можно заметить, что вариативность депрессии во всех трех срезах отчасти зависит от индивидуальных особенностей участников исследования – естественно, что среди них могут оказаться люди в большей или меньшей степени склонные к депрессии, что будет отражаться во внутригрупповой вариативности. Эти индивидуальные особенности, мы можем предположить, достаточно стабильны во всех замерах, и нас в данном случае не интересуют, так как мы хотим оценить общую тенденцию изменения уровня депрессивности по сезонам. Мы можем выделить из общей дисперсии ту её часть, которая связана с этим индивидуальными особенностями и учесть её при анализе. Если использовать обсуждаемую выше формулу разложения сумм квадратов отклонения, то в неё добавляется ещё один компонент – сумма квадратов отклонения, описывающая межиндивидуальную изменчивость, назовём её Si:
\[ S_{total}=S_{const}+S_{model}+S_i+S_{error} \]
Учёт этого дополнительного компонента уменьшает сумму квадратов ошибки (внутригрупповую дисперсию), за счёт чего F-отношение может увеличиться, и, таким образом, статистика оказывается более чувствительной при оценке фактора, варьируемого внутри выборки (он обычно так и называется — внутригрупповой фактор. Для прояснения ситуации рассмотрим числовой пример.
Пример 7.1.4(1). Допустим, что мы измерили уровень депрессии в середине осени, середине зимы и середине весны у 5 испытуемых. Для простоты расчётов мы используем условную шкалу от 1 до 10, где 1 – минимальная депрессивность, а 10 – максимальная. Возможный результат представлен в таблице 7.1.4(2).
Номер испытуемого (id) | Уровень депрессии в середине осени | Уровень депрессии в середине зимы | Уровень депрессии в середине зимы |
1 | 7 | 6 | 5 |
2 | 6 | 7 | 5 |
3 | 6 | 3 | 6 |
4 | 5 | 3 | 1 |
5 | 6 | 6 | 3 |
Таблица 7.1.4(2). Возможные результаты опроса группы испытуемых.
Используя логику, реализованную в разделе 7.1.2, проведем разложение данных на составляющие, связанные с различными компонентами модели[6]. В начале выделим компонент, связанный с общим средним уровнем депрессии (независимо от сезона и испытуемых, общее среднее в данном случае равно 5), заголовки таблицы и id испытуемых для краткости опускаем:
7
6 6 5 6 |
6
7 3 3 6 |
5
5 6 1 3 |
= | 5
5 5 5 5 |
5
5 5 5 5 |
5
5 5 5 5 |
+ | 2
1 1 0 1 |
1
2 -2 -2 1 |
0
0 1 -4 -2 |
Также, как и в случае обычного однофакторного дисперсионного анализа каждая клетка таблицы в левой части равенства представлена суммой соответствующих клеток таблиц в правой части. Во второй таблице содержатся данные, из которых вычтено общее среднее, они центрированы и сумма всех чисел равна нулю.
Продолжим, разложив вторую таблицу справа на составляющие. Однако, в отличие от обычного дисперсионного анализа, она будет разложена не на два, а на три компонента:
- таблица, содержащая по столбцам (уровням внутригруппового фактора) усредненные данные (1, 0 и -1 для осени, зимы и весны соответственно) – это часть данных, связанных с межгрупповой дисперсией, отражающее влияние сезона, «очищенного» от внутригрупповой и межиндивидуальной изменчивости.
- Таблица, содержащая по строкам средние значения для каждого из испытуемых (равных 1, 1, 0, -2 и 0 для 1-5 испытуемого соответственно). Она отражает часть данных, связанных с межиндивидуальной изменчивостью, «очищенной» от влияния сезона.
- Таблица остатков (ошибок модели), которая связана с внутригрупповой дисперсией, не учтенной в модели.
7
6 6 5 6 |
6
7 3 3 6 |
5
5 6 1 3 |
= | 5
5 5 5 5 |
5
5 5 5 5 |
5
5 5 5 5 |
+ | 1
1 1 1 1 |
0
0 0 0 0 |
-1
-1 -1 -1 -1 |
+ | 1
1 0 -2 0 |
1
1 0 -2 0 |
1
1 0 -2 0 |
+ | 0
-1 0 1 0 |
0
1 -2 0 1 |
0
0 2 -1 -1 |
Далее, рассчитаем суммы квадратов всех клеток в каждой из таблиц (для краткости мы не будем расписывать расчёт и приведем результат, читатель может самостоятельно убедиться, что расчёты верны):
- Общая сумма квадратов (соответствующая таблице слева) \( S_{total} = 417 \).
- Сумма квадратов константы (соответствующая первой таблице справа \( S_{const}=5^2∗15=375 \).
- Сумма квадратов модели (межгрупповая, соответствующая второй таблице справа): \( S_{model}=10 \).
- Сумма квадратов межиндивидуальной изменчивости (соответствующая третьей таблице справа): \( S_i=18 \).
- Сумма квадратов ошибки (соответствующая последней таблице справа): \( S_{error}=14 \).
Убедимся, что общая сумма квадратов слева корректно раскладывается в суммы квадратов справа: \( 417=375+10+18+14 \).
Следующий шаг – это определение степеней свободы для каждого из этих компонентов[7]:
- \( df_{total}=N \) (где N – общий размер выборки), в нашем примере это \( 15 \).
- \( df_{const} =1\)
- \( df_{model}=k-1 \) (где k – число уровней фактора), в нашем случае это \( 3-1=2 \)
- \( df_i =m-1 \) (где m- число испытуемых), в нашем случае это \( 5-1=4 \)
- \( df_{error} =(m-1)*(k-1) \), в нашем случае это \( (5-1)*(3-1) = 8 \).
Теперь можно рассчитать итоговую статистику – F-отношение, оценивающее соотношение межгрупповой дисперсии и дисперсии ошибки:
\[ F=\frac{S_{model}/df_{model}}{S_{error}/df_{error}}=\frac{10/2}{14/8}=\frac{5}{1.75}=2.857 \]
Интерпретация полученного значения F-отношения аналогично описанному в предыдущих разделах – чем оно больше, тем сильнее межгрупповые различия превышают внутригрупповые и, соответственно, тем сильнее влияние фактора (в данном случае – внутригруппового). Также возможна оценка значимости полученного результата с помощью распределения Фишера (см. Рис. 7.1.2(1)), в данном примере значимость равна 0.116.
Пояснение 7.1.4(3). Если полученные данные рассматривать как независимые выборки, то тогда в разложении дисперсии компоненты Si и Serror объединятся, что приведёт к снижению F-отношения и недооценке влияния фактора:
\( S_{err}=18+14=32, df_{err}=8+4=12 \), тогда \( F=\frac{10/2}{32/12}=\frac{5}{2.667}=1.875 \)
Такое снижение F-отношения связно с тем, что вариативность, связанная с межиндивидуальными различиями испытуемых включена во внутригрупповую дисперсию. Однако при повторных измерениях эти межиндивидуальные различия предполагаются стабильными в каждом замере и, соответственно, могут быть исключены из внутригрупповой дисперсии? Что и реализуется в обсуждаемом типе дисперсионного анализа.
Замечание 7.1.4(4). Описанный выше одномерный дисперсионный анализ для повторных измерений требует так называемой сферичности распределения данных в повторных измерениях – это означает, что дисперсия в разных замерах не должны заметно отличаться. В случае если это требование нарушается, получаемое F-отношение может оказаться завышенным, что повышает вероятность ошибки первого рода. Для того, чтобы её избежать, используются поправки на несферичность – более консервативная поправка Гринхауса-Гайсера (Greenhouse – Geisser) и менее консервативная поправка Хюйна-Фельдта (Huynh-Feldt). Обе они занижают степени свободы F-отношения, изменяя, таким образом, оценку значимости результата и снижая вероятность ошибки. Для проверки на сферичность традиционно используют тест Моучли, однако он имеет недостаток: на небольших выборках он недооценивает нарушение сферичности, а на большой – переоценивает. В силу этого есть рекомендации ориентироваться не на этот тест, а на показатели несферичности Гринхауса-Гайсера и Хюйна-Фельдта (они обозначаются греческой буковой ε – эпсилон), в случае идеальной сферичности он равен единице, по мере увеличения различий дисперсий сравниваемых переменных он падает. Некоторые авторы предлагают правило – если значение ε больше 0.75, то можно использовать менее жёсткую поправку Хюйна-Фельдта, а если меньше 0.75 – то поправку Гринхауса-Гайсера (Girden, E. R. (1992). ANOVA: repeated measures. Newbury Park, CA: Sage). Ещё более радикальное решение – это использование поправки Гринхауса-Гайсера, это снизит вероятность ошибки первого рода, но при этом снизит и мощность проводимого анализа.
Замечание 7.1.4(5). Помимо описанного выше одномерного подхода, при проведении дисперсионного анализа для повторных измерений может быть использован многомерный подход. В этом варианте повторные измерения рассматриваются как многомерный объект, и оценка различий между ними происходит с использованием методов линейной алгебры. В рамках нашего учебника мы не будем подробно останавливаться на механике этого метода, заинтересованный читатель может найти достаточно подробное изложение идей этого подхода по ссылкам: http://ibgwww.colorado.edu/~carey/p7291dir/handouts/manova1.pdf, https://docs.exponenta.ru/R2020a/stats/multivariate-analysis-of-variance-for-repeated-measures.html. В практическом плане этот подход не требует сферичности распределения сравниваемых переменных, и рассчитывается в нескольких вариантах, самый часто используемый из них – след Пиллаи (Pillai trace).
7.1.5. Апостериорные сравнения
После того как мы оценили всю совокупность средних значений по группам общей оценкой значимости, мы можем поставить вопрос, какие группы отличаются уверенно, а какие нет. Для этого служат апостериорные сравнения: проводятся сравнения по Т-критерию каждой группы с каждой, но показываемая Т-критерием значимость умножается на зависящую от количества сравнений константу. В результате скорректированные значимости могут интерпретироваться, как интерпретировались бы значимости при отдельных сравнениях, но без риска завысить результат вследствие большого числа сравнений.
В случае нашего «удвоенного» примера значимость различия первой и третьей группы равна 0.046 (при использовании метода Бонферрони)[8], в то время как непосредственное сравнение по Т-критерию этих групп дает значимость 0.034. Значимости различий первой от второй и второй от третьей группы равна 0.573. Можно осторожно интерпретировать результат так: при повторениях эксперимента первая группа покажет, скорее всего, результат больший, чем третья, но со второй группой результат может сравняться и даже поменяться местами, как и у групп второй и третьей.
7.1.6. Односторонние и двухсторонние критерии
Напоминаем, что распределение Фишера, о котором идет речь в дисперсионном анализе, в общих чертах выглядит так, как показано на рис. 7.1.2(1). Для оценки значимости результата относительно нулевой гипотезы в дисперсионном анализе используется верхний односторонний квантиль, в то время как в Т-критерии используется двухсторонний. В данном случае причина этого выбора понятна. Например, при сравнении двух групп экстремально большим положительным и экстремально большим по модулю отрицательным значениям t-статистики соответствуют только экстремально большие положительные значения статистики Фишера для дисперсионного анализа. Точные выкладки приведены в параграфе 7.2. Но вопрос о выборе одностороннего или двухстороннего критерия при анализе данных в других случаях требует более глубокого понимания сути дела.
Рассмотрим пример: пусть мы оценили рост оптимизма членов экспериментальной группы, которые прошли через тренинг, и сравнили его с ростом оптимизма членов контрольной группы, которые в тренинге не участвовали. Если мы заинтересованы в том, чтобы показать, что тренинг эффективен, то рассчитываем получить положительную разность средних между экспериментальной и контрольной группами.
Предположим, имея по 16 испытуемых в каждой группе, мы получили Т-статистику, равную 2.08. Наш результат имеет значимость 0.046. Однако в таблице SPSS столбец таблицы, где значимость приведена, озаглавлен «2-сторонняя значимость». Подумаем, что было бы, если бы мы получили значение Т-статистики, равное −2.08, что свидетельствовало бы о том, что оптимизм экспериментальной группы, несмотря на тренинг, оказался хуже, чем у контрольной. В таблице появилась бы та же самая значимость 0.046. Дело в том, что 2.083 — верхний двухсторонний квантиль уровня 0.046 для распределения Стьюдента с 30 степенями свободы. Случайная величина, имеющая соответствующее распределение, с вероятностью 0.046 принимает значение, по модулю превосходящее 2.08, т.е. либо меньшее, чем −2.08, либо большее, чем 2.08.
Если мы сопоставляем две гипотезы: «тренинг эффективен» и «тренинг неэффективен», вопрос о том, односторонний или двухсторонний критерий надо применять в данной ситуации, статистика предлагает решать в зависимости от того, что мы, планируя исследование, собираемся делать, получив в результате расчета экстремально большое по модулю отрицательное значение t-статистики, свидетельствующее о том, что тренинг ухудшает ситуацию.
В принципе возможны две позиции. (1) Мы можем интересоваться отбором эффективных методик. Получив такой результат, мы просто эту методику отбрасываем. (2) Нас интересуют всякие влияния тренингов на уровень оптимизма. Получив отрицательный результат, мы планируем написать статью о том, что некоторые тренинги ухудшают ситуацию.
Добросовестный исследователь в первом случае может использовать односторонний критерий. Тогда (односторонняя) значимость результата равна 0.023, т.е. половине от двухсторонней. Во втором случае надо пользоваться двухсторонним критерием. Будет нарушением научной этики задним числом заявить, что нас интересовали только отрицательные результаты, поэтому мы использовали односторонний критерий. Если заранее был поставлен вопрос о влиянии тренинга на оптимизм с замыслом считать достойными внимания и положительный и отрицательный сдвиги, критерий должен браться двухсторонний (рис. 7.1.5(1)).
Рис.7.1.6(1). Двухсторонние и односторонние критериальные значения. На рисунке изображен график распределения Стьюдента с 30 степенями свободы. Одно и то же значение 2.75 является критериальным значением на уровне значимости 0.005 при односторонней (направленной) гипотезе исследования и верхним критериальным значением на уровне значимости 0.01 при двухсторонней (ненаправленной) гипотезе исследования
Таким образом, вопрос, который мы задаем природе и на который ждем ответа от статистики, должен формулироваться так, чтобы было ясно, какого рода альтернативу мы предполагаем для основной гипотезы. Если альтернатива явно односторонняя (оценить, достаточно ли выражено позитивное воздействие тренинга), то и критерий может использоваться односторонний (например, основная гипотеза отвергается, если получено аномально большое значение статистики Стьюдента). Если же ставится вопрос, предполагающий обе альтернативы (например, меняется ли с возрастом уровень оптимизма?), то критерий должен браться двухсторонний и гипотеза о неизменности должна отвергаться, если получен аномально большой или аномально низкий результат. В первом случае (односторонняя гипотеза) попадание результата в верхнюю критериальную область означает отвержение основной гипотезы на уровне 0.005, а во втором (двухсторонняя гипотеза) попадание в эту же критериальную область означает, что основная гипотеза отвергается на уровне значимости только 0.01 (рис. 7.1.6(2)).
Отметим, что критерий Фишера (дисперсионный анализ) при сравнении двух групп не может реализовать односторонний вариант, поскольку не различает знак разности средних. Если же групп три, невозможно даже определить понятие разности средних сразу для всех трех групп.
>> следующий параграф>>
[1] В простом варианте дисперсионного анализа также предполагается равенство групповых дисперсий, это означает, что все девять полученных значений имеют своим источником независимые испытания одной и той же нормально распределенной случайной величины X, т.е. различные способы подачи дополнительного материала вообще не влияют на итоговые оценки.
[2] И здесь дисперсии предполагаются равными.
[3] В литературе последние две суммы часто обозначается Sbg (аббревиатура от «Between group» — межгрупповая сумма) и Swg (аббревиатура от «Within group» — внутригрупповая сумма).
[4] Знакомые с линейной алгеброй уже догадались, что это равенство размерностей пространства и суммы размерностей его непересекающихся подпространств, сумма которых дает все пространство.
[5] При различных комбинациях числа степеней свободы числителя и знаменателя графики распределения Фишера демонстрируют большое разнообразие. Большинство из них похожи на наш рисунок. Для объяснения сути дела такого рисунка достаточно.
[6] В данном случае можно говорить об использовании общей линейной модели.
[7] Пояснения к расчету степеней свободы см. в предыдущем разделе 7.1.2
[8] Помимо метода Бонферрони, самого консервативного, т.е. наиболее строгого, существует множество других, среди которых можно выделить как самые распространенные методы Тьюки (Tukey) и Хольма (Holm). Более подробно математические проблемы решения задачи множественного сравнения обсуждаются, например в Lehmann E. L., Romano J. P. Chapter 9: Multiple testing and simultaneous inference // Testing statistical hypotheses. — 3rd ed. — New York: Springer, 2005.