11.2. Условия применимости параметрических и непараметрических критериев и последствия их нарушения

Непараметрическими называются статистики, которые работают на шкалах более слабых, чем интервальные. Первый из рассмотренных нами в начале данной главы критерий, вообще говоря, относится к непараметрическим не по праву. В действительности критерий знаковых рангов требует выборок, измеренных в интервальной шкале, поскольку использует разности показателей (для порядковой шкалы разность величин не имеет смысла). Его с бóльшим основанием можно отнести к «свободным от распределения» критериям, которые работают с любыми распределениями исходных данных. Однако критерий Вилкоксона все же требует, чтобы распределение разности стартового и финишного показателей было симметричным[1]. Такому требованию удовлетворяет, например, случай, когда стартовые и финишные показатели имеют какое угодно, но одинаковое распределение. Доказательство достаточно просто, но мы не будем его здесь приводить.

Обсуждение непараметрических аналогов дисперсионного анализа начнем с замечания. Все варианты дисперсионного анализа (включая Т-критерий) рассчитаны исходя из предположения о нормальном распределении переменных, подвергающихся обработке. Стандартные варианты этих методов требуют также равенства внутригрупповых дисперсий. Часто в руководствах по статистическим методам предлагается прежде, чем употребить один из перечисленных методов, проверить эмпирическое распределение — удовлетворяет ли оно перечисленным требованиям. Мы теперь рассмотрим влияние нарушения различных условий применимости на результаты критериев.

Прежде всего мы опишем один из распространенных методов проверки (имеются и другие методы проверки, но мы выбрали критерий ​\( \chi^2 \)​, поскольку он уже знаком читателю и узнать о нем больше будет полезно).

11.2.1. Критерий согласия

Рассмотрим сначала пример. Пусть мы имеем кривую монетку, выпадающую гербом с вероятностью p, цифрой — q и на ребро — r.

Если мы задумали бросить монету 100 раз, то случайная величина

\[ \frac{(N_p-100p)^2}{100p}+\frac{(N_q-100q)^2}{100q}+\frac{(N_r-100r)^2}{100r} \]

имеет приближенно распределение \( \chi^2 \) с двумя степенями свободы.

В общем случае пусть в некотором испытании событие ​\( S_i \)​ происходит с вероятностью ​\( p_i \)​ и

\[ \sum_{(i=1)}^m{p_i}=1. \]

т.е. ​\( S_i \)​ представляют полную систему из m событий. Пусть мы предполагаем совершить ​\( N \)​ испытаний. Обозначим ​\( N_i \)​ количество появлений события \( S_i \) в данной серии. Тогда случайная величина

\[ \frac{(N_1-N_{p1})^2}{N_{p1}} +\dots+\frac{(N_m-N_{pm} )^2}{N_{pm}} \]

имеет распределение \( \chi^2 \)  с ​\( m-1 \)​ степенью свободы.

Если мы хотим проверить, возможно ли, чтобы полученное нами выборочное распределение было результатом испытаний некоторой случайной величины с известным нам распределением, то мы разбиваем весь диапазон возможных значений переменной на несколько ячеек (на сколько ячеек, мы либо решаем сами, либо перепоручаем это решение установкам по умолчанию в статистических пакетах). Далее, по тестируемому распределению рассчитываются теоретические вероятности попадания в i-ю ячейку и по приведенной формуле сравниваются с частотами попадания в эту ячейку. Чем больше результат, т.е. чем больше отклоняются частоты от предсказанных теоретически, тем больше у нас оснований сомневаться в том, что эмпирическое распределение получено испытанием данного теоретического. Если расчет по формуле статистики \( \chi^2 \)  дает экстремально большое значение, то мы отвергаем нулевую гипотезу о том, что выборка получена испытанием тестируемой случайной величины.

11.2.2. Проверка нормальности распределения перед применением дисперсионного анализа

Если мы применяем критерий согласия, чтобы проверить, применим ли дисперсионный анализ, надо иметь в виду следующее.

Мы уже обсуждали последствия бездумного употребления значимости 0.05 в качестве границы принятия решения. В данном случае ошибочность такой процедуры особенно очевидна. Читатель может убедиться в этом сам, проделав следующий опыт: надо взять уже знакомое биномиальное распределение с числом испытаний 5 и набирать с помощью генератора случайных чисел выборки все большего объема, имеющие такое распределение. Для небольших выборок гипотеза нормальности выдержит проверку, но при объеме около 50 гипотеза нормальности будет отвергнута согласно процедуре «отвергнуть, если значимость меньше 0.05» в подавляющем большинстве случаев. В то же время применимость дисперсионного анализа к большим биномиально распределенным выборкам не вызывает сомнений. Таким образом, при увеличении выборки пригодность дисперсионного анализа возрастает, но шансы распределения выдержать проверку, напротив, убывают. Это верно, по-видимому, для симметричных распределений самого разного вида. Мы адресуем читателя к нашей статье (Корнеев, Кричевец, 2011).

Причина указанного дефекта метода состоит в следующем: если распределение случайной величины, испытаниями которой получаются наши выборки, отличается от нормального самым незначительным образом, то при любом фиксированном разбиении множества возможных значений эмпирические частоты попадания в ячейки разбиения будут все более достоверно отклоняться от ожидаемых по расчетам нормального распределения частот по мере роста объема выборки, т.е. критерий \( \chi^2 \) (как и любой другой критерий согласия) рано или поздно уловит это различие на уровне значимости 0.05. Скажем в дополнение, что применимость критериев согласия также не безусловна. Важнейшим из этих условий является достаточно большой объем выборки: для \( \chi^2 \) , например, рекомендуют выборку объема более 50. Но именно на таких объемах отвергается нормальность весьма похожих на нормальное биномиальных распределений.

Отметим, что условия применимости критерия Манна-Уитни не так просты, как часто представляется[2]. Статистика Манна-Уитни применима к порядковым шкалам, но требует, чтобы распределения в сравниваемых группах были одинаковыми (с точностью до сдвига). В упомянутой статье разобраны последствия нарушения этого требования. Некоторые выглядят абсурдно: приведены три выборки, превосходство которых друг над другом по статистике Манна-Уитни циклично, т.е. нарушена транзитивность превосходства.

Отметим еще один аспект статистики Манна-Уитни и ее обобщений. Поскольку математическое ожидание и выборочное среднее не корректны по отношению к данным в порядковых шкалах, то для последних уместной экспликацией интуитивного представления о среднем выборочном значении служит медиана[3]. Говорят, что медиана — мера центральной тенденции для порядковых шкал. Однако статистика Манна-Уитни не соотносит медианы, если распределения в группах не удовлетворяют строгому условию сдвига (там же). При выполнении же этого условия наличие сдвига говорит само за себя и без применения медианы.

Окончательно наша рекомендация такова: во всех сколько-нибудь сомнительных случаях применить оба критерия из соответствующей пары (Т-критерий/критерий Манна-Уитни; дисперсионный анализ/критерий Краскелла-Уоллиса) и сравнить значимости. Если они сильно различаются, не пожалеть сил на выяснение причин различий. Часто эти причины оказываются для психолога даже более интересными, чем отличия средних.

В заключение о статистике Джонкхиера. Эта статистика ориентирована на монотонный рост или монотонное убывание показателя, соответствующие номерам групп. Однако определить точнее, что именно измеряет эта статистика, не удается, поскольку не слишком большие отклонения от монотонности статистика не выделяет. Таким образом, мы имеем здесь специфическую «джонкхиеровскую» экспликацию представления о систематическом росте (убывании), которые могут не выражаться в строго монотонной последовательности.

11.2.3. Другие методы проверки применимости дисперсионного анализа

В описаниях процедуры употребления дисперсионного анализа (включая Т-критерий) встречается рекомендация ориентироваться на критерий Ливиня, проверяющий однородность дисперсий. Кроме тех же возражений, которые мы предъявляли в предыдущем подпараграфе к критерию , касающихся логической структуры проверки, уместно будет напомнить, что неоднородность дисперсии в одних случаях приводит к переоценке результата, а в других — к недооценке. Ниже приведена таблица из классической книги (Шеффе, 1980), на которую обычно ссылаются при обсуждении вопроса (таблица 11.2.3(1)).

Таблица 11.2.3(1). Влияние неравенства дисперсий ошибок и неравенства объемов групп на истинную вероятность того, что 95% доверительный интервал для  не покрывает истинное значение при больших n. О — отношение дисперсий, R — отношение объемов групп (таблица из работы Г. Шеффе, в которой приведены реальные уровни значимости для дисперсионного анализа при неравных дисперсиях выборок).

О

R

0* \( \frac{1}{5} \) \( \frac{1}{2} \) 1 2 5 \( \infty^* \)
1 0.050 0.050 0.050 0.050 0.050 0.750 0.050
2 0.17 0.12 0.080 0.050 0.029 0.014 0.006
5 0.38 0.22 0.12 0.050 0.014 0.002 1∙105
\( \infty^* \) 1.00 0.38 0.17 0.050 0.006 1∙105 0

*Недостижимые предельные случаи показывают границы изменения вероятности.

Таблица содержит результаты проверки нарушения однородности дисперсий для Т-критерия[4]. В правом нижнем углу таблицы приведены результаты проверки в случаях, когда объем выборки, в которой дисперсия существенно больше, превышает объем выборки с меньшей дисперсией. В этом случае вероятности ошибки первого рода оценены как существенно меньшие, чем 0.05. Это значит, что результаты оказываются даже более достоверными, чем говорит Т-критерий.

Причину легко увидеть, посмотрев на формулу t-статистики. В случае большего объема выборки с большей дисперсией совокупная дисперсия переоценивается, что приводит к недооценке результата и занижению достоверности. Обе тенденции компенсируются, если применять модифицированный Т-критерий, результаты которого помещаются в нижней строке таблицы вывода SPSS для Т-критерия. Эти результаты мы и рекомендуем использовать во всех случаях. Результат теста Ливиня можно при этом не учитывать.

В наших собственных исследованиях обнаружилось, что наиболее сложный случай представляет собой для Т-критерия разнонаправленная асимметрия выборочных распределений. Подробности можно получить в упомянутой статье, к которой мы и отсылаем читателя.

>> следующий параграф>>


[1] «Требует» означает здесь, как и в других случаях, что квантили считаются именно для такого распределения. Насколько будут отличаться результаты, если требование так или иначе не удовлетворено — всегда предмет отдельного исследования. Свойство давать достаточно устойчивые результаты, если требование не удовлетворено, называется робастностью критерия.

[2] То же относится и к его обобщениям — критериям Краскелла-Уоллиса и Джонкхиера. Нам не известны работы, в которых применимость последних проверялась бы в различных условиях.

[3] Мы не давали определения медианы распределения, поскольку нигде не использовали это понятие, что не отменяет его важности, читатель без труда найдет его в любом руководстве по статистике.

[4] Для достоверности цитирования мы сохранили опечатку в столбце, помеченном пятеркой.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.