6.1.1. Т-критерий для парных выборок. Что такое парные, или связанные, выборки
Довольно часто один и тот же показатель измеряется у испытуемого дважды, например, при двух разных экспериментальных условиях: до и после воздействия, в спокойном состоянии и в состоянии стресса и т.п. В качестве модельного возьмем следующий пример: у группы испытуемых измеряют тревожность до и после участия в тренинге. Можно сказать, дана выборка, состоящая из пар чисел:
\[ \{(x_1,y_1),(x_2,y_2),…,(x_n,y_n)\} \]
Исследователя при этом интересует, насколько в среднем отличаются показатели испытуемых в этих двух замерах. Обычно в таких случаях употребляют иное обозначение: говорят не о выборке, состоящей из пар чисел, а о связанных (или парных) выборках \( \{x_1,…,x_n\}, \{y_1,…,y_n\} \).
Задачу оценки значимости изменения состояния испытуемых до и после воздействия можно легко свести к уже известным нам задачам. Если взять разность между первым и вторым замером, т.е. выборку \( \{(x_1-y_1),(x_2-y_2),…,(x_n-y_n)\} \), то она и будет характеризовать воздействие: изменилось ли и если да, то насколько, состояние испытуемых. Если разность средних значений[1] отрицательна, значит, значение показателя возрастает в среднем при данном воздействии, если положительна, убывает. Таким образом, нас интересует оценка среднего значения одной переменной — в данном случае разности, т.е. та самая задача, которую мы решали в предыдущей главе.
В SPSS или Jamovi имеется возможность применить в данном случае Т-критерий для парных выборок или вычислить разность и применить одновыборочный Т-критерий, который мы обсуждали в предыдущей главе. Статистические значимости и доверительные интервалы полностью совпадут.
Есть, однако, существенный аспект, различающий два метода, — это оценка величины эффекта. Величина эффекта — это оценка существа дела, которую в разных ситуациях приходится определять по-разному. Вспомним об оценках роста, которые мы обсуждали в предыдущей главе. Уточним теперь: мы решали фактически две задачи — (1) оценить средний рост какой-то группы людей и (2) оценить точность нашей оценки. Вторая задача решается оценками значимостей и доверительными интервалами. Первая — отнесением к выборочным средним и стандартным отклонениям. В случае ван Перси мы относили его рост к нормальному распределению генеральной совокупности роста голландцев и нашли, что он выше среднего голландца на одно стандартное отклонение. Похожая задача возникает, если мы хотим найти место среднего роста всей сборной Голландии в генеральной совокупности ростов голландцев.
Небольшое отличие возникнет, если доступные нам данные о росте голландцев не содержат стандартного отклонения распределения в генеральной совокупности. Тогда для оценки последнего мы можем взять выборочную оценку дисперсии у игроков сборной и извлечь из нее квадратный корень. Полученное выборочное стандартное отклонение будет давать нам единицу измерения разности между средним ростом сборной и остальных голландцев.
Подобные оценки называются оценками величины эффекта. По отношению к последнему примеру слова «величина эффекта» звучат несколько странно. Но упомянутый выше пример с тренингом тревожности полностью соответствует данному термину: насколько уменьшилась тревожность после прохождения испытуемыми тренинга? Если в среднем она уменьшилась на 20 тестовых баллов по сравнению со стартовым замером, то интерес представляет отношение этих 20 баллов к параметрам распределения в генеральной совокупности. Действительно, эти 20 баллов будут выглядеть совершенно по-разному, если стандартное отклонение измеренной с помощью данной методики тревожности равно 200 баллам или 20 баллам. В первом случае влияние тренинга можно считать практически ничтожным, во втором достаточно ощутимым.
Итак, если мы не знаем стандартное отклонение в генеральной совокупности, то в качестве его оценки разумно взять выборочное стандартное отклонение. Однако поскольку мы имеем две оценки — до воздействия и после воздействия, — вопрос не решается автоматически. Из практических соображений лучше взять оценку по первому измерению, поскольку эта выборка представляет «нетронутую» генеральную совокупность. Тренинг может стабилизировать выборку (уменьшать разброс) или, напротив, дестабилизировать выборку (увеличивать разброс). Этот аспект действия тренинга, кстати, может представлять и отдельный интерес.
Отметим, что для одновыборочного критерия в случае оценки роста базой соотнесения было стандартное отклонение, которому во втором случае соответствует стандартное отклонение разности. В последнем примере мы берем совершенно отличное от него стандартное отклонение первого замера тревожности. Различие в методах, предоставляемых SPSS, состоит в том, что таблицы вывода для одновыборочного критерия выводят только стандартное отклонение разности, а парный критерий выводит также и стандартные отклонения по каждой из исходных выборок.
Подробнее об оценках величины эффекта сообщается в приложении 4.
Описанный выше экспериментальный план называется обычно план с повторными измерениями. Однако парные выборки могут появляться и в других ситуациях. Подробнее об этом — в параграфе 6.2.
6.1.2. Т-критерий для независимых выборок. Что такое независимые выборки
Две независимые выборки требуются нам в ситуациях, когда мы хотим сравнить два каких-то условия, которые не могут быть отнесены к одному индивиду. Например, один индивид не может учиться сразу в двух средних школах, поэтому сравнивать эти школы можно, только сопоставляя разных учеников.
Другой вариант — оценка результативности воздействия, которое проходит на фоне процесса, который невозможно контролировать. Например, если мы придумали прекрасную методику повышения уровня оптимизма, то кроме подтверждения того, что у прошедших тренинг оптимизм увеличился, надо еще убедиться, что у людей, похожих на участников тренинга (точнее говоря, людей, принадлежащих к той же генеральной совокупности потенциальных адресатов методики), оптимизм не увеличился без участия методики — например, оптимизм россиян может массово вырасти, если вдруг цены на нефть станут устойчиво расти. Если наше исследование эффективности методики придется на такой период, то отделить рост оптимизма, связанный с воздействием тренинга, от роста, происходящего равномерно у всех или почти всех граждан РФ, можно, только сравнивая рост оптимизма экспериментальной группы (группы людей, прошедших тренинг) с ростом оптимизма контрольной группы, динамика которой связана с общими для обеих групп неконтролируемыми процессами.
Похожа на предыдущую ситуация, когда мы хотим сравнить влияния двух различных условий на какой-либо показатель. И в этом случае для каждого условия надо создать свою группу.
Еще пример: некоторые методики могут применяться как измерительный инструмент только один раз для каждого испытуемого. Предположим, мы оцениваем действие кофеина на продуктивность решения творческой задачи. Мы не можем дать эту задачу до и после приема кофеина, поскольку задача не может использоваться дважды. Это значит, что мы должны провести эксперимент с двумя группами — принявшими и не принявшими кофеин.
Предположим, в этой ситуации мы получили две выборки, содержащие измерения продуктивности решения задачи: выборку экспериментальной группы \( (x_1,x_2,…,x_n) \), которая подвергалась воздействию таблеткой кофеина, и контрольную \( (y_1,y_2,…,y_n) \), которая получала плацебо. Нас интересует вопрос, отличаются ли в среднем эти выборки.
Мы разберем ситуацию, когда выборки равны по объему, для которой формулы приобретают совершенно прозрачный вид. В случае неравных выборок усложняется система коэффициентов, но смысл формул — тот же самый. Как и в случае с тренингом тревожности, нас интересуют две задачи:
- Оценить, насколько сильно сдвигается в среднем продуктивность при воздействии кофеина (величина эффекта).
- Оценить, с какой точностью мы измерили эффект воздействия кофеина (точность оценки).
Для ответа на эти вопросы надо сначала вычислить средние и стандартные отклонения по выборкам: \( \overline{x}, \overline{y}, s_x,s_y \), и стандартное отклонение разности
\[ s=\sqrt{\frac{1}{n-1} \sum{(x_i-\overline{x})^2}+\frac{1}{n-1} \sum{(y_i-\overline{y})^2}} .\]
А затем рассчитать стандартную ошибку разности, которая получается делением стандартного отклонения разности на \( \sqrt{n} \):
\[ se=\frac{s}{\sqrt{n}} =\frac{\sqrt{\frac{1}{n-1} \sum{(x_i-\overline{x})^2}+\frac{1}{n-1} \sum{(y_i-\overline{y})^2}}}{\sqrt{n}}. \]
По поводу первого вопроса практически повторим то, что уже говорили: разность средних значений по экспериментальной и контрольной группам надо измерить стандартным отклонением. Разумным выглядит стандартное отклонение контрольной группы \( s_y \), иногда предлагают также использовать корень из средней дисперсии \( (D_x+D_y)/2 \), который называют объединенным стандартным отклонением.
Надо иметь в виду, что при этом расчете мы приняли наши данные как достоверные, а на самом деле они являются результатом наложения вариаций показателей наших случайно выбранных испытуемых на ту тенденцию сдвига продуктивности, которую мы хотим оценить. Второй наш вопрос касался этого аспекта оценки.
Предположим, мы получили \( x ̄=4; y ̄=5; s_x=1; s_y=1 \). Тогда ответом на первый вопрос будет отношение \( E=(x ̄-y ̄)/s_y=-1 \).
Как и в случае парного T-критерия, T-статистика вычисляется по формуле \( T=(\overline{x}-\overline{y})/se=-1 \). Для больших выборок (если \( 2n>120 \)) полученное значение вполне можно сравнивать с квантилями стандартного нормального распределения. Если в нашем примере положить n=61, то мы получим \( se=s/\sqrt{61}=0.19; T=(5-4)/0.19=5.3 \). Такое Т указывает на практически достоверное отклонение разности от нуля, соответствующая значимость будет меньше, чем 0.000001, т.е. кофеин статистически надежно увеличивает продуктивность, хотя и не очень сильно, если измерять сдвиг продуктивности в стандартных отклонениях.
Мы можем построить доверительный интервал для сдвига среднего, и процедура будет теперь совершенно естественна: надо взять квантиль распределения Стьюдента и умножить на стандартную ошибку разности. Если мы хотим провести вычисления совершенно точно, то примем во внимание, что 5%-й квантиль для 120 степеней свободы все же немного отличается от квантиля нормального распределения и равен 1.98. Для 95%-го доверительного интервала радиус в таком случае будет равен \( 1.98*0.19=0.38 \). Соответствующий доверительный интервал разности \( (1-0.38;1+0.38)=(0.62;1.38) \). Этот интервал оценивает действенность кофеина на продуктивность при решении задачи, если судить о ней по нашим выборкам.
Если взять выборки вчетверо меньшего объема — по 15 человек, то радиус доверительного интервала увеличится вдвое и даже несколько больше: увеличение вдвое обеспечивает уменьшение в два раза \( \sqrt{n} \), а дополнительное увеличение обеспечивает сдвиг квантиля в сторону увеличения, вызванный утяжелением хвостов распределения Стьюдента при уменьшении n.
Таким образом, при увеличении объема выборки выборочная величина эффекта будет колебаться вокруг константы — истинного значения величины эффекта данного воздействия, приближаясь к нему, а значимость нулевой гипотезы, как и радиус доверительного интервала, будет при увеличении выборки стремиться к нулю.
Дадим в заключение формулу, по которой вычисляется стандартная ошибка разности средних в случае неравенства объемов выборок. Если выборки имеют объем n и m соответственно, то
\[ se=\sqrt{\frac{1}{n+m-2}(\sum(x_i-x ̄)^2 +\sum(y_i-y ̄)^2)}/\sqrt{\frac{nm}{n+m}} \]
Упражнение 6.1.2(1). Подставьте в формулу m=n и убедитесь, что результат совпадет с приведенной выше формулой расчета стандартной ошибки.
Для вычисления t-статистики надо поделить разность средних на стандартную ошибку (se):
\[ t=\frac{\overline{x}-\overline{y}}{se} \]
а радиус доверительного интервала уровня \( 1-α \) рассчитывается по формуле \( R=t_α^{(n-1)}*se \) после чего строится доверительный интервал \( (\overline{x}-R; \overline{x}+R) \).
>> следующий параграф>>
[1] Упражнение: проверьте, что разность средних значений равна среднему значению разностей.