1.1. Введение в теорию измерений

1.1.1. Измерение как расширение поля возможных операций

Измеряя что-то, мы по определенному правилу ставим в соответствие измеряемым объектам или их свойствам числа. Однако не само по себе приписывание чисел привлекает нас в измерении, а то, что с этими числами можно производить разнообразные операции.

Пример 1.1.1(1). Землекоп экстра-класса за сутки выкапывает 30 метров канавы. Обычный землекоп выкапывает 20 метров канавы в сутки. Сколько обычных землекопов надо нанять олигарху, чтобы заменить заболевшего землекопа экстра-класса, который должен был выкопать тридцатиметровую канаву в установленный суточный срок?

Решение. Делим 30 метров на скорость 20 метров в сутки. Получаем 1.5. Ответ: надо нанять полтора землекопа.

Хотя слова «полтора землекопа» режут здравомыслящему человеку слух, вряд ли кто-либо будет оспаривать корректность проведенных операций. Мы не будем отбрасывать этот ответ как заведомо неправильный, оставив приемлемую интерпретацию результата заказчику работы (он, например, может нанять землекопа на полставки). То, что в предметном мире нашему вычислению может не соответствовать никакая предметная конфигурация, не должно нас, как видим, останавливать.

Измерение, придающее количественные значения характеристикам интересующих нас предметов, позволяет значительно расширить и усилить средства получения и обоснования знаний. Это в полной мере относится и к психологии.

Однако это не значит, что как бы мы ни приписывали числовые значения нашим объектам и что бы ни делали потом с полученными числами, всякий раз получится хорошо. Рассмотрим простую «психологическую» модификацию предыдущего примера.

Пример 1.1.1(2). Старший научный сотрудник имеет 100 баллов по шкале интеллекта. Сколько надо нанять младших научных сотрудников с коэффициентом интеллекта 50 баллов, чтобы заменить заболевшего старшего научного сотрудника?

Рассуждая аналогично, можно посоветовать нанять двух младших научных сотрудников. Однако будет ли осмысленным такое рассуждение? Хорошо, например, если шкала интеллекта измеряет скорость решения задач определенного типа (как в примере с землекопами) и именно такого типа задачи и требуется решить с помощью научных сотрудников. Но тесты интеллекта, по которым рассчитывают упомянутые коэффициенты, ориентируются не столько на скорость, сколько на качественные показатели сложности решенных задач. В таком случае предложенное решение бессмысленно.

Пример 1.1.1(3). Для измерения температуры в России используют шкалу Цельсия, а в Соединенных Штатах — шкалу Фаренгейта. Температура кипения воды по Цельсию составляет 100 градусов, а по Фаренгейту — 212 градусов, точка замерзания соответственно 0 и 32 градуса. Сегодня температура в Мадриде 30 градусов по Цельсию (86 по Фаренгейту), в Лондоне 20 (68), а в Осло 10 (50). Эти данные представлены в таблице 1.1.1(4).

Таблица 1.1.1(4). Температура по Цельсию и Фаренгейту в городах Европы

Температура в городах
Осло Лондон Мадрид
По Цельсию 10 20 30
По Фарингейту 50 68 86

Можно сказать, что по Цельсию температура в Лондоне в 1.5 раза меньше, чем в Мадриде, и вдвое больше, чем в Осло. По Фаренгейту отношения температур другие: в Лондоне в 1.26 раза холоднее, чем в Мадриде, и в 1.36 раза теплее, чем в Осло. Зато утверждения «В Лондоне на столько же градусов холоднее, чем в Мадриде, на сколько градусов теплее, чем в Осло», оказываются одинаково истинными при измерении в обеих шкалах.

Обсуждаемые шкалы температур не приспособлены для оценивания отношений, но вполне адекватны при оценивании интервалов. Если мы сольем стакан мадридской тридцатиградусной воды со стаканом десятиградусной воды из Осло, то перемешанная вода будет иметь температуру Лондона независимо от того, какими градусниками мы измеряем температуру. Многие другие практические примеры покажут, что при измерении интервалов обе шкалы температур будут в равной степени полезны. То, что они будут одинаково полезны, следует из формулы перевода ​\( T_f=T_c\cdot1.8+32 \).​ Равные температурные интервалы будут оценены как равные обеими шкалами.

Температурные шкалы дают пример хорошо обоснованных шкал интервалов (определение будет дано в следующем разделе). Они однако не приспособлены для ответов на вопросы «во сколько раз температура Лондона выше температуры Осло?», поскольку шкалы Цельсия и Фаренгейта дадут на него разные ответы. В то же время в задаче о землекопах мы использовали информацию о том, во сколько раз одни землекопы работают быстрее других. Эти различия возможностей надо четко зафиксировать.

Что касается единиц измерения, то иногда от их выбора существенно зависят практические результаты.

Пример 1.1.1(5). Два абитуриента претендуют на одно место на психологическом факультете. Их оценки по ЕГЭ по предметам «математика», «биология» и «русский язык» составляют у первого (80, 80, 80), а у второго (70, 80, 95). Кто будет принят в число студентов?

Решение. Будет принят второй абитуриент с суммарной оценкой 245 баллов против 240 у первого абитуриента.

Возможно, преподаватели математики сочли бы такой выбор ошибкой, полагая, что 10 баллов по математике для будущего студента-психолога «стоят дороже», чем 15 баллов по русскому языку. Они могли бы предложить, например, оценку по математике удваивать при суммировании (или, что то же самое, оценивать математику вдвое более мелкой единицей).

Еще одно, менее явное обстоятельство состоит в том, что диапазон возможных оценок важен не сам по себе. Важно, как варьирует оценка интересующих нас абитуриентов. Если подбор заданий ЕГЭ таков, что фактически оценка по математике у большинства наших абитуриентов заключена между 60 и 70 баллами, оценка по русскому языку — между 30 и 40 баллами, а оценка по биологии достаточно равномерно заполняет интервал между 30 и 95 баллами, то при суммировании баллы по математике и русскому языку будут оказывать ничтожное влияние на общий результат, а отбор будет вестись в основном по биологии [1]. Однако, так или иначе, суммирование представляется единственным простым и разумным способом отбора абитуриентов, которые должны обладать знаниями по нескольким отдельно оцениваемым предметам. В психологической практике, а не только в исследованиях, задачи одновременного учета показателей, измеренных в трудно соизмеримых шкалах, встречаются очень часто. Способы решения этой задачи мы обсудим в третьей главе.

Между примерами 1.1.1(2) и 1.1.1(5) есть существенное различие, которое делает процедуру суммирования оценок во втором из них хотя и не безупречной, но все же более приемлемой, чем процедуру сложения усилий работников в первом. В случае с научными сотрудниками мы используем суждения типа «оценка старшего научного сотрудника вдвое выше», а в примере с абитуриентами суждения типа «оценка второго абитуриента на 10 баллов выше». Если мы прибавим к оценке по ЕГЭ каждого школьника 100 баллов и будем по-прежнему отбирать абитуриентов с лучшей суммой, то в вузы попадут те же самые соискатели студенческого билета. Если прибавить 100 баллов к оценке интеллекта научных сотрудников, то соотношение «старший научный сотрудник вдвое продуктивнее младшего» нарушится, и процедура замены одного старшего на двух младших потеряет числовое равенство. С другой стороны, мы видим, что оценка скорости работы землекопов не допускает прибавления константы, поскольку метры канавы выглядят гораздо более твердыми единицами измерения, чем баллы ЕГЭ и подобных оценок, и 2 метра канавы в самом прямом смысле вдвое больше, чем 1 метр. Это значит, что мы должны научиться различать системы оценивания и их употребления на практике, чтобы не делать серьезных ошибок.

 

1.1.2. Типы шкал

Дадим Определение: измерение есть приписывание чисел, обладающих определенными свойствами, отдельным характеристикам объектов или событий в соответствии с определенными правилами.

Множество характеристик объектов (будем называть его эмпирическим множеством) обладает определенными свойствами, множество чисел (будем называть его шкалой) также обладает свойствами. В каком отношении должны находиться те и другие? С. Стивенс предложил классификацию шкал, которая проясняет эти отношения.

Все шкалы состоят в принципе из одних и тех же чисел, но различаются по набору операций, которые с ними можно производить.

1.1.2(1) Номинативная шкала (ее также называют номинальной или шкалой наименований) — самая слабая (в том смысле, что набор возможных действий с числовыми значениями здесь минимальный) — это всего лишь именование объектов числами. Например, можно кодировать в анкете пол испытуемых числами 0 и 1 или использовать вместо названий субъектов Российской Федерации их коды. Понятно, что разность между кодами 77 и 50, которыми соответственно обозначены Москва и Московская область, не имеет никакого смысла. Никаких арифметических или иных операций, кроме проверки тождества или различия, такая шкала не предусматривает.

Не обязательно каждый объект имеет свой номер. Иногда в анкетах респондентов просят теперь указать место постоянного проживания именно в указанной выше кодировке. Это значит, что все москвичи имеют одно и то же значение этого признака — 77.

Характерным свойством номинативной шкалы является возможность произвольного переименования объектов. На множестве чисел эта возможность реализуется любым отображением, при котором никакие два разных числа не получают одно и то же новое значение. Например, новые коды регионов получаем по формуле ​\( K_{new}=50-K_{old} \)​ Хотя некоторые новые коды окажутся отрицательными [2], это не помешает установлению тождества и различия во всех возможных случаях. Говорят: «номинативная шкала определена с точностью до взаимнооднозначного отображения множества значений одной шкалы в множество значений другой шкалы», т.е. такого отображения, что никакие два возможных значения первой шкалы не отображены в одно и то же значение второй. Такое преобразование является допустимым для данной шкалы. Осуществляя допустимое преобразование шкалы, мы получаем другую шкалу с такими же свойствами, что и исходная. Как мы увидим дальше, такое преобразование может сделать шкалу более удобной для интерпретации и обработки.

1.1.2(2) Шкала порядка. Измерив какие-то качества и отобразив их числами, мы используем в этой шкале только одно свойство чисел — заданное на числах отношение «больше-меньше». Это имеет смысл, когда на эмпирическом множестве (т.е. на множестве характеристик объектов) мы различаем бóльшую или меньшую выраженность характеристики. Например, мы можем попросить эксперта проранжировать тревожность студентов в группе, т.е. упорядочить студентов по степени тревожности и наименее тревожному присвоить ранг 1, следующему — ранг 2 и т.д. После этого можно достаточно уверенно использовать информацию о большей тревожности студента X по сравнению со студентом Y, выражаемую отношением «больше-меньше» на рангах сравниваемых студентов, но нельзя использовать выражаемую разностями рангов информацию о том, насколько первый тревожнее второго.

Если мы используем только отношение «больше-меньше» на нашем числовом множестве, то любое преобразование этого числового множества, сохраняющее данное отношение (такие преобразования называются монотонными) [3], позволяет сохранить всю определяемую исходным отношением информацию. Например, если вместо ранга студента в группе использовать куб этого ранга, то более тревожные по-прежнему будут иметь более высокую оценку по новой шкале. Если из рангов испытуемых вычесть какое-то число, прибавить число, взять логарифм от ранга, то большее значение новой характеристики по-прежнему будет отражать большую выраженность тревожности.

Говорят: «шкала порядка определена с точностью до монотонного преобразования числового множества» или «допустимым преобразованием для порядковой шкалы является любое монотонное преобразование числового множества».

В шкале порядка не имеют точного смысла производные характеристики, получаемые с помощью арифметических операций, например среднее значение по группе. Действительно, если две методики приписывают трем студентам показатели тревожности (1, 7, 10) и (1, 3, 10) соответственно, то в смысле порядка результаты оценивания тревожности эквивалентны. Однако второй студент оказывается тревожнее, чем «в среднем группа из первого и третьего студента» в первой шкале, и менее тревожным, чем эта группа, во второй.

1.1.2(3) Шкала интервалов. Следующая по «силе» шкала — более для нас привычная — шкала интервалов. Здесь, кроме отношений «быть одинаковыми или различными» и «быть большими, равными или меньшими» мы используем еще одно свойство: то, что расстояние между двумя числами на числовой прямой измеряется разностью этих чисел. Отображая множество измеряемых объектов в числовое множество, мы задаем тем самым расстояние между объектами. Если A получил 15 баллов по тесту тревожности, а B 10 баллов, то можно сказать, что A на 5 баллов тревожнее, чем B. Также на 5 баллов тревожнее студент, получивший 45 баллов, чем студент, получивший 40 баллов.

В физических измерениях можно указать объект, отображающий эти 5 баллов разницы. Для измерений температуры это порция энергии, которая нагреет на 5 градусов данный предмет, независимо от того, какова его исходная температура [4]. В психологии подобные обоснования невозможны. Однако во многих случаях использование интервальных шкал выглядит вполне разумным, надо только не забывать о том, что «цены» интервалов на разных участках шкалы могут быть разными, и не допустить ошибки, когда различие «цен» окажется существенным при принятии решений.

Соотношения между интервалами сохранятся, если числовые оценки умножить на какое-либо число и прибавить или вычесть какое-либо число. Т.е. применив к шкале произвольное линейное преобразование ​\( K_{new}=a\cdot K_{old}+b \)​, мы сохраняем всю информацию, которая могла быть получена в старой шкале [5]. Говорят: «шкала интервалов определена с точностью до линейного преобразования» или «допустимым преобразованием шкалы интервалов является произвольное линейное преобразование». В частности, положение нуля на шкале может меняться, если мы проводим допустимое преобразование с ненулевой константой b.

В той степени, в какой обосновано, что шкала имеет интервальный тип, в ней имеют точный смысл такие характеристики, как «среднее значение по группе». В интервальной шкале получает естественный смысл вопрос «на сколько более выражено данное качество у объекта A, чем у объекта B», хотя надо иметь в виду, что ответ зависит от выбранной единицы измерения.

1.1.2(4) Шкала отношений. Следующий тип шкалы в нашей иерархии — шкала отношений. Шкала интервалов допускала сдвиги, т.е. изменения начала отсчета. Именно поэтому для этой шкалы не имели смысла вопросы «во сколько раз больше?» В шкале отношений нуль выражает отсутствие измеряемого свойства, поэтому не может сдвигаться, и вопрос приобретает смысл. «Во сколько раз больше?» можно, например, спрашивать об объективных весах предметов и о субъективных их оценках, измеренных методом Стивенса. Допустимым преобразованием шкалы отношений является только изменение масштаба, приводящее к умножению значений на определенное число.

С точки зрения применения статистических методов различия между шкалами интервалов и отношений не являются существенными, а различия с остальными типами весьма важны. Для шкал интервалов и более сильных — шкал отношений — имеют смысл арифметические операции над шкальными значениями, на которых основаны так называемые параметрические методы статистики. Для шкал порядка (и, разумеется, для шкал интервалов и отношений, которые «сильнее» шкалы порядка, т.е. среди прочих свойств обеспечивают также информативность отношений порядка на числовых множествах) имеют смысл операции сравнения и ранжирования, на которых основаны непараметрические (или порядковые) методы статистики. Для номинативных шкал набор методов еще более сужается.

1.1.3. Измерение с практической точки зрения

Для корректного употребления статистических методов важно установить, является ли данная шкала номинативной, порядковой или интервальной, а разграничение интервальных шкал и шкал отношений задача практически не важная для применимости тех или иных статистических методов.

Разграничение номинативных и порядковых шкал обычно не вызывает проблем — достаточно убедиться, что вместо чисел для различения полученных в результате измерений значений можно использовать слова, лишенные каких-либо указаний на порядковые отношения. В таком случае данный вид измерений уверенно должен быть отнесен к номинативным шкалам.

Упражнение 1.1.3(1). Можно ли использовать в качестве шкалы порядка и что будет измерять такая шкала

  • номера студентов в алфавитном списке группы?
  • номера курсов, на которых студенты учатся?
  • номера их зачетных книжек?
  • год рождения студентов?

Весьма важная задача разграничения порядковых и интервальных шкал оказывается принципиально значительно более трудной. Если мы убедились, что отношения порядка заданы на степенях выраженности измеряемого признака и отражены в шкале, то законным, как мы сказали, становится тогда применение лишь небольшой части статистических методов — порядковых или непараметрических методов. Бóльшая и важная часть методов требует обоснования того, что измерение проведено в интервальной шкале. Однако доказательств такой принадлежности предъявить обычно не удается.

Некоторые современные зарубежные учебные пособия (Howitt, Cramer, 2008, p. 5) советуют своим читателям игнорировать сомнительное с практической точки зрения различение и спокойно применять разнообразные методы обработки данных. Мы относимся к такой рекомендации с осторожностью, хотя и соглашаемся с трудностями различения шкал [6].

Мы разберем несколько типичных ситуаций, в которых шкалы, которые кажутся на первый взгляд интервальными, не могут считаться таковыми с полным правом, и ситуации, в которых порядковые шкалы могут претендовать на более высокий статус.

Пример 1.1.3(2). Быстроту чтения у младших школьников можно характеризовать двумя способами: количеством прочитанных в минуту знаков и временем (измеренным в минутах), затраченным на чтение 1000 знаков. Оба показателя вполне осмысленные.

Однако можно заметить, что количество прочитанных знаков (в минуту) n и затраченное время на 1000 знаков (выраженное в минутах) t связаны соотношением. Действительно, время, затраченное на чтение одного знака, равно, с одной стороны, 1/n, а с другой стороны, t/1000. Таким образом, t=1000/n. Предположим, что три ученика A, B и C прочитали в минуту 200, 400 и 900 знаков соответственно. При таком представлении результатов A и B оказываются по своим показателям близки, а C показывает сильно отличающийся от них хороший результат.

Если же характеризовать быстроту чтения вторым способом, то результаты испытуемых окажутся таковы: 5, 2.5 и 1.1 минуты на 1000 знаков. При таком подходе кажется, что C и B показывают близкие результаты, а результат A — экстремально плохой.

В педагогических исследованиях употребляются оба вида показателей и для обоих иногда применяются параметрические методы, соответствующие интервальным шкалам. Ясно, однако, что обе шкалы не могут быть одновременно интервальными, поскольку в одной из них интервал AB меньше интервала BC, а в другой AB BC, чего для пары интервальных шкал быть не должно [7]. В этом случае обе шкалы, строго говоря, надо рассматривать как порядковые и применять арифметические операции к шкальным значениям с некоторой осторожностью. Например, по первой шкале B показывает результат хуже среднего, а по второй — лучше среднего, если средним считать среднее арифметическое показателей.

>> следующий параграф>>


[1] На самом деле при формировании заданий для ЕГЭ соображения такого рода учитывались.

[2] Хотя в принципе можно употреблять в качестве значений номинативной шкалы и отрицательные и вообще любые другие числа, далее мы ограничимся только натуральными, т.е. целыми неотрицательными числами.

[3] На практике иногда приходится менять порядок на противоположный. Например, если в одном исследовании часть переменных измеряют количество ошибок выполнения заданий, а другие — продуктивность различных видов деятельности, то для применения многих методов их надо привести к одному порядку: например, для того чтобы во всех переменных большему значению соответствовал лучший результат.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.