Заключительные методологические замечания

Мы надеялись сделать статистические методы понятным и удобным инструментом оценивания разнообразных аспектов количественных данных. Насколько нам это удалось, судить вам.

Несколько заключительных замечаний. Мы всячески старались увести читателя от догматического следования предписаниям и алгоритмам обработки, в частности от пристрастия принимать и отвергать гипотезы, ориентируясь на пресловутый уровень значимости 0.05.

Лучшая, с нашей точки зрения, часть научного сообщества принимает в настоящее время очень серьезные усилия, чтобы переломить довольно грустную тенденцию последних десятилетий, заключающуюся в упрощающем подходе к обучению статистике и приведшую к снижению качества понимания материала даже на уровне экспертов и рецензентов. Вслед за вызвавшей много шума публикацией Американской психологической ассоциации о неудачных попытках повторить эксперименты, отчеты о которых был опубликованы в ведущих журналах [1], Американская статистическая ассоциация выпустила бюллетень, текст которого начинается с очень точно выражающей суть дела шутки:

Вопрос: Почему так много колледжей и университетов учат о значимости 0.05?

Ответ: Потому что это все еще то, что используют научное сообщество и редакторы журналов.

Вопрос: А почему так много людей все еще используют значимость 0.05?

Ответ: Потому что этому учат в колледжах и университетах [2].

Мы хотим, чтобы читатели, которые захотят понять описанные выше проблемы, связанные с публикационным сдвигом, выдвижением и оценкой гипотез по уже имеющимся данным, некорректированными множественными сравнениями и т.п., могли найти в нашей книге достаточно простые и ясные, но не упрощающие разъяснения.

Для того чтобы правильно понять и употреблять описанные в нашем учебнике статистические методы, надо понять, во-первых, основные ограничения подхода к оцениванию результатов исследований с помощью статистических средств, а во-вторых, четко увидеть, что эти ограничения не суть недостатки именно данного подхода, а связаны с неустранимой проблемой индуктивного вывода — принятия общих утверждений на основании ограниченного эмпирического материала. Альтернативные подходы — например байесовский (см. приложение 5) — также не могут ни решить эту проблему, ни обойти ее.

Мы надеемся, что после наших настойчивых разъяснений понятно, что 95-процентный интервал определенным образом указывает на вероятные значения оцениваемого параметра, но полагаться на эти оценки можно лишь очень осторожно — у других исследователей оценки могут получиться совсем другие. Точно так же и отвержение нулевой гипотезы на уровне значимости 0.05 вполне реально может оказаться ошибкой первого рода.

Может возникнуть впечатление, что статистика вообще ничего не может доказать. Теоретически это так. Действительно, как пишут критики традиционного подхода This triggers the tooltip[3], схема статистического вывода такова: (1) мы получаем результат (выборку) и оцениваем вероятность p получения такого результата [4] при условии, что истинна гипотеза H0, т.е. вероятность данной выборки при условии H0. Но вывод, который мы пытаемся сделать, звучит примерно так: вероятность гипотезы H0 при условии данной выборки равна p, и тем самым вероятность альтернативной гипотезы равна (1-p). Это, конечно, логическая ошибка.

Критика совершенно правильна, однако в ситуациях, где альтернатива в принципе допустима [5], она может быть признана практически достоверной, если соответствующая значимость равна, например, 0.0000001, а экспериментальные процедуры признаются безупречными, то есть нет сомнения в добросовестности исполнителей и корректности экспериментального дизайна.

Однако единственный эксперимент редко (а скорее никогда не) удостаивается такой чести, поскольку гораздо надежнее выглядят пусть не столь статистически убедительные, но согласованные результаты исследований, проведенных несколькими коллективами.

Для того чтобы понять существо дела, надо выйти в социальное пространство науки. Роль единственного эксперимента в методологии науки иногда сильно преувеличивается [6]. Методология NHST как раз и опирается на это преувеличение. На самом деле нам очень редко (а в научных исследованиях — никогда не) требуется провести решающий эксперимент и окончательно принять одну или другую гипотезу. Если бы такая необходимость возникла, то у нас не было бы лучшего варианта, кроме принятия решения на основании процедуры NHST. Мы могли бы только менять уровень значимости критерия в зависимости от цены ошибок первого и второго рода и субъективных (или объективных, если они даны) вероятностей гипотез.

Однако таких ситуаций в научной деятельности не бывает. Если вопрос интересен, то десятки коллективов проводят исследования в сходных или совпадающих условиях, и их результаты могут быть собраны и соединены на уровне так называемого мета-анализа. Только на этом уровне может быть достигнута практически полная достоверность утверждений, поскольку только в этом случае реально возникает полное доверие воспроизведенной многими коллективами экспериментальной процедуре, что в случае единственного эксперимента недостижимо.

Но для проведения корректного метаанализа требуется публикация (т.е. доступность сообществу) результатов всех проведенных исследований, желательно также, чтобы были доступны и «сырые» данные.

Таким образом, если в нашем исследовании 95-процентный доверительный интервал не содержит нулевую гипотезу, то это — скромное основание поделиться с коллегами на страницах журнала радостью и надеждами на то, что интересный результат в будущем будет достоверно подтвержден. Если же доверительный интервал включает нуль-гипотезу, то поделиться своим огорчением в печати или специальных базах результатов — наш прямой долг перед научным сообществом. В обоих случаях будет хорошим тоном сделать доступными данные [7]. Если мы этого не делаем, то описанный выше (5.1.4) публикационный сдвиг исказит общую картину для научного сообщества.

Кроме того, необходимо различать ситуации, когда гипотезы, проверявшиеся в исследовании, были сформулированы до сбора данных или в результате работы с данными. Ценность результатов в последнем случае значительно ниже, поскольку умелый «обработчик» практически всегда может найти «гипотезу», задним числом подтвердившуюся уже имеющимися у него данными [8]. Для того чтобы это различение стало рабочим, некоторые журналы предполагают регистрировать планируемые исследования по желанию авторов. В случае такой регистрации отчет получает специальный бейдж.

Как нам кажется, эта практика станет общей уже в ближайшие годы. Наш учебник помогает подготовиться к этим переменам.


[1] Open Science Collaboration et al. Estimating the reproducibility of psychological science //Science. – 2015. – Т. 349. – №. 6251. – С. aac4716. В публикации дан отчет о репликациях 100 экспериментов, результаты которых опубликованы в ведущих журналах. Больше 60% репликаций не подтвердили статистическую значимость выводов на уровне 0.05.

[2] Wasserstein R. L. et al. The ASA’s statement on p-values: context, process, and purpose //The American Statistician. – 2016. – Т. 70. – №. 2. – С. 129-133.

[3] По английски он называется «Null hypothrsis significanse testing» с общепринятой аббревиатурой NHST.

[4] Если выражаться точно: такого или более экстремального для гипотезы H0 результата.

[5] Например, дальнейшее рассуждение не может считаться бесспорным в случае, если альтернативная гипотеза — это гипотеза о существовании телепатии. Разногласия по поводу принципиальной возможности этой альтернативы гипотезе H0 , утверждающей отсутствие телепатии, могут быть столь велики, что интерпретации результатов несовместимо разойдутся.

[6] Этот промах делают обычно те, кто ориентируется на работы К. Поппера, хотя его последователи, в частности И. Лакатос, указали вполне адекватное место «решающему» эксперименту.

[7] Немотивированный отказ от предоставления доступа к данным уже считается серьезным недостатком статьи в некоторых журналах — Science, Шпрингеровские журналы соответствующего профиля (Munafò M.R., Nosek B.A., Bishop D.V. M., Button K.S., Сhambers Ch.D. A manifesto for reproducible science //Nature human behaviour. – 2017. – Т. 1. – №. 1. – С. 0021).

[8] Имеются подобные ситуации, даже не требующие большого умения — это корреляционные исследования с большим числом переменных, когда в отчете указываются значимые корреляции из огромной таблицы, хотя гипотезы о конкретных связях заранее не формулировались.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.