Среди альтернатив, предлагаемых критиками подхода NHST (статистической проверки нулевой гипотезы) имеется так называемый байесовский подход. Он опирается на формулу Байеса, которую мы далее выведем и обсудим. Мы не являемся сторонниками этой альтернативы, однако считаем, что общее представление об этом подходе может быть полезно читателю.
П5.1. Условная вероятность. Формула полной вероятности
Пример 5.1(1). Предположим, что у нас имеется две одинаковые корзины. В одной содержится 8 белых и 2 черных шара, а в другой — 1 белый и 5 черных шаров. Процедура выбора шара проводится в два этапа. Сначала случайно выбирается одна из двух одинаковых корзин, затем из выбранной корзины наугад вынимается шар. Нас интересуют два вопроса:
1) Какова вероятность того, что вынутый по такой процедуре шар будет белым?
2) Если первый шар оказался белым, то какова вероятность того, что вытянутый наугад из той же корзины следующий шар будет белым?
Обсудим сначала второй вопрос. Интуитивно понятно, что результат «вытянут белый шар» может быть интерпретирован как аргумент в пользу того, что на первом этапе процедуры скорее всего была выбрана корзина номер 1, с бóльшим количеством белых шаров. Эта интуиция может быть переведена в точные значения вероятностей с помощью так называемой формулы Байеса. После расчета соответствующих вероятностей ответ на второй вопрос будет достаточно легко дать.
Обозначим символом W событие «Достать белый шар из корзины, выбранной наугад из двух описанных корзин». Оно может наступить только вместе с одним из попарно несовместимых событий \( H_1 \) и \( H_2 \) (будем называть их гипотезами: «Выбрать первую корзину» и «Выбрать вторую корзину»).
Для доказательства в общем случае мы будем использовать так называемую геометрическую интерпретацию вероятностей (рис. П5.1(2)). Внешний овал Ω изображает пространство всех возможных исходов. В испытании может появиться любой из них (одна точка внутри овала), причем все с равными вероятностями. Тогда вероятность наступления сложного события W равна отношению «количества» точек внутри W к «количеству» точек во внешнем овале Ω, точнее говоря, отношению площадей W и Ω. Если положить площадь Ω равной единице, то вероятности всех событий, изображенных фигурами на рисунке, будет равна их площадям.
Рис. П5.1(2). Формула полной вероятности. Разложение события. \( H_1 \) представлена всей заштрихованной левой половиной большого овала, \( H_2 \) — не заштрихованной правой половиной большого овала, W представлен внутренним овалом, левая половина которого есть \( WH_1 \), а правая \( WH_2 \).
Можно разложить событие W в сумму двух несовместимых событий-произведений \( WH_1 \) и \( WH_ 2\), которые на рисунке изображаются долями внутреннего овала W.
Вероятность наступления W будет выражаться в таком случае формулой \( P(W)=P(WH_1)+P(WH_2) \).
Если обозначить \( P(W|H_1) \) условную вероятность вытянуть белый шар, если на первом шаге была выбрана первая корзина, то вероятность \( P(WH_1) \) можно представить в виде произведения \( P(W|H_1)P(H_1) \). Действительно, \( P(WH_1) \) это доля площади левой, заштрихованной стороны внутреннего овала на рис. П5.1(2), по отношению к площади внешнего овала, представляющего собой полную систему событий Ω. Отношение площадей \( P(WH_1)/P(\Omega) \) можно преобразовать в вид,
\[ P(WH_1)/P(\Omega)=\frac{P(WH_1)}{P(H_1)}\cdot\frac{P(H_1)}{P(\Omega)} \]
Первая дробь представляет собой \( P(W|H_1) \) — долю площади \( WH_1 \) в \( H_1 \), а вторая по аналогичным соображениям \( P(H_1) \) (долю площади \( H_1 \) в Ω).
Таким образом, \( P(WH_1)=P(W|H_1)P(H_1) \).
Произведя теперь подстановку, получаем формулу
\[ P(W)=P(WH_1)+P(WH_2)=P(W|H_1)P(H_1)+P(W|H_2)P(H_2)\]
которая и представляет собой формулу полной вероятности для случая двух слагаемых. Если гипотез больше, то и сумма становится длиннее. В общем случае она такова:
\[ P(W)=P(W|H_1)P(H_1)+P(W|H_2)P(H_2)+\dots+P(W|H_n)P(H_n) \]
Первая задача нашего примера решается так: с вероятностью 1/2 мы выбираем первую корзину, из которой белый шар достается с вероятностью 8/10; с вероятностью 1/2 вторую корзину, из которой белый шар достается с вероятностью 1/6. Общая вероятность вытянуть белый шар равна
\[ \frac{8}{10}\cdot\frac{1}{2}+\frac{1}{6}\cdot\frac{1}{2}=\frac{29}{60} \]
Теперь перейдем ко второму вопросу: если первый шар оказался белым, то какова вероятность того, что вытянутый наугад из той же корзины следующий шар будет белым?
Для того чтобы на него ответить, надо рассчитать вероятности того, что у нас в руках первая или вторая корзина, при условии, что мы достали из этой имеющейся в руках корзины белый шар, а затем применить формулу полной вероятности для новых вероятностей гипотез.
Заметим, что \( P(WH_1) \) может быть вычислена двумя симметричными способами \( P(WH_1)=P(H_1 |W)P(W) \) и \( P(WH_1)=P(W|H_1)P(H_1). \) Если мы приравняем правые части обоих равенств, то получим \( P(H_1│W)P(W)=P(W|H_1)P(H_1) \) откуда
\[ P(H_1│W)=f\frac{P(W|H_1)P(H_1)}{P(W)}. \]
Эта формула и называется формулой Байеса. Мы теперь можем ответить на вопрос о вероятности вынуть белый шар повторно. Учитывая, что ранее мы нашли \( P(W)=\frac{29}{60} \), по формуле Байеса рассчитываем: после обнаружения, что вынутый первый шар — белый, вероятность того, что у нас в руках первая корзина равна
\[ P(H_1│W)=\frac{P(W|H_1)P(H_1)}{P(W)}=\frac{\frac{8}{10}\cdot\frac{1}{2}}{\frac{29}{60}}=\frac{8}{10}\cdot\frac{1}{2}\cdot\frac{60}{29}=\frac{480}{580}=\frac{24}{29}. \]
Не приходится сомневаться, что вероятность того, что в руках у нас вторая корзина, равна \( 1-\frac{24}{29}=\frac{5}{29} \).
Теперь вероятность достать белый шар из первой корзины равна 7/9, поскольку один белый шар из корзины уже достали. Из второй корзины достать белый шар уже невозможно. Подставляя в формулу полной вероятности новые вероятности, получаем
\[ P(W_2 )=\frac{7}{9}\cdot\frac{24}{29}+0\cdot\frac{5}{29}=\frac{56}{87} \]
П5.3. Геометрическая интерпретация формулы полной вероятности и формулы Байеса
Формула Байеса имеет другую форму, которая делает понятным механизм вычисления условной вероятности гипотезы. Мы опять будем разбирать ее на примере с двумя гипотезами. Если учесть, что
\[ P(W)=P(W|H_1 )P(H_1)+P(W|H_2 )P(H_2), \]
и заменить P(W) в знаменателе формулы Байеса на правую часть этой формулы (вспомним, что по ней мы и рассчитывали P(W)), то мы получим второй общеупотребительный вариант формулы Байеса
\[ P(H_1│W)=\frac{P(W|H_1)P(H_1)}{P(W|H_1)P(H_1 )+P(W|H_2)P(H_2)}. \]
Заменим теперь обратно произведение \( P(W|H_1)P(H_1) \) на \( P(WH_1) \), а произведение \( P(W|H_2)P(H_2) \) на \( P(WH_2) \). Формула тогда примет вид
\[ P(H_1│W)=\frac{P(WH_1)}{P(WH_1)+P(WH_2)}. \]
Эта формула легко интерпретируется с помощью рис. П5.1(2). Если произошло событие W, то это значит, что случилось одно из элементарных событий, изображаемых внутренним овалом. Вероятность того, что происшедшее элементарное событие представляло правую, бóльшую часть внутреннего овала, равна доле площади этой части в площади всего внутреннего овала, что и выражается последней нашей формулой
\[ P(H_i│W)=\frac{P(W|H_i)P(H_i)}{P(W|H_1)P(H_1)+P(W|H_2)P(H_2)+\dots+P(W|H_n)P(H_n)} \]
.
В заключение параграфа дадим вторую форму формулы Байеса в общем случае:
Ее интерпретация совершенно аналогична приведенной выше интерпретации частного случая. Вся дробь равна доле слагаемого, помещенного в числитель, во всей сумме, стоящей в знаменателе.
Во многих практических случаях формула Байеса работает совершенно адекватно. Полученные вероятности могут проверяться статистически и выдерживают такую проверку. Т.е. если мы будем проводить многократно испытания по выниманию шаров из двух корзин, как это задано в примере, и фиксировать из них только случаи, когда первый вынутый шар был белым, и смотреть долю случаев, когда этот исход наблюдался в случае выбора первой корзины, то частота будет приближаться к вычисленной по формуле Байеса вероятности \( P(H_1|W) \).
П5.4. Обобщение байесовского подхода
Пока речь у нас шла о «гипотезах», довольно скромных и вполне определенных. Их специфика состоит в том, что они выразимы на языке элементарных событий, т.е. сами являются законными событиями.
Однако байесовская схема кажется некоторым исследователям приложимой и в контексте научных исследований, поскольку, как они надеются, с ее помощью можно пересчитывать вероятности теоретических гипотез после единичного наблюдения. Действие экспериментальной выборки на вероятности гипотез можно свести к последовательному пересчету по каждому испытуемому, т.е., сначала пересчитать вероятности по результатам первого испытуемого, потом полученные вероятности гипотез пересчитать по результатам второго испытуемого и т.д. до исчерпания всего набора испытуемых. Можно доказать, что итог не будет зависеть от порядка испытуемых, если только все их результаты будут использованы.
В научных исследованиях мы ведь могли бы и ограничиться вероятностями гипотез, вместо принятия той или иной гипотезы в качестве окончательно истинной. Это могло бы звучать, например, так: «в настоящее время мы считаем, что пара теорий “динамика Ньютона” и “общая теория относительности Эйнштейна” делят единичную вероятность в соотношении \( \frac{1}{100} \) против \( \frac{99}{100} \). В зависимости от результатов назначенного на завтра эксперимента на синхрофазотроне в Дубне, эти вероятности будут пересчитаны».
Примем, однако, во внимание, следующую вещь. В примере 5.1(1) мы рассчитали вероятность того, что у нас в руках первая корзина, при условии, что извлеченный из этой корзины шар был белым. В условиях задачи было указано, что вероятности взять в руки первую и вторую корзины исходно равны 1/2. Расчет проводился по формуле
\[ \frac{\frac{8}{10}\cdot\frac{1}{2}}{\frac{8}{10}\cdot\frac{1}{2}+\frac{1}{6}\cdot\frac{1}{2}}=\frac{24}{29} \]
Если бы вероятности были другие, например \( P(«взять\spaceв\spaceруки\spaceпервую\spaceкорзину»)=1/3 \); \( P(«взять\spaceв\spaceруки\spaceвторую\spaceкорзину»)=2/3 \), то итоговая вероятность (при условии извлечения белого шара из взятой в руки корзины) также была бы другой, а именно
\[ \frac{\frac{8}{10}\cdot\frac{1}{3}}{\frac{8}{10}\cdot\frac{1}{3}+\frac{1}{6}\cdot\frac{2}{3}}=\frac{24}{34} \]
Разные априорные (до-опытные) вероятности приводят к разным результатам пересчета по Байесу.
Вопрос, стало быть, состоит в том, что еще до всякого исследования мы должны иметь некоторые априорные вероятности наших гипотез, чтобы с помощью эмпирических проверок получать какие-то новые вероятности гипотез.
Мы можем сформулировать теперь принципиальное утверждение: Если перед исследованием не сделано никаких предположений об априорных вероятностях противопоставленных друг другу гипотез, то и после получения любых эмпирических результатов невозможно делать выводы об апостериорных вероятностях этих гипотез. Неразрешимая проблема байесовского подхода лежит здесь: эти априорные вероятности нам взять неоткуда. Например, какова априорная вероятность того, что есть телепатия? Этот вопрос надо решить прежде, чем мы вознамеримся использовать байесовский подход для ориентированного на статистику доказательства ее существования. Впрочем, наше возражение касается не только байесовских выводов, но и любых других эмпирических проверок таких теорий.
П5.5. Методологическое замечание
Гипотезы, о которых шла речь в примере, как мы говорили, существенно отличаются от теоретических гипотез. Мы вполне можем организовать ситуацию так, что вероятность взять в руки первую из предложенных корзин реально будет равна 1/2. И мы можем повторять экспериментирование с этими равновероятно оказывающимися в руках корзинами и убедиться, что к пересчитанным по формуле Байеса вероятностям сходятся эмпирические частоты. Но вероятности теоретических гипотез принадлежат другому уровню. Даже проделывая осмысленную работу по байесовскому уточнению каким-то разумным образом заданных априорных вероятностей теоретических гипотез, мы никогда не сможем сконструировать метод проверки, в котором какие-то эмпирические частоты сходились бы к этим вероятностям. Такие вероятности обычно называют субъективными. При их использовании надо иметь в виду существенное отличие от вероятностей, о которых говорит математическая теория вероятностей. Последняя говорит о вероятностях возможных событий, а первая о вероятностях истинности утверждений о возможных событиях, что является существенно более сложным предметом, как только мы выходим за пределы утверждений о совокупностях элементарных событий. Таким образом, байесовский подход не способен полноценно заменить подход NHST.