Мы можем усложнить задачу о связи «времени выдержки» с последующей успеваемостью в школе (см. 9.1.4). Предположим, что кроме времени, которое ребенок выдержал наедине с конфетой, мы характеризуем его также максимальным временем выполнения какой-то монотонной работы.
Таким образом, у нас имеется две независимые переменные — время выдержки и время монотонной работы — и зависимая переменная — успеваемость в школе. Тогда вместо n пар чисел мы имеем n троек чисел
\[ (x_1,y_1,z_1),(x_2,y_2,z_2),…(x_n,y_n,z_n). \]
Пусть \( x_i \) — это время выдержки i-го испытуемого, \( y_i \) — время монотонной работы, а успеваемость — \( z_i \). Допустим, мы хотим оценить параметры зависимости последующей успеваемости от времени выдержки и времени монотонной работы.
Каждую тройку чисел можно рассматривать как точку в пространстве. Уравнение регрессии —
\[ z=a_x x+a_y y+b. \]
Приведенные в предыдущей главе выкладки легко обобщаются на этот случай. Тройки чисел \( (x_i,y_i,z_i) \) можно представить точками в пространстве, а регрессионное уравнение задает плоскость в этом пространстве, которая наилучшим образом соответствует этому множеству точек. Чтобы вычислить \( S_{model} \) и \( S_{error} \), надо спроецировать вертикальными отрезками точки на регрессионную плоскость. Наилучшей будет такая плоскость, для которой сумма квадратов этих отрезков от точек до плоскости будет минимальна. \( S_{error} \) — эта минимальная сумма квадратов, а \( S_{model} \) — дисперсия проекций точек на плоскость (только не деленная на \( n−1 \)) — полностью аналогично простой регрессии.
10.1.2. Значимость для модели множественной регрессии в целом
Коэффициент детерминации для множественной регрессии можно посчитать по той же формуле, что и для простой регрессии: \( R^2=S_{model}/(S_{error}+S_{model})=S_{model}/S_{total} \). И здесь коэффициент детерминации характеризует долю дисперсии, определенную регрессионной моделью, в дисперсии зависимой переменной. Заметим, что в данном случае он уже не вычисляется просто через квадраты коэффициентов корреляции.
Составим из сумм квадратов отношение Фишера:
\[ F=\frac{S_{model}/df_{model}}{S_{error}/df_{error}}. \]
Для числителя теперь число степеней свободы равно двум (два регрессионных коэффициента), а для знаменателя — \( n-3 \) (из числа точек вычитается число регрессионных коэффициентов и еще единица, приходящаяся на среднее выборочное).
Вес отсекаемого хвоста распределения Фишера и есть значимость модели в целом.
Если переменные «время выдержки» и «время монотонной работы» независимы (т.е. корреляция между ними равна нулю), то регрессионные коэффициенты вычисляются по той же формуле \( a_x=r_{xz}*s_z/s_x,a_y=r_{yz}*s_z/s_y \), а свободный член b вычисляется из соотношения
\[ \overline{z} = a_x\overline{x}+a_y\overline{y}+b \]
Точно так же суммируются и их независимые вклады в показатель качества модели \( R^2 \).
Однако в случае наличия корреляции между независимыми переменными (что имеет место практически всегда) ситуация усложняется.
Как мы разбирали в прошлой главе, коэффициент корреляции двух переменных может рассматриваться как мера силы связи между переменными. Тот же смысл можно придать и равному ему стандартизованному коэффициенту регрессии (безразлично, какую из двух переменных считать независимой, какую — зависимой).
Для множественной регрессии в случае некоррелирующих независимых переменных такая интерпретация стандартизованных регрессионных коэффициентов также вполне допустима.
Проблемы возникают тогда, когда о силе связи зависимой переменной с независимыми пытаются судить по стандартизованным регрессионным коэффициентам при наличии корреляции между независимыми переменными (такую ошибку можно довольно часто найти в публикациях). Отличие стандартизованных регрессионных коэффициентов от коэффициентов корреляции тем больше, чем больше корреляции между независимыми переменными. Ситуация, когда эта корреляция становится слишком велика, в литературе называется мультиколлинеарностью и считается препятствием применимости регрессионного анализа. Суть проблемы можно прояснить примером: если представить ситуацию так, что у двух независимых переменных есть «общая часть», которая и порождает корреляцию между ними, то на вопрос о силе связи между зависимой и независимыми переменными можно дать два ответа, исходя из разного отношения к этой общей части. Если не принимать во внимание то, что эта часть — общая, то силу связи с каждой переменной в отдельности правильнее характеризовать коэффициентом корреляции. Если иметь в виду зависимость в совокупности, то, характеризуя обе связи зависимой с двумя независимыми переменными коэффициентами корреляции, общую часть мы посчитаем дважды, а это может не соответствовать вопросу, ответ на который мы хотим найти в наших данных[1].
Отметим еще, что регрессионные коэффициенты сложным и трудно предсказуемым образом перераспределяют общую часть между независимыми переменными, так что положительная корреляционная связь с одной переменной может преобразоваться в отрицательный регрессионный коэффициент, отдав общую часть даже с избытком второй независимой переменной. В каких-то случаях дело обстоит еще сложнее, и стандартизованный регрессионный коэффициент для этой второй переменной может превзойти единицу, что удивит понимающего читателя (см. пример 10.3(9)).
>> следующий параграф>>
[1] Неприятные эффекты мультиколлинеарности могут наблюдаться и в отсутствие влияния общей части дисперсии независимых переменных на зависимую. Достаточно наличия этой общей части. Однако пример таких данных слишком сложен для нашего учебника.