10.1. Регрессионная модель для нескольких независимых переменных (множественная регрессия)

10.1.1. Трехмерный пример

Мы можем усложнить задачу о связи «времени выдержки» с последующей успеваемостью в школе (см. 9.1.4). Предположим, что кроме времени, которое ребенок выдержал наедине с конфетой, мы характеризуем его также максимальным временем выполнения какой-то монотонной работы.

Таким образом, у нас имеется две независимые переменные — время выдержки и время монотонной работы — и зависимая переменная — успеваемость в школе. Тогда вместо n пар чисел мы имеем n троек чисел

\[ (x_1,y_1,z_1),(x_2,y_2,z_2),…(x_n,y_n,z_n). \]

Пусть \( x_i \) — это время выдержки i-го испытуемого, ​\( y_i \)​ — время монотонной работы, а успеваемость — ​\( z_i \)​. Допустим, мы хотим оценить параметры зависимости последующей успеваемости от времени выдержки и времени монотонной работы.

Каждую тройку чисел можно рассматривать как точку в пространстве. Уравнение регрессии —

\[ z=a_x x+a_y y+b. \]

Приведенные в предыдущей главе выкладки легко обобщаются на этот случай. Тройки чисел ​\( (x_i,y_i,z_i) \)​ можно представить точками в пространстве, а регрессионное уравнение задает плоскость в этом пространстве, которая наилучшим образом соответствует этому множеству точек. Чтобы вычислить ​\( S_{model} \)​ и ​\( S_{error} \)​, надо спроецировать вертикальными отрезками точки на регрессионную плоскость. Наилучшей будет такая плоскость, для которой сумма квадратов этих отрезков от точек до плоскости будет минимальна. ​\( S_{error} \)​ — эта минимальная сумма квадратов, а ​\( S_{model} \)​ — дисперсия проекций точек на плоскость (только не деленная на ​\( n−1 \)​) — полностью аналогично простой регрессии.

10.1.2. Значимость для модели множественной регрессии в целом

Коэффициент детерминации для множественной регрессии можно посчитать по той же формуле, что и для простой регрессии: ​\( R^2=S_{model}/(S_{error}+S_{model})=S_{model}/S_{total} \)​. И здесь коэффициент детерминации характеризует долю дисперсии, определенную регрессионной моделью, в дисперсии зависимой переменной. Заметим, что в данном случае он уже не вычисляется просто через квадраты коэффициентов корреляции.

Составим из сумм квадратов отношение Фишера:

\[ F=\frac{S_{model}/df_{model}}{S_{error}/df_{error}}. \]

Для числителя теперь число степеней свободы равно двум (два регрессионных коэффициента), а для знаменателя — ​\( n-3 \)​ (из числа точек вычитается число регрессионных коэффициентов и еще единица, приходящаяся на среднее выборочное).

Вес отсекаемого хвоста распределения Фишера и есть значимость модели в целом.

Если переменные «время выдержки» и «время монотонной работы» независимы (т.е. корреляция между ними равна нулю), то регрессионные коэффициенты вычисляются по той же формуле ​\( a_x=r_{xz}*s_z/s_x,a_y=r_{yz}*s_z/s_y \)​, а свободный член b вычисляется из соотношения

\[ \overline{z} = a_x\overline{x}+a_y\overline{y}+b \]

Точно так же суммируются и их независимые вклады в показатель качества модели ​\( R^2 \)​.

Однако в случае наличия корреляции между независимыми переменными (что имеет место практически всегда) ситуация усложняется.

Как мы разбирали в прошлой главе, коэффициент корреляции двух переменных может рассматриваться как мера силы связи между переменными. Тот же смысл можно придать и равному ему стандартизованному коэффициенту регрессии (безразлично, какую из двух переменных считать независимой, какую — зависимой).

Для множественной регрессии в случае некоррелирующих независимых переменных такая интерпретация стандартизованных регрессионных коэффициентов также вполне допустима.

Проблемы возникают тогда, когда о силе связи зависимой переменной с независимыми пытаются судить по стандартизованным регрессионным коэффициентам при наличии корреляции между независимыми переменными (такую ошибку можно довольно часто найти в публикациях). Отличие стандартизованных регрессионных коэффициентов от коэффициентов корреляции тем больше, чем больше корреляции между независимыми переменными. Ситуация, когда эта корреляция становится слишком велика, в литературе называется мультиколлинеарностью и считается препятствием применимости регрессионного анализа. Суть проблемы можно прояснить примером: если представить ситуацию так, что у двух независимых переменных есть «общая часть», которая и порождает корреляцию между ними, то на вопрос о силе связи между зависимой и независимыми переменными можно дать два ответа, исходя из разного отношения к этой общей части. Если не принимать во внимание то, что эта часть — общая, то силу связи с каждой переменной в отдельности правильнее характеризовать коэффициентом корреляции. Если иметь в виду зависимость в совокупности, то, характеризуя обе связи зависимой с двумя независимыми переменными коэффициентами корреляции, общую часть мы посчитаем дважды, а это может не соответствовать вопросу, ответ на который мы хотим найти в наших данных[1].

Отметим еще, что регрессионные коэффициенты сложным и трудно предсказуемым образом перераспределяют общую часть между независимыми переменными, так что положительная корреляционная связь с одной переменной может преобразоваться в отрицательный регрессионный коэффициент, отдав общую часть даже с избытком второй независимой переменной. В каких-то случаях дело обстоит еще сложнее, и стандартизованный регрессионный коэффициент для этой второй переменной может превзойти единицу, что удивит понимающего читателя (см. пример 10.3(9)).

>> следующий параграф>>


[1] Неприятные эффекты мультиколлинеарности могут наблюдаться и в отсутствие влияния общей части дисперсии независимых переменных на зависимую. Достаточно наличия этой общей части. Однако пример таких данных слишком сложен для нашего учебника.

Если вы нашли ошибку, пожалуйста, выделите фрагмент текста и нажмите Ctrl+Enter.