Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Эконометрика. Начальный курс

.pdf
Скачиваний:
15
Добавлен:
20.11.2023
Размер:
21.93 Mб
Скачать

3.2. Метод наименьших квадратов. Теорема Гаусса-Маркова

71

откуда следует, что С Х = 0.

 

2. Подсчитаем матрицу ковариаций МНК-оценки:

 

V(3OLS) = V(Ay) = A V {y)A ' = А а Ч А '

 

= < ? ( Х' Х ) - 1Х ' Х ( Х ' Х ) - 1 = ^ ( X 'X )" 1

(3.8)

(здесь мы использовали симметричность матрицы Х ' Х и свой­ ство матрицы ковариаций (МС.9)).

3. Используя полученное выше равенство С Х = 0, получаем

Ь - Р = (А + С ) у - р = (А + С ) Х 0 + {А + С ) е - 0

= А Х р - 0 + C X 0 + + С)е = (А + С)е,

т. к. С Х = 0 и А Х = I. Вычислим теперь матрицу ковариаций вектора 6 :

V(6 ) = Е ((6 - 0)(Ь - 0У) = Е(( А + С )ее’(А + С)')

= {А + С)а2Ц А + С)' = а2{А А ' + С А! + А С ' + С С )

=<т2( ( Х ' Х ) - 1Х ’Х ( Х ' Х ) - 1 + С Х (Х 'Х )" 1

+( Х 'Х ^ Х 'С ' + С С ) = ^ ( Х 'Х )" 1 + а2С С .

Таким образом (см. (3.8)),

 

V(6) = V(3OLS) + о2С С .

 

Матрица С С неотрицательно определена

(приложение Л А,

и. 15), поэтому

 

V(6 ) £ V(3OLS)-

(3.9)

Отсюда следует утверждение теоремы. В самом деле, г-й диа­ гональный элемент матрицы V(b) равен дисперсии г-й компо­ ненты вектора коэффициентов V(6j). Поэтому (приложение ЛА, п. 15) из (3.9) следует соответствующее неравенство для диспер­ сий оценок коэффициентов регрессии

V(6i) ^ V(3OLS,»)I

что и требовалось доказать.

72

Гл.З. Модель множественной регрессии

3.3.Статистические свойства МНК-оценок

Оценка дисперсии ошибок а2. Распределение s2

Введем некоторые полезные в дальнейшем обозначения. Вектор прогнозных значений

у = Х Ъ = Х { Х ' Х ) - ' Х ' у = N y , N = X (X /X )” 1X /. (3.10) Вектор остатков регрессии

е = у - у = у - Х З = у - Х ( Х ' Х ) - 1Х 'у

=(J - Х (Х 'Х )- 1Х ')у

=( J - N ) y = M y , М = I - N = I - Х ( Х ' Х ) - 1Х' . (3.11)

Непосредственно из определения нетрудно проверить, что мат­ рицы М , N идемпотентны, т. е. симметричны и являются про­ екторами:

N 2

= N ,

N ' = ЛГ,

(3.12)

М 2

= М ,

М ' = М .

(3.13)

В соответствии с геометрической интерпретацией регрессии из (3.10), (3.11) вытекает, что матрица N является матрицей опера­ тора ортогонального проектирования на подпространство тг, по­ рожденное векторами х», а М — матрицей оператора ортогональ­ ного проектирования на л-1 — ортогональное дополнение к под­ пространству я в Д". Поэтому

N X = X , M X = 0.

(3.14)

Вычислим математическое ожидание и матрицу ковариаций вектора остатков е:

Е(е) = Е(М у) = М Е(у) = М Х / 3

 

= (I - Х ( Х ,Х ) ~ 1Х')Х/3 = Х(3 - Х(В = 0,

(3.15)

V(e) = У{Му) = М У (у)М ' = М<г21 М ' = <т2М .

(3.16)

3.3. Статистические свойства МНК-оценок

73

Сумма квадратов остатков £ е2 = е'е является естественным кандидатом на оценку дисперсии ошибок <т2 (конечно, с некото­ рым поправочным коэффициентом, зависящим от числа степеней свободы):

Е(е'е) = tr(V(e)) = а2tr(JVf) = <т2 tr(J„ —N ) = (п - к)<т2. (3.17)

При выводе (3.17) мы использовали (3.15), (3.16), свойства сле­ да матрицы (приложение ЛА, п.9), а также соотношение

tr(JV) = tr( X (X 'X ) _1X ')

= Ц Х 'Л ^ Х 'А Г 1) = tr(Jfc) = к.

(3.18)

При выводе последнего равенства используется свойство следа матрицы: tr( А В ) = tr(BA) (приложение ЛА, п.9).

Из (3.17) следует, что

е'е

 

э2 = а2 = п — к п — к

(3.19)

является несмещенной оценкой дисперсии ошибок а2 т. е. Es2 = а2. Так как из (3.14) следует, что

е = М у = М ( Х Р + е) = M e

(3.20)

и rank(M ) = ra n k (I-N ) = tr( I —N ) = n —k (ранг идемпотентной матрицы равен ее следу (приложение ЛА, п. 16)), то по лемме (приложение МС, п. 4, N8) распределение

е'е

s2

(3.21)

—гг ~ х 2(п ~ *0 «ли

(п - к) - г ~ х2(п ~ *0-

<7

 

Независимость оценок /3 и s2

В предположении нормальной линейной множественной регресси­ онной модели удается доказать независимость оценок /3 и s2.

В самом деле, из (3.4) получаем

3oLS * { X ' X r ' X ' i X f i + e ) = f l + i X ' X y ' X ' e = 0 + А *. (3.22)

74

Гл. 3. Модель множественной регрессии

Из (3.22) и (3.20) видно, что случайные векторы /3 и е име­ ют совместное многомерное нормальное распределение (приложе­ ние МС, п. 4). Поэтому для того чтобы доказать их независимость, достаточно показать их некоррелированность.

A M = (Х ' Х ) - ' Х ' { 1 - Х ( Х ' Х ) - хХ')

= (.Х ' Х ) ~ 1Х ' - ( X ' X Y ' X ' X i X ' X y ' X ' = О, поэтому (т. к. Ее = 0 )

Cov(3, е) = Е ( ( Э - Р)е') = Е (Аее'М) = с2A M = О,

что и требовалось показать.

Так как s2 является функцией от е (см. (3.19)), то оценки /3 и s2 также независимы.

3.4.Анализ вариации зависимой переменной в регрессии. Коэффициенты R 2 и скорректированный

Как и в случае регрессионной модели с одной независимой пере­ менной, вариацию YliVt —у)2 можно разбить на две части: объ­ ясненную регрессионным уравнением и необъясненную (т. е. свя­ занную с ошибками е) — см. (2.25):

- У? =

-

ш)2

 

 

 

 

+

у)2 + 2

У»)(У* -

у)’

(3-23)

или в векторной форме:

 

 

 

 

 

(У - Уг) '{ У ~ Уг) =

( У ~

У У (У

У) + (У -

У*)'(У -

У»)

 

+

2(у -

у)'(У -

У*)-

 

 

(3.24)

Третье слагаемое в (3.24) равно нулю в случае, если констан­ та, т.е. вектор t = (1, . . . , 1)', принадлежит линейной оболочке векторов * i , ... , х&. В самом деле,

(У ~ У У (У “ У*) = е ' { Х 0 - уг) = е 'Х / 3 - уе 'г = 0,

3-4. Анализ вариации зависимой переменной в регрессии

75

т. к. в силу (3.5) е 'Х = О и ё = е'*/п = 0. Поэтому верно равенство

l l v - N I 2 =

l l v - y l |2 +

lly-y*ll2.

(3.25)

TSS

ESS

RSS

 

 

Записывая (3.25) в отклонениях у , = у - у г \

уф= у —уг, опять

получим теорему Пифагора;

 

 

 

 

I

/

, /Ч/-*ч

 

(3.26)

У*У* = е

е + у ,у ,.

 

Как и ранее в (2.27), определим коэффициент детерминации

R2 как

 

 

 

 

 

ESS

е'е

у '.у .

RSS

(3.27)

TSS

У^У.

yi,y,

TSS'

 

Отметим, что коэффициент Л2 корректно определен только

в том случае, если константа, т. е. вектор г =

(1, . . . , 1)', принад­

лежит линейной оболочке векторов Х |,... ,х*. В этом случае R 2 принимает значения из интервала [0 , 1].

Коэффициент R2 показывает качество подгонки регрессион­ ной модели к наблюденным значениям yt.

Если R 2 = 0, то регрессия у на x j , ... , х* не улучшает каче­ ство предсказания yt по сравнению с тривиальным предсказанием

Ш = У-

Другой крайний случай R2 = 1 означает точную подгонку: все в{ = 0 , т. е. все точки наблюдений удовлетворяют уравнению регрессии.

В какой степени допустимо использовать критерий R2 для вы­ бора между несколькими регрессионными уравнениями? Следу­ ющие два замечания побуждают не полагаться только на значе­ ние R2.

1. R2, вообще говоря, возрастает при добавлении еще одного регрессора.

2.R2 изменяется даже при простейшем преобразовании зави­ симой переменной (см. пример в конце раздела, стр. 76), по­ этому сравнивать по значению R2 можно только регрессии с одинаковыми зависимыми переменными.

76 Гл. 3. Модель множественной регрессии

Бели взять число регрессоров равным числу наблюдений, все­ гда можно добиться того, что R2 = 1, но это вовсе не будет озна­ чать наличие содержательной (имеющей экономический смысл) зависимости у от регрессоров.

Попыткой устранить эффект, связанный с ростом R2 при воз­ растании числа регрессоров, является коррекция R2 на число ре­ грессоров. Скорректированным (adjusted) R2 называется

D2

-

e'e/(n - к)

Kadj = 1

(3.28)

Заметим, что нет никакого существенного оправдания именно такого способа коррекции.

Свойства скорректированного R2:

2. R2 >

к > 1.

3.ДЦаj < 1, но может принимать значения < 0.

Вопределенной степени использование скорректированного

коэффициента детерминации более корректно для сравнения регрессий при изменении количества регрессоров.

Например, рассмотрим две модели:

1.у = Х/З + е.

2.z — у — Х\ = Х 'у + е.

Строятся МНК-оценки параметров /3 и 7 обеих моделей. Для первой модели коэффициент детерминации R2 равен

Д? = 1 -

е е

е = М у , М = 1 - Х ( Х ,Х ) ~ 1Х' . (3.29)

 

Е ( у< - у)2’

Подсчитаем коэффициент детерминации R2 для второй моде­ ли. Обозначим <5 = (1,0,... ,0)' — вектор-столбец; тогда Х 5 * 1. Матрица М одна и та же для обеих моделей, так как в них один

итот же набор регрессоров. Остатки во второй модели равны

е= M z = М ( у - XS) = М у - М Х б = М у = е

3.4. Анализ вариации зависимой переменной в регрессии

77

(мы использовали (3.14)). Таким образом, остатки в обеих моде­ лях совпадают.

Щ = 1 -

е'е

(3.30)

 

В * - * ) 2’

(3.29) и (3.30) отличаются только знаменателями у',у„ и z'„z*.

= (У* - *1 *)'(У* “ * 1*) = У'.У. “ 2y'„®i* +

(3.31)

(Здесь у , = A y , z , = А г, ®i* =

Д®ь

где А — п х п

матрица

взятия отклонения от среднего, А

= I

— гг'/п). Из (3.31) видно,

что коэффициенты детерминации, вообще говоря, не совпадают. Оценки коэффициентов двух регрессий связаны естественным со­ отношением:

7 = (Х ' Х ) - хХ ' г = { Х ' Х ) - 1Х '{ у - Х 6 ) = 0 - 6 ,

т.е. фактически обоим уравнениям соответствует одна и та же геометрическая картинка и экономически содержательная ситуа­ ция. Однако коэффициенты R2 не совпадают только потому, что зависимость сформулирована в разных координатах.

Что «лучше*: у или у?

В качестве значений зависимой переменной в момент t мы можем использовать yt или, например, прогноз yt- Матрица ковариаций вектора у по условию модели равна V(y) = а21п. Матрица кова­ риаций вектора прогноза равна

V(y) = V(Ne) = <T2N N ' = a2N .

Таким образом,

V(y) - V(y) = a2{I - N ) = a2M .

Матрица M идемпотентная, поэтому, имея собственные значе­ ния только 0 или 1 (приложение Л А, п. 16), неотрицательно опре­ делена, т. е.

V(y) - V(y) = cr2M > 0, или V(y) ^ V(y).

(3.32)

78

Гл. 3. Модель множественной регрессии

 

Из (3.32) следует аналогичное неравенство для дисперсий на­

блюденных и предсказанных значений

 

 

V(vt) 5* V(yt).

(3.33)

Таким образом, как это ни парадоксально, в качестве значения зависимой переменной зачастую лучше брать предсказанное по модели значение, а не фактически наблюденное. При этом, есте­ ственно, предполагается, что наблюдаемые значения yt действи­ тельно удовлетворяют соотношению у = Х 0 + е , т.е. порождаются рассматриваемой моделью.

3.5. Проверка гипотез. Доверительные интервалы и доверительные области

Проверка гипот езы Но: Д = До. Итак, мы доказали следую­ щие статистические результаты.

1. Вектор оценок /3QLS имеет нормальное распределение со

средним 0 и матрицей ковариаций

(см. (3.8)) V(/30LS) =

о2{ХуС)~1, т.е. (см. (3.7))

£ OLS -

0

~ Щ О ^ Х ' Х ) - 1)

или 0oLS,i ~ 0i ~ N(0,<T| ) ,

где <т|

=

о2?"; qi{ - г-й диа­

гональный элемент матрицы

(Х 'Х )-1. В качестве оценки

дисперсии 0o\£,i возьмем s\

= д | = d2qix = s2qii.

s2

 

 

2. Случайная величина (n —k)—x распределена по закону хи-

G *

квадрат с п - к степенями свободы х 2(п ~ к) (см. (3.21)).

3. Оценки 0 o is и s2 независимы (см. п. 3.3).

Отсюда получаем (см. приложение МС, п. 3):

3.5. Проверка гипотез

79

Из (3.34) получаем, что

[A)LS,i - tcSp(\(JouS'i + tcS^)

является 100(1 -а)% -ным доверительным интервалом для истин­ ного значения коэффициента А» где tc = ta/2(n — k) 100( а /2 )%- ная точка распределения Стьюдента с п — к степенями свободы.

Для тестирования нулевой гипотезы Но: А = Ао> также можно применить статистику (3.34), а именно, нулевая гипотеза откло­ няется на уровне значимости а, если

1*1 =

floLS,» -

Ао

> ta/2(n -

к).

 

%

 

 

 

Проверка гипот езы Но: А

=

Аз = •• =

Afc = 0 . Предпо­

ложим, что в число регрессоров включена константа (свободный член): у« = А + А*ег 4------Ь Ak*tfc + £t- Нулевая гипотеза состоит в том, что коэффициенты при всех регрессорах равны нулю.

Рассмотрим статистику

 

 

 

 

 

R 2

п — к

RSS п — к

 

 

 

1 - R2 к - 1 ~

ESS fc -

1

 

 

 

Е(& -

У)2/(А? -

У»У»

1

1

 

1) __

g i

к -

(3.35)

£ >?/(п -А :)

 

е'е

1

 

 

 

 

 

 

 

<т2 п -

к

 

Как мы показали ранее, знаменатель в (3.35) имеет распреде­

ление ----- гХ2(п “ к)-

 

 

п —к

 

 

Покажем, что числитель имеет распределение - — ~Х2{к ~ 1)-

<•>

/С“

X

В самом деле, у = Л73 = N y, где ЛГ = Х ( Х

Х ) ~ 1Х

— опера­

тор ортогонального проектирования на подпространство 7г, поро­ жденное векторами ,**. Операцию взятия отклонения от среднего у* —у можно записать в матричной форме:

У . = у - у* = у -

= У “ ( “ * * ') У = (X - Р ) У .

80

Гл. 3. Модель множественной регрессии

где Р п х п матрица, Рц ~ 1/n . Р есть матрица ортогонального проектирования па вектор г = (1,... , 1)' (константа). Поскольку по нашему предположению вектор г принадлежит подпростран­ ству 7Г, то P N = Р . Последовательное ортогональное проекти­ рование вектора у на п и затем на вектор г совпадает с ортого­ нальным проектированием вектора у на вектор * (теорема о трех перпендикулярах).

Замечание, р-гсюда следует, что уг = Р у = P N y = Р у = уг

И у . = у — уг = у — уг = (N —Р )у = (N - Р ) ( Х 0 + е) = Х ./З + (N - Р)е.

Здесь согласно (3.14) N X = X , поэтому (N — Р ) Х = X — Р Х = X ,, где X* есть п х к матрица с нулевым первым столб­ цом. Поэтому при гипотезе Н« имеем Х ,/3 = О и у , = ( N —Р)е. Матрица N — Р является идемпотентной: она, очевидно, симмет­ ричная и (N - Р )2 = N 2- P N - N P + P 2 = N - P - N ' P ' + P =

N —(PN)' = N — P. Ранг идемпотентной матрицы равен ее следу (приложение ЛА, п. 16), поэтому гапк(ЛГ —Р ) = tr(N — Р) = к 1 (см. (3.18)). Таким образом, из леммы (приложение МС, п.4, N8)

получаем: у,у„/(т2 ~ х2(^ -

1). что и требовалось показать.

Как мы установили ранее в п. 3.3, POLS и е независимы, по­

этому статистика F из (3.35) имеет распределение Фишера

 

R2 п —к _ RSS п — к

y,y«/(fc-i) ~ F ( f c - l,n - f c )

(3.36)

1 - Л 2 к - 1 ~ ESS к - 1

е'е/(п—к)

 

и ее можно использовать для проверки гипотезы Но: 02 =

=

• ■• = Зк = 0. А именно, гипотеза Но отвергается, например, на 5%- иом уровне значимости, если Р > Рс. где Рс = Fo.os(k 1,п —к) — 5%-ная точка распределения Фишера F(fc —1,л —к).

Линейное ограничение общего вида Но: Н 0 = г. Пусть

Н — q х к матрица, 0 — к х 1 вектор коэффициентов, г — g х 1 вектор.

Естественно считать, что число ограничений не превосходит числа параметров и ограничения линейно независимы, т. е. q ^ к и матрица Н имеет максимальный ранг: rank(H) = q.