Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Эконометрика. Начальный курс

.pdf
Скачиваний:
15
Добавлен:
20.11.2023
Размер:
21.93 Mб
Скачать

2.4. Теорема Гаусса-Маркова. Оценка дисперсии ошибок сг2

41

2.4.Теорема Гаусса-Маркова. Оценка дисперсии ошибок и 1

Итак, мы имеем набор данных (наблюдений) t = 1 ,... ,n, и модель l-3ab. Наша задача — оценить все три параметра моде­ ли: о, 6, о2.

Мы хотим оценить параметры а и Ь «наилучшим» способом. Что значит «наилучшим»? Например, найти в классе линейных (по Yt) несмещенных оценок наилучшую в смысле минимальной дисперсии (Best Linear Unbiased Estimator, BLUE).

Заметим, что когда такая оценка найдена, это вовсе не означа­ ет, что не существует нелинейной несмещенной оценки с меньшей дисперсией. Кроме того, например, можно отбросить требование несмещенности оценки и минимизировать среднеквадратичное от­ клонение оценки от истинного значения: Е(6 - Ь)2.

Теорема Гаусса-М аркова. В предположениях модели 1-ЗаЬ:

1.Yt — а + bXt + £t> t — 1 ,..., it;

2.X t — детерминированная величина; За. Ее* = 0, Е(е?) = V(et) = <т2;

3b. Е(е*еа) = 0, при tj&s;

««■Ч.

оценки а, Ь (2.4а), (2.46), полученные по методу наименьших квадратов (МНК), имеют наименьшую дисперсию в классе всех линейных несмещенных оценок.

42

Гл. 2. Модель парной регрессии

Д о к а з а т е л ь с т в о .

1. Проверим, что МНК-оценки а,

Ь являются несмещенными оценками истинных значений а, Ь. Из (2.4а), (2.46), (2.6) получаем:

=

пЕВД-(ЕХО(ЕЦ) =еЕхм = Е«|Ец

Е6 = Е

пE*?-(E*t)2

Е*? Е*?

Е_ ь

‘ Е * ?

 

ES =

^ 5 2

= ЕУ - ХЕ6 = о + Ы( - ХЬ = а.

2. Вычислим дисперсии оценок а, 6.

111)сдставим 6 в виде (ср. (2.6))

ь =

= ] £ Wtytl где щ =

(2-9)

Легко проверить, что ид удовлетворяют следующим условиям:

1)wt = О,

2) £ > * . = £ и * Х * = 1,

3)=1/Е 1?>

4 )

Y l w ty t ~ Y l w tY t'

 

 

V (b) -

v ( 5 ^ w tyt)

-

v ( 5 >

y ) = Y l wt a -

(2.11)

a = Y - X b = 7

-

X J 2

 

(2.12)

v <s > = v f e ( ± - * « . , ) * ) = < ' Т ( Ь х а ) !

 

* (1 ,

* 2 \

. E

4

(2.13)

 

U

E * ? J

n E * ?

 

 

(при выводе (2.13) мы использовали тождество Е

х? =

п Х 2)

 

 

 

 

 

 

2.4. Теорема Гаусса-Маркова. Оценка дисперсии ошибок а2

43

Упражнение. Используя (2.9), (2.12) и аналогичные вычисле­ ния, покажите, что

CWP.S) =

Р -Н )

3. Покажем, что МНК-оценки являются «наилучшими» (в смысле наименьшей дисперсии) в классе всех линейных несме­ щенных оценок.

Пусть Ь — CtYt — любая другая несмещенная оценка. Пред­ ставим Q в виде Ct — wt + dt, тогда

Е(Ь —Ь) = 0 = E ( £ d tyt) = £ > ( а + bXt)

для всех а, Ь. Отсюда

£ < 4 = 0; £<4Х < = £< 4х< = 0,

V(S) = v ( £ c ,y < ) = <J 2£ < ? = «2 £ ( « * + <4)2

_ ff2(1 2 ® ?+ 2 £ '"«i<+ £ <й) =

( £ ш? + £

4 )

= v(6) + <r3 £ < # ,

 

 

Л »

А ,

_ _ _

t = 0 в

т. е. V(i>) ^

V(6), что и требовалось доказать. (Выше

силу определения wt (2.9) и того, что ^ZdtXt = 0.)

Аналогичные вычисления показывают, что V(a) > V(a); мы оставим доказательство этого факта в качестве упражнения. Ни­ же (в главе 3) мы докажем теорему Гаусса-Маркова в общем слу­ чае.

Упражнение. Покажите, что V(a) ^ V(a).

Оценка дисперсии ошибок а2

Итак, теперь у нас есть «наилучшие» (в смысле теоремы ГауссаМаркова) оценки коэффициентов регрессии а, Ь. Однако в регрес­ сионном уравнении есть еще один параметр — дисперсия оши­ бок а 1.

Обозначим через Yt = а + bXt прогноз {fitted value) значения Yt в точке XtОстатки регрессии е* определяются из уравнения

44

Гл. 2. Модель парной регрессии

Yt = Yt + et = в + bXt + et. He следует путать остатки регрессии с ошибками регрессии в уравнении модели Yt = а+Ь.Х*+е*. Остатки et, так же как и ошибки е(> являются случайными величинами, однако разница состоит в том, что остатки, в отличие от ошибок, наблюдаемы.

Кажется вполне естественной гипотеза, что оценка о2 связана с суммой квадратов остатков регрессии et = Yt —a — bXt. В самом деле,

Е е? =

В у‘ - « - В Д 2 = Е ( 7

+ у* -

г - ь'* ■- fc*)2

= Е (у « “ bxf)2 =

+ e t - € -

bxt)2

= £ ( ( b - b ) x t + (et - Z )) 2

 

 

= Е xt(b ~ b)2 + 2(6 -

b) E

xt(et - ? ) + Y ,(e t - t)2

=

1 + 11 + 111.

 

 

 

Вычислим математическое ожидание

 

= E(I) + E(II) +

E(III).

 

 

 

 

 

 

E(I) = E ( £ * ? ( 6 -S )«) = £ z ? V (6 ) =

 

 

Используя соотношение 6 =

 

=

£ tu t(bxt + et — I) =

b + Y ,wt£t, получаем

 

 

 

 

 

 

E(II) = - 2 E ( E wt£t E

~ ?))

 

 

 

t

8

 

 

 

 

~ - 2 Е (Е « » * Л « . '

E

^ ^

E

1*)

4 t,s

 

1

 

а

'

- 2 E

wtxta2 = ~2ff2>

 

 

 

t

 

E£f + ” ?2)

 

 

E(III) = E (Ee? ~ ^

 

 

= no-2 -

2n-<r2 H-n —о2(n —1)<jr2.

Таким образом,

n

n

 

 

 

 

 

 

 

 

 

 

E E e? = EC1) + E(II) + E(III) = a2 -

2<r2 + (n -

i)a2 = (n _ 2) ^

2.4. Теорема Гаусса-Маркопа. Оценка дисперсии ошибок <т3

45

Отсюда следует, что

 

s2 = 52 = ^ T 2 E e‘

(215)

является несмещенной оценкой дисперсии ошибок а2.

Формулы (2.11), (2.13) дают дисперсии оценок а, Ь коэффи­ циентов регрессии в том случае, если а2 известно. На практике, как правило, дисперсия ошибок а2 неизвестна и оценивается по наблюдениям одновременно с коэффициентами регрессии а, 6. В этом случае вместо дисперсий оценок а, Ь мы можем получить лишь оценки дисперсий а, Ь, заменив а2 на s2 из (2.15) в (2.11),

(2.13),

(2.14):

 

S2

 

 

ЩЪ) = s2 1

 

 

Л Л

А

 

 

 

 

Т .4 ~ £ ( X t - X ) 2

 

 

У(а) = s2И Х ?

»2 £ Х ?

(2.16)

 

 

п £ 4

n ^ i X t - X ) 2

 

Cov(o,6) = — X 2

Хз 2

 

 

 

е Т

£ ( X t - X ) 2-

Стандартные отклонения оценок коэффициентов регрессии,

которые приводятся в результатах регрессии в статистических па- /Г"ГГ

кетах, вычисляются на основе этих формул (s^ = у V(b)).

Замечание. Предположим, что мы изучаем зависимость У от X и число наблюдений п задано, но мы можем выбирать набор (Х\,Х2 , ... , Х п). Как выбрать Xt так, чтобы точность оценки уг­ лового коэффициента Ь была наибольшей? Дисперсия оценки Ь задается формулой (2.16), откуда видно, что чем больше 53ж?» тем меньше дисперсия V(6). Поэтому желательно выбирать Xt таким образом, чтобы их разброс вокруг среднего значения был большим.

Замечание. Из формулы (2.14) для ковариации оценок свобод­ ного члена а и углового коэффициента Ьследует, что Cov(a, Ь) < О, если X > 0. Это соответствует геометрической интуиции (рис. 2.4). В самом деле, график уравнения регрессии У = а + ЬХ в силу (2.5) проходит через точку с координатами (X, У), поэтому

46

Гл. 2. Модель парной регрессии

Рис. 2.4

при упеличении 6 (повороте прямой вокруг точки ( X , Y ) против часовой стрелки) величина а уменьшается.

2.5.Статистические свойства МНК-оценок параметров регрессии. Проверка гипотезы b = bo. Доверительные интервалы для коэффициентов регрессии

Пусть выполняется условие нормальной линейной регрессионной модели е ~ N(0,<72I n), т. е. е — многомерная нормально распре­ деленная случайная величина, или, что то же самое, Yt имеют сов­ местное нормальное {распределение. Тогда МНК-оценки коэффи­ циентов регрессии а, 6 также имеют совместное нормальное рас­ пределение, так как они являются линейными функциями (2.4а), (2.46) от Yt'.

s~4 ^;§S)'

(2Л7>

Если гипотеза нормальности ошибок не выполняется, то (2.17), вообще говоря, неверно, однако при некоторых условиях регуляр-

2.5. Статистические свойства МНК-оценок параметров регрессии

47

пости на поведение Xt при росте п оценки а, Ь имеют асимптоти­ чески нормальное распределение, т.е. (2.17) выполняется асимп­ тотически при п —»оо.

Р асп р ед ел ен и е о ц ен ки ди сп ерси и ош и б ок s~

Покажем, что в случае нормальной линейной регрессионной мо­ дели, т. е. когда е — многомерная нормально распределенная слу­ чайная величина, выполняется

(n - 2)s2

~ Х2(п “ 2).

Используя представление Ь в виде (2.9), получаем

Ь = ^ £ р = Ь + 1 > е>-

(2.18)

Подставив (2.18) в уравнение регрессии Y — а + ЬХ, получим следующую формулу для остатков регрессии:

el = Yt - Y t = Yt - a - b X t = a + b X t + £ t - [ У - Ь Х ) - bXL

 

—а

bXt 4- £t —л —ЬХ —f + ЬХ+ X

bXt

 

 

- X t ^

wse8 = et - ? - x t ^ 2

wee*.

 

(219)

Представим (2.19) в векторной форме:

 

 

 

 

гг' XtVo'^je — Ае\

 

(2.20)

здесь

* — п х 1 вектор-столбец,

состоящий из

одних

единиц,

е =

(в!,...,®,»)', е = (e j,. . . ,еп)',

А — п х. п матрица

и * . =

(ж ь... , хп)' — вектор отклонений от среднего значения.

 

Далее воспользуемся свойством N8 (приложение МС, п.4). Проверим, что матрица А = I —£ « ' —x tw ' из (2.20) является идемпотентной: А ' — А , так как (г*')' = г"г' — гг', и

48

 

Гл. 2. Модель парной регрессии

Д2 = ^1 ^гг' - х.ш '^

 

 

1

2

1

1

= / + —ягг'гг'+ х, ш'х,го'— гг'- 2х*и /+ —гг'х.го'+ —х*w 'tt1

п 1

п

п

п

—I ---- гг' + x*w' -

2х*гп' = I ----гг' —ж„к/ = Л,

п

 

п

 

так как г'г = п, г'х* = ги'г = 0 (см. (2.10)).

По условиям классической нормальной регрессионной модели

e/cr ~ N ( 0 , I n),

таким образом, в силу свойства N8 (приложе­

ние МС, п. 4):

 

 

(п - 2)а'

 

<2-2 l>

=

=

что и требовалось доказать.

 

 

_

л

Независимость s2 и МНК-оценок а, 6

Так как оценка дисперсии ошибок а2 является функцией от остат­ ков регрессии е(, то для того чтобы доказать независимость а2 и (а,о), достаточно доказать независимость е* и (а,6). Оценки а, 6 гак же, как и остатки регрессии et, являются линейными функ­ циями ошибок et (см. (2.4а), (2.46), (2.20)) и поэтому имеют сов­ местное нормальное распределение. Известно (приложение МС, п. 4, N4), что два случайных вектора, имеющие совместное нор­ мальное распределение, независимы тогда и только тогда, когда они пекоррели|юваны. Таким образом, чтобы доказать независи­ мость а2 и (в, 6), нам достаточно доказать некоррелированность et и (а,Ь).

Обозначим £ = 531vt£u тогда из (2.19) et = ег I - х(£, а из (2.18) следует, что 6 = 6 + £.

Cov(et,6) = Cov(et - е - Ь + £) = E(et£ - ?£ - xt£2)

= a 2(y;t - i ^ u » e -

тв,(щ- жт з ) т0-

( 2.22)

 

2.5. Статистические свойства МНК-оценок параметров регрессии

49

Таким образом, е( и 6 независимы при всех t, что и требовалось показать.

Упражнение. Используя аналогичные выкладки, показать неза­ висимость et и а.

Проверка гипотезы 6 = 6о

Из (2.17) имеем Ь -

6 ~ N{0,<т|), где <т| = <r2/ £

• Оценка дис-

А .

 

А Л

А

Персии оценки Ь может быть получена по формуле V(6) =

=

s2

% _ b

 

 

■- 2. Таким образом, —— ~ N (0,1), а из (2.21) следует, что

12 xt

а ь

 

 

т. e. по определению статистики Стыодента (приложение МС, п. 3)

имеем

Л

 

,

 

 

(6 Ь)/а%

2),

 

t = -----т——- ~

t(n -

 

s/a

 

 

 

o r

sr

 

 

 

и, так как — = — , получаем

 

 

 

 

Ь -Ь

.

 

(2.23)

 

t — ------~

t(n —2).

s b

Упражнение. Используя аналогичные выкладки, покажите, что

t = ~ t(n - 2). (2.24)

Итак, мы показали, что в случае нормально распределенных ошибок величина (2.23) распределена по закону Стыодента. За­ метим, что при определенных условиях регулярности на соот­ ношения (2.23) и (2.24) справедливы асимптотически и без пред­ положения о нормальности ошибок регрессии.

Статистику (2.23) можно использовать для проверки гипотезы

Но: 6 = 6о против альтернативной гипотезы

ЬфЬц. Предполо­

жим, что верна гипотеза Но, тогда

 

t = -— — ~ t(n —2).

 

П

 

50

Гл. 2. Модель парной регрессии

Зададимся, например, 2.5%-ной точкой t-распределения с (п —2) степенями свободы to.025 (ПРИ 40 степенях свободы to.o25 = 2.021), т. е.

Р{—1().025 < t < to.025} = 0.95.

Мы отвергаем гипотезу Но (и принимаем Ht) на 5%-ном уровне значимости, если |t| > to025 («редкое» событие с точки зрения гипотезы Но), в противном случае мы не можем отвергнуть Но (и принимаем Но)

При тестировании нулевой гипотезы Но: b = 6о против дву­ сторонней альтернативной гипотезы Нг: b ф Ьо на доверительном уровне а нулевая гипотеза отвергается при |t| > ta/2(n —2). Со­ ответственно, при тестировании гипотезы Но против односторон­ ней альтернативы Hj: b > &о, нулевая гипотеза отвергается при t > ta(n — 2). (Здесь ta(n) означает 100а%-ную точку распределе­ ния Стыодеита с п степенями свободы.)

Разрешив неравенство в Р{|(6 —b)/s^| < to.025} = 0-95 относи­ тельно Ь, получим

Р{6 —too25Sj; <Ь < Ь + to.o25S$} = 0.95,

у**.

т. е. [6 - to.025Sj, b + to.025^ц] — 95%-иый доверительный интер­ вал для 5. Доверительный интервал накрывает истинное значе­ ние параметра 6 с заданной вероятностью (в данном случае 95%). Соответственно, двусторонний 100(1 - а)%-ный доверительный интервал для параметра Ъимеет следующий вид:

[6 - ta/2{n - 2)зъ,

Ь+ ie/2(n -

2)s?],

 

Наиболее просто

выглядит

t-статистика

при гипотезе

Но:

b = 0, а именно, t

= 6/ з у Это значение

и приводится

все­

ми компьютерными пакетами в результатах регрессии. Значение |t| > to.025 (to 025 ~ 2 для больших п) позволяет сделать вывод об отличии от нуля (на соответствующем уровне значимости) коэф­ фициента регрессии и, следовательно, о наличии влияния (связи) X на Y. Малые значения t-статистики соответствуют отсутствию достоверной статистической связи объясняющей переменной X и зависимой переменной Y.

Компьютерные пакеты приводят также двусторонние Р-значе- ния t-статистики, т.е. вероятность того, что случайная величина,