Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Эконометрика. Начальный курс

.pdf
Скачиваний:
15
Добавлен:
20.11.2023
Размер:
21.93 Mб
Скачать

4.3. Частная корреляция

 

121

определяемые как

 

 

Уг,т= (In

- In5t)/(T - t) ■365,

(*)

где FtT —цепа контракта в момент времени t на поставку 1 дол­ лара в момент времени Т (т.е. со сроком до поставки Т - i); St — спот-курс доллара в момент t. (Для рубля — данные ММВБ, для немецкой марки DM, британского фунта ВР, японской иены JY - данные IMM.) y{jJ, yj^1, у®£, yjj. обозначают доходности (*) кон­ трактов на поставку 1 доллара в рублях, DM, BP, JY. На наш взгляд, этот показатель в меньшей мере зависит от темпа инфля­ ции, чем сама цена контракта. Время t измеряется в днях.

Рассмотрим таблшцг коэффициентов корреляции доходностей

,.RU

-.DM ..ВР

..JY .

 

 

 

» t , т »

Уг,Т » V t,T' J и,Т'

 

 

 

 

 

RU

DM

ВР

Таблица 4.1

 

RU

JY

 

1

 

 

 

 

DM

0.626

1

 

 

 

ВР

0.380

0.775

1

 

 

JY

0.615

0.919

0.602

1

Из таблицы 4.1 видны высокие (0.602, 0.775, 0.919) значе­ ния коэффициентов корреляции показателей для западных валют, что неудивительно ввиду высокой степени интегрированности за­ падных финансовых рынков. Удивление вызывают высокие 0.615 (0.626) значения коэффициентов корреляции показателей для руб­ ля и японской иены (немецкой марки).

Рассмотрим теперь таблицу коэффициентов частной корреля­ ции между доходностями у** для XX = RU, DM, BP, JY (устра­ нено влияние временного тренда t).

 

RU

DM

ВР

Таблица 4.2

 

JY

RU

1

 

 

 

DM

0.024

1

 

 

ВР

0.008

0.807

1

 

JY

-0.003

0.488

0.276

1

Теперь мы видим картину более реалистичную! Наиболее тесно связаны между собой европейские валюты (BP, DM), слабее связь европейских валют и японской иены и практически отсутствует связь российской валюты с западными.

122

Гл. 4. Различные аспекты множественной регрессии

Таким образом, высокие коэффициенты корреляции в первой таблице, например 0.626 для RU-DM, были лишь следствием того, что на интервале наблюдений (ноябрь 1992 г. - сентябрь 1995 г.) от­ мечалось падение курса рубля по отношению к доллару и падение курса доллара но отношению к немецкой марке, т. е. эта корреля­ ция является следствием наличия временного тренда в и yffi. Наш вывод подтверждается также тем, что коэффициенты корре­ ляции yJVp и ypjp1с t достаточно высоки (-0.673; -0.920).

Процедура пошагового отбора переменных

Коэффициент частной корреляции часто используется при реше­ нии проблемы спецификации модели (см. далее п.4.4). Остано­ вимся на этом аспекте более подробно.

Иногда исследователь заранее знает характер зависимости ис­ следуемых величин, опираясь, например, па экономическую те­ орию, предыдущие результаты, априорные знания и т.п., и за­ дача состоит лишь в оценивании неизвестных параметров. (По существу, во всех наших предыдущих рассуждениях мы неявно предполагали, что имеется именно такая ситуация.) Классиче­ ский пример — оценивание параметров производственной функ­ ции Кобба-Дугласа Y = А К а1Д где Y — совокупный выпуск, К — капиталовложения и L — трудозатраты. Логарифмируя это равенство, получаем линейное относительно In А, а, 0 уравнение, из которого, например, с помощью метода наименьших квадратов можно получить оценки этих параметров, проверять те или иные гипотезы и т.д.

Однако на практике довольно часто приходится сталкиваться с ситуацией, когда имеется большое число наблюдений различных параметров (независимых переменных), но нет априорной модели изучаемого явления. Возникает естественная проблема, какие пе­ ременные включить в регрессионную схему. Теоретические вопро­ сы, связанные с этой проблемой, будут изложены далее, в п. 4.4.

В компьютерные пакеты включены различные эвристические процедуры пошагового отбора регрессоров. Основными пошаго­ выми процедурами являются процедура последовательного при­

4.3. Частная корреляция

123

соединения, процедура присоединения-удаления и процедура после­ довательного удаления. Опишем кратко одну из таких процедур, использующую понятие коэффициента частной корреляции.

Процедура присоединения-удаления

На первом шаге из исходного набора объясняющих переменных выбирается (включается в число регрессоров) перемеипая, имею­ щая наибольший по модулю коэффициент корреляции с зависи­ мой переменной у.

Второй шаг состоит из двух подшагов. На первом из них, кото­ рый выполняется, если число регрессоров уже больше двух, де­ лается попытка исключить один из регрессоров. Ищется тот ре­ грессор х 3, удаление которого приводит к наименьшему умень­ шению коэффициента детерминации. Затем сравнивается значе­ ние F -статистики (3.44) для проверки гипотезы Но о незначимости этого регрессора с некоторым заранее заданным пороговым значением F„cклЕсли F < FHCW1, то x s удаляется из списка ре­ грессоров. Заметим, что гипотеза Но о равенстве коэффициента при х 3 нулю эквивалентна гипотезе о равенстве коэффициентов детерминации до и после удаления регрессора (см. (3.45)), а так­ же гипотезе о том, что коэффициент частной корреляции х я и у равен 0. Второй подшаг состоит в попытке включения нового регрессора из исходного набора предсказывающих переменных. Ищем переменную х р с наибольшим по модулю частным коэф­ фициентом корреляции (исключается влияние ранее включенных в уравнение регрессоров) и сравниваем значение F -статистики (3.44) для проверки гипотезы Но о незначимости этого регрес­ сора с некоторым заранее заданным пороговым значением F„KJI. Если F > FBKJI, то х р включается в список регрессоров. Обычно выбирают FHCWI < FBKJ1. Второй шаг повторяется до тех нор, пока происходит изменение списка регрессоров. Конечно, ни одна из пошаговых процедур не гарантирует получение оптимального по какому-либо критерию набора регрессоров.

Подробное описание пошаговых процедур содержится в книге (Айвазян и др., 1985).

124

Гл. 4. Различные аспекты множественной регрессии

Следует отметить, что пошаговый отбор является формально­ аналитической процедурой, и его надо рассматривать как вспомо­ гательный метод. Основным критерием является содержательный экономический смысл модели.

4.4.Спецификация модели

Все паши предыдущие рассуждения и выводы, касающиеся схе­ мы классической множественной регрессии, основывались явно или неявно на предположении, что мы имеем дело с правильной спецификацией модели. Иными словами, мы считали, что зави­ симая переменная у, регрессоры X и оцениваемые параметры /3 Связаны соотношением

у = Х/3 + е,

(4.10)

и выполнены условия 1-3 п. 3.1. При этом часто говорят, что соот­ ношение (4.10) описывает «процесс, порождающий данные» или что (4.10) является «истинной моделью». Как правило, на практи­ ке истинная модель неизвестна, исследователь оценивает модель, которая лишь приближенно соответствует процессу, порождаю­ щему данные. (Напомним, что сам выбор регрессоров называется спецификацией модели.) Поэтому возникает естественный вопрос соотношения между МНК-оценками параметров в истинной и вы­ бранной моделях. Мы рассмотрим две, в определенном смысле противоположные, ситуации: в оцениваемой модели отсутствует часть независимых переменных, имеющихся в истинной модели (исключение существенных переменных); в оцениваемой модели присутствуют независимые переменные, которых нет в истинной модели (включение несущественных переменных).

Итак, будем изучать два основных случая.

Случай 1. Исключены существенные переменные.

Процесс, порождающий данные:

у

= X/3+Z~f+e.

(4.11а)

Модель:

у

= Х(3 + е.

(4.116)

4.4. Спецификация модели

 

125

Случай 2. Включены несущественные переменные.

 

Процесс, порождающий данные:

у = Х (3+ е.

(4.12а)

Модель:

у = XP+Z-y+e.

(4.126)

Здесь X — п х к матрица; Z — п х I матрица; у п х 1 вектор наблюдений зависимой переменной; 0 — k x l , у — 1 x 1 векто­ ры коэффициентов. Часто регрессию (4.11а) называют длинной, а регрессию (4.116) — короткой.

Исключение существенных переменных

Напомним, что МНК-оценка вектора параметров 0 для модели (4.116) (в короткой регрессии) имеет вид (см. (3.4)):

POLS = 0 = ( Х ' Х Г 1Х 'у .

(4.13)

Обозначим также S = L7*JР МНК-оценку вектора коэффици­

ентов <5 = в длинной регрессии (в истинной модели) (4.11а).

Учитывая (4.11а), получаем (ср. (3.7), (3.8)):

Е 0 = ( Х ' Х у ' Х ' Е у = 0 + { X 'X ) ~ lX ' Z y ,

(4.14)

V(p) = <x2 ( X ,X ) - 1.

«■ ч

Из (4.14) видно, что оценка 0, вообще говоря, смещена за ис­ ключением двух случаев:

а) 7 = О (очевидный случай) и

б) X ' Z = 0 (ортогональность регрессоров X и Z). Рассмотрим эту ситуацию более подробно. Имеем:

[X Z}' [A-

Z]

= [* ,'] [X Z) =

Х ' Х

О ]

О

Z 'Z \ >

[[A Z]'

[A

Z ) ] " ' =

 

0 1

 

 

 

( Z 'Z ) - 1]

126 Гл. 4 Различные аспекты множественной регрессии

г = [ ( * z l' « I ] " ' Iх z V v = [ % z r ' z ' y ■

Таким образом, (3 = /3*, т. е. МНК-оценки вектора /3, полу­ ченные в длинной и короткой регрессиях, совпадают. (Если поль­ зоваться геометрической интерпретацией, то содержательно по­ лученный результат выражает хорошо известную теорему о трех перпендикулярах.)

Сумма квадратов остатков вычисляется по формуле (см. (3.11), (3.20))

ESS = у 'М у , М = I - Х { Х ,Х ) - 1Х '.

Так как M X = 0, то, согласно известным формулам (см. при­ ложение МС, п. 4, N8), получаем:

E(ESS) = Е {у'Му) = Е((Х(3 + Z<y + е)'М (Х /3 + Z 7 + е))

= Е (е'Ме + 2'y'Z'M e + 7 'Z 'M Z -y)

= а2(п - к ) + У Z ' M Z 7 .

(4.15)

Последнее слагаемое в (4.15) неотрицательно при любом 7 , по­ скольку Z ' M Z = Z ' M 2Z = (M Z )'(M Z ), т.е. матрица Z ' M Z неотрицательно определена. Таким образом, оценка s2 = <т2 = е'е/(п — к) = £ е 2/(п —к) является, вообще говоря, смещенной оценкой дисперсии а2: Е(Э2) > а2.

Заметим, что если X ' Z = 0, то оценка /3 несмещена, но оценка о 2 по-прежнему смещена:

Е(а2) = а2 + - L - i ' Z ' Z y > а2, п —к

Отметим, что так как а2 участвует во многих статистических тестах, то в этом случае можно получить ложные выводы.

Сравним теперь ковариационные матрицы оценок /3 и /3 . Из (4.13) следует, что

У ф ) = < т \Х 'Х )-\

(4.16)

а ковариационная матрица вектора (3 есть левый верхний квад­ ратный блок размера к матрицы V(5*) = <т2{[Х Z]' [X Z])-1. Вспоминая правило обращения блочных матриц (см. приложение

4.4. Спецификация модели

127

ЛА, п. 17), получаем

 

V(3*) = а2( Х ' Х - X ' Z ( Z ' Z ) - l Z ' X ) - 1.

(4.17)

Поэтому в силу (4.16) и (4.17)

 

(V(3))_1 - (V(3*))-1 = ^ x ' Z { z rz ) - l z ' x

> 0 .

о*

 

Это, в свою очередь, означает, что V(/3*) > V(/3). Иными сло­ вами, оценка, полученная в короткой регрессии, в общем случае смещена, но обладает меньшей вариацией.

Для наглядности рассмотрим простейший случай к = I = 1,

т.е. предположим, что длинная регрессия есть

у= х/3 + ж-у + е

(мы здесь предполагаем, что у = х = z = 0) ,а короткая —

 

 

у = х/3 + е ,

 

g = х^y

= x;(x<?+ r 7 + I ) = < j+ х'ж

х'е

х 'х

 

Ж »/м

 

М / М /

где у, х, ж, е — п х

А

Д? 2?

 

в»-/»+Н7-

 

1 векторы, /?,

7 —скаляры. Тогда (см. (2.6))

и

При этом

(4.18)

где г — выборочный коэффициент корреляции между ж и ж.

Включение несущественных переменных

Можно получить два эквивалентных выражения для оценки по модели (4.126) (упражнение 4.3):

3

=

( Х ' Х ) - 1Х ' у - (X ' X )

- lX ' Z ( Z ' M Z ) - l Z ' M y ,

(4.19)

3

=

(.X ' M ZX ) - 1X ' M ZV,

M z = I - Z ( Z ' Z ) - 1 Z'.

(4.20)

Из (4.19) или (4.20) получаем

 

Е З = Р,

У ф ) = a2( X ' M z X ) - \

 

128

Гл. 4. Различные аспекты множественной регрессии

V(/3) = ^ ( ( Х ' Х ) - 1 + { X ' X y ' X ' Z i Z ' M Z y ' Z ' X i X ' X ) - 1),

Ч ф ) > а 2( Х ' Х ) - \

Таким образом, как и следовало ожидать, в этом случае оценка /3 несмещенная, однако дисперсия оценки увеличивается от вклю­ чения в модель несущественных переменных.

Рассматривая оценку для а2, получаем

е*'е* = е*'М*е* = ( y - X 0 - Z i ) 'M '{ y - Х(3 - Z y ) = у'М *у

(X* =

[X Z ], М * = I - Х , ( Х ,,Х , )~1Х*'), так как М*Х* =

\М * Х

M*Z] = О и, значит, М * Х = О, М * Z = О. Аналогично,

 

г/М *у = (Х(3 + е)'М*(ХР + е) = е'А Ге,

 

Е —

= rank М * = п - к - 1,

Еа2 = Е - e- f

= а2.

Итак, обе оценки /3 и д2 являются несмещенными. Поскольку включение несущественных переменных сохраняет

несмещенность, у исследователя может возникнуть соблазн вклю­ чать в модель как можно больше объясняющих переменных с це­ лью получить лучшую подгонку. Однако следует помнить, что точность оценок при этом уменьшается. Кроме того, увеличение числа регрессоров часто приводит к неустойчивости модели изза наличия сильной корреляции между ними (см. рассмотрен­ ную выше (п.4.1) проблему мультиколлинеарности). В простей­ шем случае указанное обстоятельство наглядно демонстрирует формула (4 18): при стремлении г2 к 1 дисперсия оценки /3 стре­ мится к бесконечности.

К о р о ткая или д л и н н а я регрессия?

До сих пор мы рассматривали общий случай. С этого момента и до конца главы будем предполагать, что I = 1.

Рассмотрим теперь другую, более близкую к практике, поста­ новку задачи, когда нам неизвестен процесс, порождающий дан­ ные («истинная модель»).

4.4. Спецификация модели

120

Таким образом, мы сравниваем две модели:

I.y = X(3 + z 7 + е (модель без ограничений),

II.у = Xf3 + е (модель с ограничением),

где z — один дополнительный регрессор (X — п х к, z — п х 1 матрицы). (Использование терминов «без ограничений» и «с огра­ ничением» совершенно понятно: если в модели I наложить огра­ ничение 7 = 0, то получается модель II. Далее мы будем исполь­ зовать индексы и (unrestricted) и г (restricted) для моделей без ограничения и с ограничением.)

Как выбрать одну из этих моделей? Рассмотрим разные воз­ можности сравнения.

Способ 1 (основан на R2).

Нам известно, что всегда > В2 (см. (3.45)), поскольку е(,еи < е 'е г. Поэтому такой способ плох.

Способ 2 (основан на /2 ^ ).

По определению (см. главу 3)

 

 

у 1А у

Д =

п

Д ^ = 1 - - # 1?- -

!с -

 

 

 

 

^

 

У ?А у/(п

-

1)

Для моделей с ограничением и без ограничения получаем

 

 

»2

_

, _

е'иеи/{п - fc -

1)

2

 

e'rer/{n -

 

к)

 

 

 

 

у 'А у / { п - 1) ’

" ’• . « и - 1

у 'А у /{п 1)

 

Л 1

 

2

 

_ вцвц/(п -

fc - 1) -

е 'er/(n - fc)

 

 

 

 

•rtu, adj

 

 

 

 

 

 

 

г, adj

 

 

У1A y l ( n

-

1 )

 

 

 

 

 

 

 

 

 

 

 

Мы ранее показали (см. (3.44)), что гипотеза Но: 7 = 0 прове­ ряется с помощью F -статистики (или ^-статистики):

f - м - f f i ) ~ Л » . " —* —1) ~ « V - * - > > •

Следовательно,

Я2

_ р 2

еиеи /{ п - к - 1)

1 - t 2

p,adj

■*l u,adj

у ’А у / ( п - 1)

п - к ‘

 

 

130

Гл. 4. Различные аспекты множественной регрессии

Таким

образом, если |£| > 1, то /2^ ^ < -^u.adj» и наоборот.

Если мы верим, что скорректированный коэффициент детерми­ нации 72^ является правильным критерием, то мы должны вы­ брать модель без ограничения тогда и только тогда, когда |£| > 1. Ниже мы увидим, что t = 1 является естественной границей.

Вернемся к исходной задаче. У нас есть модель с ограниче­ нием и модель без ограничения, и наша цель — оценить 0. Взяв модель с ограничением, мы можем получить смещенную оценку, взяв модель без ограничений, можем получить неэффективную оценку. Естественным компромиссом является

Способ 3 (основан на наименьшем среднеквадратичном откло­ нении MSE, Mean Squared Error).

Будем сравнивать

модели I и

II по критерию

MSE(/3)

=

Е {{0 - 0)'{0 - 0)). Как и ранее,

обозначим

М

= 1п

Х ( Х 'Х ) ~ 1Х '. Введем также обозначения

 

 

 

о

, , , _ i , , ,

л

7

 

 

Я = \Zz*Mz

(X 'X )~ lX 'z ,

в =

 

 

 

 

o fy /z 'M z

 

Предположим, что вектор ошибок имеет стандартное много­ мерное нормальное распределение. Тогда из предыдущих резуль­ татов (см. (4.13), (4.14), (4.19), (4.20)) следует, что

Ъг ~ N((3 + 0q, а ^ Х 'Х ) - 1), 0 и ~ N(/3, a \ X 'X ) ~ l + qq').

Отсюда, пользуясь свойствами нормального распределения, получаем (см. приложение МС, п.4)

MSE(3r ) - MSE(3u) = (02 -

Мы снова видим важность условия \в\ > 1. Но на этот раз в — «теоретическое t-отношеиие», а не то, которое получено из наблюдений.

Полученные результаты дают пищу для размышления. В том случае, когда мы хотим оценить коэффициент 0 и не уверены, должна ли переменная г присутствовать в модели, то вопрос «Верна ли гипотеза Но: 7 = 0?» не является подходящим! Ответ на него нокажег, равно 7 нулю или нет^но это^не то, что мы хо­ тели бы знать, а именно, «что лучше — /Зг или /Зи?» Правильным