Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Эконометрика. Начальный курс

.pdf
Скачиваний:
15
Добавлен:
20.11.2023
Размер:
21.93 Mб
Скачать

4.1. Мультиколлинеарность

111

при х \ принимает большое отрицательное значение. В силу этого обстоятельства интерпретация коэффициентов регрессии стано­ вится весьма проблематичной.

Мультиколлинеарность может возникать в силу разных при­ чин. Например, несколько независимых переменных могут иметь общий временной тренд, относительно которого они совершают малые колебания. В частности, так может случиться, когда зна­ чения одной независимой переменной являются лагированными значениями другой.

Выделим некоторые наиболее характерные признаки мульти­ коллинеарности.

1.Небольшое изменение исходных данных (например, добав­ ление новых наблюдений) приводит к существенному изме­ нению оценок коэффициентов модели.

2.Оценки имеют большие стандартные ошибки, малую значи­ мость, в то время как модель в целом является значимой (высокое значение коэффициента детерминации В? и соот­ ветствующей F -статистики).

3.Оценки коэффициентов имеют неправильные с точки зре­ ния теории знаки или неоправданно большие значения.

Что же делать, если по всем признакам имеется мультикол­ линеарность? Однозначного ответа на этот вопрос нет, и среди эконометристов есть разные мнения на этот счет. Существует да­ же такая школа, представители которой считают, что и не нужно ничего делать, поскольку «так устроен мир» (см. Kennedy, 1992). Мы здесь не ставим цель дать достаточно полное описание ме­ тодов борьбы с мультиколлинеарностью. Более подробно об этом можно прочесть, например, в (Greene, 1997, глава 9).

У неискушенного исследователя при столкновении с пробле­ мой мультиколлинеарности может возникнуть естественное жела­ ние отбросить «лишние» независимые переменные, которые, воз­ можно, служат ее причиной. Однако следует помнить, что при этом могут возникнуть новые трудности. Во-первых, далеко не

112

Гл 4. Различные аспекты множественной регрессии

всегда ясно, какие переменные являются лишними в указанном смысле. Мультиколлинеарность означает лишь приблизительную линейную зависимость между столбцами матрицы X , но это не всегда выделяет «лишние» переменные. Во-вторых, во многих ситуациях удаление каких-либо независимых переменных может значительно отразиться на содержательном смысле модели. Нако­ нец, как будет показано в п. 4.4, отбрасывание так называемых су­ щественных переменных, т. е. независимых переменных, которые реально влияют на изучаемую зависимую переменную, приводит к смещенности МНК-оценок.

4.2.Фиктивные переменные

Как правило, независимые переменные в регрессионных моделях имеют «непрерывные» области изменения (национальный доход, уровень безработицы, размер зарплаты и т. п.). Однако теория нс накладывает никаких ограничений на характер регрессоров, в частности, некоторые переменные могут принимать всего два значения или, в более общей ситуации, дискретное множество знаг чений. Необходимость рассматривать такие переменные возника­ ет довольно часто в тех случаях, когда требуется принимать во внимание какой-либо качественный признак. Например, при ис­ следовании зависимости зарплаты от различных факторов может возникнуть вопрос, влияет ли на ее размер, и если да, то в какой степени, наличие у работника высшего образования. Также можно задать вопрос, существует ли дискриминация в оплате труда меж­ ду мужчинами и женщинами. В принципе можно оценивать соот­ ветствующие уравнения внутри каждой категории, а затем изу­ чать различия между ними, но введение дискретных переменных позволяет оценивать одно уравнение сразу по всем категориям.

Покажем, как это можно сделать в примере с зарплатой. Пусть x t = (xti , ..., xtk)1 набор объясняющих (независимых) перемен­ ных, т. е. первоначальная модель описывается уравнениями

Vt =3ti0i + • ■• + Xtk0k +£t = x’t/3 + et, t = l, . . . , n ,

(4.1)

4 2. Фиктивные переменные

113

где jft — размер зарплаты £-го работника. Теперь мы хотим вклю­ чить в рассмотрение такой фактор, как наличие или отсутствие высшего образования. Введем новую, бинарную, переменную d, полагая dt = 1, если в t-м наблюдении индивидуум имеет высшее образование, и d* = 0 в противном случае, и рассмотрим новую систему

Vt = XtiPi + • • • +

+ dtS + et = z\~i + et>

t = 1 ,... ,n, (4.2)

где z = (® 1,...,хь«0' = (*',<*)', 7 = (Pi

6)'. Иными слова­

ми, принимая модель (4.2), мы считаем, что средняя зарплата есть х'/З при отсутствии высшего образования и х '0 + 6 — при его на­ личии. Таким образом, величина 6 интерпретируется как среднее изменение зарплаты при переходе из одной категории (без выс­ шего образования) в другую (с высшим образованием) при неиз­ менных значениях остальных параметров. К системе (4.2) можно применить метод наименьших квадратов и получить оценки со­ ответствующих коэффициентов. Легко понять, что, тестируя ги­ потезу 6 = 0, мы проверяем предположение о несущественном различии в зарплате между категориями.

Замечание. В англоязычной литературе по эконометрике пере­ менные указанного выше типа называются dummy variables, что на русский язык часто переводится как «фиктивные переменные» (см., например, Джонстон, 1980). Следует, однако, ясно понимать, что d такая же «равноправная» переменная, как и любой из ре­ грессоров Xj, j = 1,...,fc. Ее «фиктивность» состоит только в том, что она количественным образом описывает качественный признак.

Качественное различие можно формализовать с помощью лю­ бой переменной, принимающей два значения, а не обязательно значения 0 или 1. Однако в эконометрической практике почти всегда используют лишь фиктивные переменные типа «0-1», по­ скольку в этом случае интерпретация выглядит наиболее просто. Бели бы в рассмотренном выше примере переменная d принимала значение, скажем, 5 для индивидуума с высшим образованием и 2 для индивидуума без высшего образования, то коэффициент при

114

Гл. 4. Различные аспекты множественной регрессии

этом регрессоре равнялся бы трети среднего изменения зарплаты при получении высшего образования.

Если включаемый в рассмотрение качественный признак име­ ет не два, а несколько значений, то в принципе можно было бы ввести дискретную переменную, принимающую такое же количе­ ство значений. Но этого фактически никогда не делают, так как тогда трудно дать содержательную интерпретацию соответствую­ щему коэффициенту. В этих случаях целесообразнее использовать несколько бинарных переменных. Типичным примером подобной ситуации является исследование сезонных колебаний. Пусть, наг пример, yt — объем потребления некоторого продукта в месяц t, и есть все основания считать, что потребление зависит от време­ ни года. Для выявления влияния сезонности можно ввести три бинарные переменные di, d<i, d-ц

dn — 1, если месяц t является зимним, da = 0 в остальных случаях;

dti = 1, если месяц t является весенним, dt2 = 0 в остальных случаях;

dtz = 1, если месяц t является летним, Аз = 0 в остальных случаях,

и оценивать уравнение

2/t == А) +

+/?2^t2+#3^t3 + £t-

(4.3)

Отмегим, что мы не вводим четвертую бинарную переменную относящуюся к осени, иначе тогда для любого месяца t выполня­ лось бы тождество dt\ + dt4 + Аз + dt4 = 1, что означало бы ли­ нейную зависимость регрессоров в (4.3) и, как следствие, невоз­ можность получения МНК-оценок. (Такая ситуация, когда сум­ ма фиктивных переменных тождественно равна константе, также включенной в регрессию, называется «dummy trap».) Иными сло­ вами, среднемесячный объем потребления есть А) для осенних ме­ сяцев, А>+А — для зимних, Ро+ 0 2 —для весенних и А>+Аз — для летних. Таким образом, оценки коэффициентов А , г = 1,2,3, по­ казывают средние сезонные отклонения в объеме потребления по

4.2. Фиктивные переменные

115

отношению к осенним месяцам. Тестируя, например, стандартную гипотезу f t = 0, мы проверяем предположение о несущественном различии в объеме потребления между летним и осенним сезона­ ми, гипотеза ft = f t эквивалентна предположению об отсутствии различия в потреблении между зимой и весной и т.д.

Фиктивные переменные, несмотря на спою внешнюю иропо­ ту, являются весьма гибким инструментом при исследовании вли­ яния качественных признаков. Рассмотрим еще один пример. В предыдущей модели мы интересовались сезонными различиями лишь для среднемесячного объема потребления. Модифицируем ее, введя новую независимую переменную г — доход, используе­ мый на потребление. Как известно, в регрессии

yt = ft) + ft»t + £ t

(4-4)

коэффициент f t носит название «склонность к потреблению». По­ этому естественно поставить задачу исследовать влияние сезона на склонность к потреблению. Для этого можно рассмотреть мо­ дель

yt = ft) + f t ftl + ftd t2 + ftft3

+ + ftft2*t + ftft3 *t + ft* t + (4.5)

согласно которой склонность к потреблению зимой, весной, летом и осенью есть f t + f t , f t + f t, f t + f t и f t соответственно. Как и в предыдущей модели, можно тестировать гипотезы об отсутствии сезонных влияний на склонность к потреблению.

Фиктивные переменные позволяют строить и оценивать так называемые кусочно-линейные модели, которые можно приме­ нять для исследования структурных изменений. Как и раньше, проще всего это продемонстрировать на примере.

Пусть у — зависимая переменная и пусть дня простоты есть только две независимые переменные: х и постоянный член. Пред­ положим, что х и у представлены в виде временных рядов {(х£,у£), t = 1,... ,п) (например, х£ — размер основного фонда некоторо­ го предприятия в период t, yt — объем продукции, выпущенной в этот же период). Из некоторых априорных соображений иссле­

116

Гл. 4 Различные аспекты множественной регрессии

дователь считает, что в момент to произошла структурная пере­ стройка и линия регрессии будет отличаться от той, что была до момента to, но общая линия остается непрерывной (рис. 4.2).

Чтобы оценить такую модель, введем бинарную переменную г, полагая rt — 0, если t < to и rt = 1, если t > to, и запишем следующее регрессионное уравнение:

Vt= 01+ 02Xt + 0&{xt - a:to)rt + £t-

(4.6)

Негрудно проверить, что регрессионная линия, соответствующая (4.6), имеет коэффициент наклона 02 для t < to и 02 + для t > to, и разрыва в точке не происходит. Таким образом, те­ стируя гипотезу 0 з = 0, мы проверяем предположение о том, что фактически структурного изменения не произошло.

Этот подход легко обобщается на случай нескольких струк­ турных изменений в пределах одного временного интервала. Мы предлагаем читателю сделать это самостоятельно.

В заключение этого раздела отметим, что с помощью фиктив­ ных переменных можно исследовать влияние разных качествен­ ных признаков (например, уровень образования и наличие или отсутствие детей), а также их взаимное влияние. Следует толь­ ко быть внимательным, чтобы при включении нескольких бинар­ ных переменных не нарушить линейную независимость регрессо­ ров (см. выше пример с сезонными колебаниями).

4.2. Фиктивные переменные

117

Выводы:

1)для исследования влияния качественных признаков в мо­ дель можно вводить бинарные (фиктивные) переменные, ко­ торые, как правило, принимают значение 1, если данный ка­ чественный признак присутствует в наблюдении, и значение О при его отсутствии;

2)способ включения фиктивных переменных зависит от апри­ орной информации относительно влияния соответствующих качественных признаков на зависимую переменную и от ги­ потез, которые проверяются с помощью модели;

3)от способа включения фиктивной переменной зависит и ин­ терпретация оценки коэффициента при ней.

Пример. Рынок квартир в Москве (Каргин, Онацкий, 1996). Продолжение 1 (см. начало —п. 3.5).

Напомним, что рассматривается стоимость квартир в Москве. Построена оценка методом наименьших квадратов (см. п. 3.5, та­ блица 3.1, стр. 87):

LOGPRICE = 7.106 + 0.670LOGLIVSP + 0.431 LOGPLAN

(24 5) (9 65) (8 71)

+ 0.147LOGKITSP - 0.114 LOGDIST

(2.45) ( - 7 11)

- 0.0686FLOOR + 0.134 BRICK

(-3 .21) (5 67)

+ 0.042BAL + 0.114LIFT + 0.214 R1

(2 08) (4.79) (1.957)

+ 0.140R2 + 0.164 R3 + 0.169R4.

(*)

(1 75)

(2 74)

(3.11)

 

Рассмотрим интерпретацию фиктивных переменных FLOOR, BRICK, BAL, LIFT, Rl, R2, R3, R4.

Отрицательный коэффициент при FLOOR означает, что квар­ тира на первом или последнем этаже стоит на 6.9% дешевле ана­ логичной квартиры на средних этажах. Квартира в кирпичном до­ ме (BRICK = 1) стоит на 13.4% дороже аналогичной квартиры в панельном доме. Присутствие лифта (LIFT = 1) увеличивает сто­ имость квартиры на 11.4%, а наличие балкона (BAL = 1) — на 4.2%.

118

Гл 4. Различные аспекты множественной регрессии

Умеренная величина t-статистики (2.08), соответствующей ко­ эффициенту при BAL, может означать, что связь между ценой квартиры и наличием в ней балкона сомнительна. Возможно, что 5%-я значимость коэффициента при BAL получилась за счет су­ ществования косвенной зависимости цены квартиры от балкона. Например, балкона па первом этаже, скорее всего, нет, и, следова­ тельно, значимый коэффициент при BAL может быть результатом некоего сложного комплекса влияний факторов этажности на цену.

Переменные Rl, R2, R3 и R4 были включены в регрессию, чтобы учесть возможные различия в структуре рынка жилья для квартир с разным количеством комнат. Заметим, что в выборке есть пяти-, шести- и даже восьмикомнатные квартиры, поэтому переменные Rl. R2, R3 и R4 в сумме не дают константу.

Выше (Пример. Рынок квартир в Москве, начало, п.3.5, стр. 86) было показано, что коэффициенты при R2, R3 и R4 мож­ но считать равными. Из уравнения (*), таким образом, видно, что квартиры с числом комнат от 2до 4 стоят дороже многокомнатных,

аоднокомнатные —еще дороже (при прочих равных условиях).

4.3.Частная корреляция

В том случае, когда имеются одна независимая и одна зависимая переменные, естественной мерой зависимости (в рамках линей­ ного подхода) является (выборочный) коэффициент корреляции между ними. Использование множественной регрессии позволяет обобщить это понятие на случай, когда имеется несколько незави­ симых переменных. Корректировка здесь необходима по следую­ щим очевидным соображениям. Высокое значение коэффициента корреляции между исследуемой зависимой и какой-либо независи­ мой переменной может, как и раньше, означать высокую степень зависимости, но может быть обусловлено и другой причиной. А именно, есть третья переменная, которая оказывает сильное вли­ яние на две первые, что и служит в конечном счегс причиной их высокой коррелированности. Поэтому возникает естественная задача найти «чистую» корреляцию между двумя переменными, исключив (линейное) влияние других факторов. Это можно еде-

4.3. Частная корреляция

119

лать с помощью коэффициента частной корреляции. Для просто­ ты предположим, что имеется регрессионная модель

у = а + *i/?i + Х2Р2 -1- е,

где, как обычно, у п х 1 вектор наблюдений зависимой перемен­

ной, x \ , X 2 — n x l векторы независимых переменных, се,

J02

(скалярные) параметры, е п х 1 вектор ошибок. Наша цель — определить корреляцию между у и, например, первым регрессо­ ром XI после исключения влияния х%.

Соответствующая процедура устроена следующим образом.

1.Осуществим регрессию у на хг и константу и получим про­ гнозные значения у = с*х + а^х^.

2.Осуществим регрессию xj на хг и константу и получим про­

гнозные значения *1 = 7i + 72* 2-

3. Удалим влияние ®2» взяв остатки еу = у - у и еХ1 = х \ - x j .

4.Определим (выборочный) коэффициент частной корреля­ ции между у и xi при исключении влияния хг как (вы­ борочный) коэффициент корреляции между еу и еХ|:

r(y, *il* 2) = г(еу, ех,).

(4.7)

Напомним, что из свойств метода наименьших квадратов сле­ дует (см. (3.5)), что еу и ех, не коррелированы с хгИменно в этом смысле указанная процедура соответствует интуитивно­ му представлению об «исключении (линейного) влияния перемен­ ной Х2».

Прямыми вычислениями (см. упражнение 4.2) можно пока­ зать, что справедлива следующая формула, связывающая коэф­ фициенты частной и обычной корреляции:

r(y, x j|x 2) =

г ( у ,х г) - r{y,x 2 )r (x i,x 2)

(4.8)

 

л /Т ^ г 5(х Г 7 ^ л/Т =Т 5( у Г ^

Значения г(у, Х]|хг) лежат в интервале [—1,1], как у обычного коэффициента корреляции. Равенство коэффициента r(y, X1IX2)

120 Гл. 4. Различные аспекты множественной регрессии

нулю означает, говоря нестрого, отсутствие прямого (линейного) влияния переменной xi на у.

Существует тесная связь между коэффициентом частной кор­ реляции г(у , х х|х2) и коэффициентом детерминации R2, а именно

г2(у, х х|х2) = R2 - r 2 (yt x 2)

(4.9)

1 - г 2(у,х2)

или

1 - Л2 = (1 - г 2(у,х2))(1 - г 2(у, х а|х2)).

Описанная выше процедура очевидным образом обобщается на случай, когда исключается влияние не одной, а нескольких пере­ менных: достаточно переменную х2 заменить на набор перемен­ ных Х 2, сохраняя определение (4.7). Формула (4.8), естественно, усложнится. Подробнее об этом можно прочесть в книге (Айвазян и д р , 1985).

Проиллюстрируем приведенное выше понятие частных коэф­ фициентов корреляции и их отличие от обычных коэффициентов корреляции на следующем примере.

Пример. Ринки валютных фьючерсов. Рассмотрим вопрос о связи российского и западного рынков валютных фьючерсов.

В настоящее время несколько российских бирж ведут торговлю срочными контрактами на поставку доллара США: МТБ, МЦФБ, РТСБ и др. Однако (см. Яковлев, Бессонов, 1995а, 19956) в те­ чение периода наблюдений (ноябрь 1992 г. - сентябрь 1995 г.) на МТБ приходилось от 75 до 85% общего объема торговли. Поэтому в качестве цен фьючерсных контрактов на поставку доллара США мы выбрали котировки контрактов на МТБ.

Динамика цен валютных фьючерсов на Западе не сильно зави­ сит от биржи. Для анализа мы взяли биржу с наибольшим объемом торговли —IMM (International Monetary Market, Chicago).

Мы используем ежедневные данные — цена закрытия для IMM и котировочная ценадля МТБ —показатели, которые используют торговые палаты этих бирж для ежедневного перерасчета позиций инвесторов (вариационной маржи).

В качестве параметров для сравнения мы взяли не сами це­ ны контрактов, а «доходности», приведенные к годичному базису,