Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Эконометрика. Начальный курс

.pdf
Скачиваний:
15
Добавлен:
20.11.2023
Размер:
21.93 Mб
Скачать

2.6. Анализ вариации зависимой переменной в регрессии

51

распределенная по закону t(n - 2), принимает значение по абсо­

лютной величине большее, чем |t| = Ь

2.6.Анализ вариации зависимой переменной в регрессии. Коэффициент детерминации R 2

Анализ вариации зависимой переменной в регрессии

Рассмотрим вариацию (разброс) —F )2 значений Yt вокруг среднего значения. Разобьем эту вариацию на две части: объяс­ ненную регрессионным уравнением и не объясненную (т.е. свя­

занную с ошибками £*).

^

 

Обозначим через Yt = a+bXt предсказанное значение Yt, тогда

Yt - 7 = (Yt - Yt) + {Yt -

Y) (см. рис.2.5) и вариация Yt представ­

ляется в виде трех слагаемых:

 

£ ( у , - У? = £ ( у, - у,)2 + £ ( ? , -

У ?

 

+ 2 £ ( К - У , ) ( Й - 7 ) .

(2.25)

Третье слагаемое в (2.25) равно нулю, так как у — у = е, - вектор остатков регрессии, ортогонален константе г и вектору х (см. самом^деле, ^ е £(Кг - У) = £ е £(а + bXt - Y) = (о + Ш - Y) 23 et + b53 etXt = 0. Поэтому верно равенство

Е (У « -Г )2 =

Е № - у«)2 +

Е (У,-У)2-

, , 2В)

TSS

ESS

RSS

'

Замечание. Вектор остатков регрессии ортогонален константе, т.е. г'е = £ е £ = 0, вообще говоря, только в том случае, когда константа включена в число объясняющих параметров регрес­ сии. Поэтому (2.26) справедливо, вообще говоря, только в слу­ чае, когда константа включена в число объясняющих параметров регрессии.

o f s q u a r e s ) .
( e x p la in e d

52

Гл. 2. Модель парной регрессии

Рис. 2.5

Обозначим левую часть в (2.26) через TSS (toted sum of squares) — вся дисперсия, первое слагаемое в правой части, со­ ответствующее не объясненной дисперсии, через ESS (error sum of squares), второе слагаемое в правой части — RSS (regression sum of squares) -- объясненная часть всей дисперсии1.

Статистика R2 — коэффициент детерминации

Определение. Коэффициентом детерминации, или долей объяс­ ненной дисперсии, называется

ESS RSS

(2.27)

TSS “ TSS’

Заметим, что второе равенство в (2.27) верно лишь в том слу­ чае, если верно (2.26), т.е. когда константа включена в уравнение регрессии. Только в этом случае имеет смысл рассматривать ста­ тистику R2.

В силу определения R2 принимает значения между 0 и 1, О ^ R2 < 1. Если R2 = 0, то это означает, что регрессия ничего не дает, т. е. Xt не улучшает качество предсказания У( по сравне­ нию с тривиальным предсказанием Yt = 7 .

'К сожалению, эти обозначения не унифицированы. В некоторых книгах (см, например, Johnston, DiNardo, 1997) первое слагаемое в правой части (2.26) обозначается RSS (residual sum o f squares), а второе — ESS

sum

2.6. Анализ вариации зависимой переменной в регрессии

53

Другой крайний случай Д2 = 1 означает точную подгонку: все точки наблюдений лежат на регрессионной прямой (все е* = 0).

Чем ближе к 1 значение Д2, тем лучше качество подгонки, у более точно аппроксимирует у. Ниже в главе 3, посвященной мно­ жественной регрессии, мы более подробно остановимся на вопросе о значении Д2 при оценке качества регрессии.

Геометрическая интерпретация коэффициента Л2

Вернемся к геометрической интерпретации регрессии из разде­ ла 2.2. Вектор 7 г является ортогональной проекцией вектора у на вектор г. Вектор у есть ортогональная проекция вектора у на плоскость (t,x) (см. рис. 2.6). По теореме о трех перпендику­ лярах ортогональная проекция вектора у на вектор г совпада­ ет с F t. Равенство (2.26) является теоремой Пифагора для пря­

моугольного треугольника со сторонами у —F t, у — 7 г,

е, т.е.

||у - F t ||2 = ||е||2 + ||у - F t||2. Поэтому

Д2 = RSS/TSS =

cos2 у»,

где — угол между векторами (у - F t)

и (у —Yt).

 

Рис. 2.6

Упражнение. Покажите, что Д2 равен квадрату выборочного коэффициента корреляции между Yt и Р£.

54

Гл. 2. Модель парной регрессии

F-статистика

Снова предположим, что мм находимся в рамках нормальной ли­ нейной регрессионной модели. Из (2.17), (2.21) получаем

<«•«»

«И*,

6 - 6 _

6 - 6

 

~ N (o ,i);

( п - у

Е « ?

<72

<72 ~ Х 2 ( « - 2 ) .

Ранее мы показали, что s2 и 6 — независимые случайные величи­ ны, поэтому по определению распределений Фишера и квадрат (приложение МС, п. 3 (7,8)) получаем

( Ь - Ь \ 21

!

 

F =

Р(1, „ _ 2).

1 > ? 1

Е <=?/("-2) _ > _ х2 („ _ 2 )

 

п 2

п —2

 

(2.28) Полученную F -статистику можно использовать для проверки нулевой гипотезы Но: 6 - 6о = 0. При этой гипотезе статистика

(2.28) выглядит следующим образом:

F = '£ e $ n - V ~ F(1’ n - 2>- (М #)

Если нулевая гипотеза справедлива, то значение F в (2.29) ма­ ло. Таким образом, мы отвергаем нулевую гипотезу, если F пре­ восходит критическое значение Fa (l, п - 2 ) распределения Фишерас параметрами (1, п - 2) для выбранного уровня значимости а.

Статистика (2.29) особенно просто выглядит для гипотезы Но: 6 = 0 (случай отсутствия линейной функциональной связи между X и Y). Преобразуя числитель следующим образом:

 

X,y,f

 

Е*<

=

= £ ( й ) ! = S i» ..

2.7. Оценка максимального правдоподобия коэффициентов регрессии

55

получим (в векторных обозначениях для отклонений)

 

у'*у*

 

F = е'е/(п - 2) ‘

(2.30)

Замечание. Сравнивая (2.23) и (2.29), мы видим что F = t2, т. е. проверка гипотезы Но, используя t- и F -статистики, дает в данном случае (для одномерной регрессионной модели) тождественные результаты.

Нетрудно заметить, что, переписывая определение /^-стати­

стики (2.27) в отклонениях, получаем

•Л»/

R2 = У.У.

У*У*

(2.31)

У'.У.

е'е + у*у*

 

Используя (2.30) и (2.31), получаем следующее соотношение, связывающее R 2 и F -статистики:

F = ( n - 2 ) T^ .

(2.32)

Не удивительно, что малым значениям F (отсутствие значимой функциональной связи X и Y) соответствуют малые значения R2 (плохая аппроксимация данных).

2.7.Оценка максимального правдоподобия коэффициентов регрессии

О ц ен ка м акси м альн ого п равд оп одоби я

Наряду с методом наименьших квадратов (МНК) возможен и дру­ гой подход к оцениванию параметров линейного регрессионного уравнения по данным наблюдений — метод максимального прав­ доподобия. Этот метод будет рассмотрен детально в главе 10. В данном разделе мы рассмотрим его применение к оцениванию па­ раметров парной регрессии.

Предположим, что мы ищем параметры нормальной линейной регрессионной модели

Vf = о + ЬХ( + St.

(2.33)

56

Гл. 2. Модель парной регрессии

Ошибки р егр есси и e t независимы и распределены по нормальному закону:

е4~АГ(0,<г2),

(2.34)

илы, что является эквивалентной записью,

Yt ~ N { a + bXu а2).

Имея набор наблюдений (Xt,Yt), t = 1,... ,п, мы можем по­ пытаться ответить на вопрос: при каких значениях параметров а, Ь, о2 модели (2.33)-(2.34) вероятность получить этот набор наблюдений наибольшая? Другими словами, каковы наиболее ве­ роятные значения параметров модели для данного набора наблю­ дений?

Чтобы ответить на этот вопрос, составим функцию правдопо­ добия (приложение МС, п. 7), равную произведению плотностей вероятности отдельных наблюдений (мы считаем все е* независи­ мыми):

а д , . . . , Г п,а ,62)=р(У1,...,Г п |Л:1, ...,Х п,в ,62)= П р (Г <)

1=1

= (2 * )-"/V )-"/2 ® ф ( - ^ 5 £ < К - * - WC,)2) , (2.35)

где р обозначает плотность вероятности, зависящую от X t, Yt и параметров а, 5, а2. Для того чтобы найти наиболее правдоподоб­ ные значения параметров, нам необходимо найти такие их зна­ чения, при которых функция правдоподобия L (2.35) достигает своего максимума. Так как функции L и In L одновременно дости­ гают своего максимума, достаточно искать максимум логарифма функции правдоподобия

1пЬ(У'1,...,У„,о,6,<т) = - |ln (2 ir)- ||ц(<г2)

< 2 ' 3 6 >

Необходимые условия экстремума функции In L имеют вид:

dlnL

о,

(2.37а)

да

 

 

2.7. Оценка максимального правдоподобия коэффициентов регрессии

57

Решением системы уравнений (2.37а)-(2.37в) являются оценки

максимального правдоподобия

Отметим, что оценки максимального правдоподобия парамет­ ров а, Ь совпадают j: оценками метода наименьших квадратов <*ML = SOLS, &ML — bobsЭто легко видеть из того, что уравне­ ния (2.37а) и (2.376) совпадают с соответствующими уравнениями метода наименьших квадратов (2.2). Оценка максимального прав­ доподобия для о1 не совпадает с OQLS = YL е*/ (п—2), которая, как мы знаем (см. (2.15)), является несмещенной оценкой дисперсии ошибок. Таким образом, ~ ((п —2)/п)3£>1с является смещен­ ной, но тем не менее состоятельной оценкой <г .

Пример. Доходы семьи. В этом примере используются данные RLMS2. Пусть Inс обозначает реальный доход семьи, Expend — ее реальные расходы. Для того чтобы исследовать зависимость рас­ ходов от доходов, оценим коэффициенты регрессии Expend на Inc и константу.

Для всех типов семей (количество наблюдений 3594)

Expend = 4663.3 +

0.686 Inc,

R2 = 0.21, s = 11307.

(233 6)

(0 0223)

 

В скобках приведены стандартные ошибки коэффициентов регрес­ сии. Соответствующие t-статистикн равны 19.96 и 30.81, т. е. коэф­ фициенты статистически достоверно отличаются от нуля. Однако значение коэффициента детерминации R2 невелико. Это объясня­ ется, конечно, разнородностью семей как по составу, так и по дру­ гим факторам, таким, как место проживания, структура расходов,

*RLMS, Hound VI — обследование 3781 семьи в Российской Федерации, произведенное осенью 1995 г. совместно Госкомстатом РФ, Институтом со­ циологии РАН, Институтом питания РАМН и Университетом Северной Ка­ ролины (Чапел Хилл, США), данные можно найти по адресу: https/Artrtf.срс.une.«du/prоjacts/rim*/гlms„home.html

58

Гл. 2. Модель парной регрессии

состав семьи и т. и. Таким образом, для более однородной выбор­ ки семей мы оправе ожидать увеличения значения коэффициента детерминации.

Для семей, состоящих из одного человека (количество наблю­ дений 509):

Expend = 3229.2 +

0.355 Inc,

Я2 = 0.39, s = 4567.

(182 О)

(0 0162)

 

Как и раньше, коэффициенты являются значимыми — t-ста- тистики равны соответственно 17.74 и 20.70. Как мы и ожидали, качество подгонки улучшилось —коэффициент Я3 возрос с 0.21 до 0.39, а оценка стандартного отклонения остатков 8 уменьшилась с 11307 до 4567. Так как в семьях из одного человека нет расходов на содержание неработающих членов семьи (дети, престарелые), то на потребление тратится меныная часть прироста дохода. Склоч­ ность к потреблению, определяемая как dExpend/dlnс, для семьи из одного человека равна 0.355, в то время как в среднем по всей выборке 0.686.

Обозначим через N f количество членю в семье. Оценим регрес­ сию среднею расхода на члена семьи на средний доход члена семьи (количество наблюдений 3594):

Expend/ N f = 2387.2 +

0.447 Inc/N f, Я3 = 0.24, s = 4202.

(76 8)

(0 0133)

Значение Я2 увеличилось по сравнению с первой регрессией. Пере­ ход к удельным данным приводит к уменьшению дисперсии оши­ бок модели.

Упражнения

2.1. Наблюдения 16 nap (X, У) дали следующие результаты:

£ У 3 = 526,

£ Х 3 = 657, £

ХУ = 492,

£ У = 64,

£ Х = 96.

 

Оцените регрессию Yt = а + (3Xt + £i и проверьте гипотезу, что коэф­ фициент 0 равен 1.0.

2.2. Покажите, что 0 = — , где rXY —выборочный коэффициент

корреляции между X и У, a sx , sY — стандартные отклонения X и У, соответственно

Упражнения

59

2.3. Пусть 0 —оценка коэффициента наклона в регрессии У на X, а 7 —оценка коэффициента наклона в регрессии X на У. Покажите, что

л

*

0 = 1 /7 тогда и только тогда, когда Яг = 1.

2.4.Рассмотрим модель У = а+ 0Х ?+е(, где ошибки являются незави­ симыми одинаково распределенными нормальными случайными вели­ чинами. Почему для оценивания параметров нельзя применять метод наименьших квадратов? Выведите уравнение для оценок максимально­ го правдоподобия.

2.5.Могут ли следующие уравнения быть преобразованы в уравнения, линейные по параметрам?

аУ Yi = a- cxp(pXi) • г<,

б) Yi = а ■exp(—(3Xi) + eit

в) Yt = ехр(а + 0Xi + г<),

г) У = а / (/?-*<)+ п.

2.6. Зависимая переменная в регрессии У = a+0Xi+£i разбивается на две компоненты: У = Yu + Уг«- Рассмотрим две регрессии для компо­ нент: Уп = oi + PiXi+ец и = <*2 +(hXi +£2i- Докажите следующие соотношения для МНК-оценок параметров трех регрессий: й = Si + йг;

0 = 01+ 02-

2.7. Уравнение У = а +• 0Xi + е* оценивается методом наименьших квадратов. Остатки регрессии равны е*, yt = у —У, = Xi — X , у, = У - F —отклонения от средних. Докажите, что следующие меры качества подгонки совпадают:

а) ( £ *i»i) / ( £ * < £ У?) •

б) 0 ( S **») / ( 2 У»?) >

в) (Е ft»)*/(Е ^ £»?) *

г>1"Е ei/S

2.8. Выведите непосредственно формулу для оценки коэффициента на­ клона в регрессии без свободного члена, т. е. найдите оценку параметра 0 в регрессии У = 0Xt+£t минимизацией суммы квадратов отклонений

60

Гл. 2. Модель парной регрессии

2.9. Для наблюдений

УX

70

5

65

11

55

15

60

17

50

20

35

22

40

25

30

27

25

30

32

35

вычислите следующие величины:

а) коэффициент детерминации Я2 в регрессии У( на X t при наличии свободного члена;

б) коэффициент детерминации Я2 в регрессии У< на X t при отсут­ ствии свободного члена;

в) коэффициент детерминации Я2 в регрессии у* на x t при наличии свободного члена, где yt и x t — отклонения переменных Yt и X t от их средних значений;

г) коэффициент детерминации Я2 в регрессии yt на x t при отсут­ ствии свободного члена.

2.10. Предположим, что модель

У = or+ 0 X t 4- £ti t —

удовлетворяет условиям классической регрессии. Рассматривается сле­ дующая оценка коэффициента 0:

Yt - Y x t - T

а) Является ли оцеика 0 несмещенной? Является ли она линейной?

б) Вычислите дисперсию оценки 0.

в) Проверьте теорему Гаусса-Маркова, сравнив полученную диспер­ сию оценки 0 с дисперсией МНК-оценки <т2/ ^ " =1(Xt - X )2.