Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

569

.pdf
Скачиваний:
2
Добавлен:
06.12.2022
Размер:
2.09 Mб
Скачать

При малом объеме выборки точечная оценка коэффициента корреляции является статистически не значимой. Поэтому вместо точечной оценки можно использовать интервальную оценку с уровнем значимости или надежностью = 1 – .

Рассмотрим случайную величину z M(z), которая прибли-

D(z)

женно распределена по стандартному нормальному закону распределения. Из уравнения = 2Ф(k) – 1, где — функция стандартного нормального распределения. Из данного уравнения можно найти квантиль k1– . Границы доверительного интервала вычисляются по формулам:

 

 

 

 

1

e2z1

1

и 2

 

e2z2

1

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

e2z1

1

e2z2

1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

1

 

 

k1

 

 

1

 

 

1

 

k1

где z

 

ln

 

 

 

 

 

2

 

; z

 

ln

 

 

 

2

 

 

.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

2 1

 

 

n 3

2

 

2 1

 

 

n 3

5.1.1. Проверка гипотезы о незначимости выборочного коэффициента корреляции при заданном уравнении значимости = 0,05

Математически данная гипотеза записывается следующим образом:

Н0: b = 0, Н1: b 0.

Если основная гипотеза Н0 будет отвергнута, то это говорит о том, что коэффициент корреляции b значим и, следовательно, X и Y коррелированные, т.е. изменение фактора X влечет изменение среднего значения фактора Y. Если Н0 не будет отвергнута, то коэффициент корреляции b не значим, факторы не коррелированы.

Для

проверки гипотезы вычисляется статистика

t

b

 

 

 

 

. Эта статистика распределена по закону Стью-

n 2

 

 

 

 

 

 

 

 

1 b2

дента с n – 2 степенями свободы. На основе этой статистики находится вычисленный уровень значимости b, который срав-

51

нивается с исходным уровнем значимости . Если b < , то Н0 отвергается.

5.1.2.Проверка гипотезы о незначимости регрессионной модели

спомощью дисперсионного анализа

Выдвигаем гипотезу о незначимости коэффициента регрессии при уровне значимости = 0,05:

H0: b = 0; H1: b 0.

Вычисляем суммы квадратов отклонения:

n

SSM (yi* y)2 — сумма квадратичного отклонения для

i 1

модели;

n

SSE (yi yi*)2 — сумма квадратичного отклонения для

i 1

ошибки;

n

SST (yi y)2 — общая сумма квадратичного отклоне-

i 1

ния для модели,

где yi i-е значение наблюдаемого фактора Y (т.е. в точке xi); yi* i-е значение, вычисленное с помощью модели

у* = bx + a (прогнозное значение); y — среднее значение фактора y.

Находим соответствующие значения числа степеней свободы: dfM = k – 1, k — число оцениваемых параметров;

k = 2 для линейной модели (а и b оцениваем); dfE = n – k, n — объем выборки;

dfT = n – 1.

Вычисляем средние квадраты отклонений (несмещенные

SS

оценки дисперсий) MS df .

На основе среднего квадрата отклонения находят значения статистики Фишера F (количество степеней свобод dfM и dfE). После чего находят значение вычисленного уровня значимос-

52

ти B. Если B < , то гипотеза Н0 (о незначимости линии регрессии) отвергается. Следовательно, делаем вывод, что коэффициент регрессии значим.

Введем понятия, необходимые для оценки качества модели. Коэффициент детерминации вычисляется по формуле

R2 SSМ 100% (сумма квадратов отклонения регрессии, делен-

SSТ

ная на общую сумму квадратов отклонения), 0 % R2 100 %. Коэффициент детерминации характеризует долю дисперсии, объяснимую регрессией, в общей дисперсии выходного фактора Y. Чем больше коэффициент детерминации R2, тем сильнее влияние фактора Х на Y. Чем коэффициент детерминации R2 больше, тем модель лучше. Если R2 > 50 % , то это хорошая регрессионная модель. При исследовании нескольких моделей, лучшей считается модель, где значение коэффициента детерминации больше.

В качестве оценки качества построенной модели можно ис-

пользовать стандартную ошибку регрессии MSЕ (корень

из несмещенной оценки дисперсии остатков). Чем стандартная ошибка регрессии меньше, тем модель лучше.

Значения tj (t-статистика) вычисляются как отношение значения коэффициента регрессии bj к стандартной ошибке:

tj

bj

, где

 

S2

 

— стандартная ошибка в определении b (

 

).

 

j

j

j

df

 

 

 

По модулю величина |tj| рассматривается как мера значимости (информативности) фактора Xj. Чем |tj| больше, тем фактор Xj, более значим.

Примечание. Сами коэффициенты регрессии bj не являются показателями значимости фактора Xj, так как эти коэффициенты вычисляются в определенных единицах. Например, если измерить вес в граммах и килограммах, то в первом случае bj будет в 1000 раз больше, чем во втором случае, хотя это один и тот же вес. Деление на стандартную ошибку убирает масштабируемость фактора, что позволяет говорить о его значимости.

Для проверки гипотезы о незначимости коэффициентов регрессии и свободного члена необходимо найти вычислен-

53

ные уровни значимости (p-значение). Чем меньше p-значение, тем фактор более информативен.

Для построения границ доверительных интервалов для коэффициентов регрессии необходимо найти соответствующие предельные ошибки по формуле j = tкр j, где tкр — значение статистики Стьюдента с n – 2 степенями свободы и с уровнем значимости (например, уровень значимости равен 0,05). Тогда «Нижние 95 %» и «Верхнее 95 %» — это левая и правая границы доверительного интервала соответственно, построенные для значений коэффициентов bj и a с уровнем значимости

= 0,05 .

Введем понятие остатка: i = yi – yi*. График остатков изображен на рис. 31.

y

yi

i

yi*

хi

х

Рис. 31. График остатков

Средняя ошибка аппроксимации характеризует качество построенной регрессионной модели и вычисляется по форму-

 

 

 

 

n

 

 

 

 

*

 

 

 

 

 

 

1

 

 

 

yi

yi

 

 

 

ле

A

 

 

 

 

 

 

100%. Допустимый предел составляет 8–

 

 

 

 

 

 

 

 

 

 

 

 

n i

1

 

 

 

yi

10 %.

Средний коэффициент эластичности показывает, на сколько процентов в среднем по совокупности изменится значение выходного фактора Y от своей средней величины при изменении значения входного фактора X на 1 % от своего среднего значения. Формула расчета коэффициента эластичности

Э f'(X) X . В рассматриваемом случае регрессия — линей-

Y

54

ная функция. Следовательно, формула для расчета среднего

коэффициента эластичности примет вид: Э b X .

Y

5.2.Криволинейнаярегрессия

Вреальных задачах не всегда можно описать влияние входного фактора на выходной линейной регрессией.

Криволинейные модели регрессионного анализа.

1. Мультипликативная (степенная) модель описывается уравнением Y* = aXb. Для нахождения a и b используют МНК. Но перед этим предварительно производят выпрямление, для этого прологарифмируем и сделаем замену переменных:

lgY

*

 

~*

~

 

lg a blg X. Получим модель y

A bx. Используя

 

 

 

 

~*

 

A

~

 

 

x

 

y

 

 

 

 

МНК, найдем значения коэффициентов A и b. Затем вычислим a по формуле а = 10A.

2. Экспоненциальная модель описывается уравнением Y* = ea+bX. Аналогично поступаем и в этом случае:

lgY* = a + bX ~* . y a bX

3. Обратная модель имеет вид: 1/Y* = a + bX. Аналогично

~

~

поступаем и в этом случае: 1/Y y;

y a bX.

4. Показательная модель описывается уравнением Y* = abX. Сведем данную модель к линейной модели следующим обра-

зом: lg y* lg a xlgb. Используя МНК, найдем значения ко-

~*

A

B

y

 

 

эффициентов A и B. Затем вычислим a и b по формулам:

а= 10A; b = 10B.

5.Равносторонняя гипербола описывается уравнением Y* = a + b/X. В данной модели делаем замену переменной:

~

*

~

1/X X; Y

 

a bX.

На основании чего выбирают, какая модель лучше? Для этого нужно исследовать значения коэффициентов детерминации различных моделей и выбрать ту модель, где коэффициент детерминации максимальный.

55

Аналогично, как и при однофакторном регрессионном анализе, можно исследовать значимость влияния входного фактора на выходной при помощи дисперсионного анализа. Выдвигается гипотеза о незначимости коэффициента регрессии при уровне значимости = 0,05.

H0: b = 0; H1: b 0.

Коэффициент корреляции применим для анализа парной корреляции в линейной регрессионной модели. В данном случае он не применим. Индекс корреляции применяется в моделях криволинейного анализа вида: Y*(X) = f(X) + , где — случайная переменная. Обозначим через 2Y дисперсию выходного фактора Y, через 2f — дисперсию функции f(X), а через 2ост — остаточную дисперсию (дисперсию случайной величины ). Причем выполняется следующее равенство:

2Y = 2f + 2ост.

Индексом корреляции называется величина, определяемая

2f 2

отношением IY/X 1 ост .

Y2 Y2

Свойства индекса корреляции:

1.0 IY/X = 1.

2.Если IY/X = 0, то 2f = 0 или, иначе говоря, 2Y = 2ост, что означает отсутствие корреляционной связи между фактором

Xи фактором Y.

3.Если IY/X = 1, то 2ост = 0, что указывает на чисто функциональную зависимость между фактором X и фактором Y в

виде Y*(X) = f(X).

Квадрат индекса корреляции (коэффициент детерминации R2) показывает, какая доля общей дисперсии выходного фактора Y определяется дисперсией функции f(X), зависящей от фактора X. Иначе говоря, коэффициент детерминации определяет качество криволинейной регрессионной модели, т.е. меру адекватности подбора функции регрессии для аппроксимации исходных данных. Чем больше значение коэффициента детерминации, тем более адекватно описаны выборочные данные.

56

5.3. Многофакторная регрессия

Часто одна случайная величина Y зависит от k других случайных величин X1, X2, …, Xk.

Рассмотрим случай, когда зависимость линейная:

Y* = a + b1X1 + b2X2 + … + bkXk.

Это множественная регрессия, где Xj — это входные факто-

ры, j 1,k; bj — коэффициенты регрессии; a — свободный

член (неизвестные значения, которые надо найти). Пусть есть n наблюдений

(y1, x11, x21, …, xk1) (y2,x12,x22, …, xk2)

……………………

(yn, x1n, x2n, …, xnk).

Коэффициенты уравнения регрессии находим по МНК, минимизировав функционал

n

Ф(a,b1,...,bk) (yi* (a b1x1i ... bkxki))2 min.

i 1

Получаем систему нормальных уравнений:

Ф 0;а

Ф 0;b1

......

Ф 0bk

или

 

 

n

 

n

 

n

n

 

an b1

x1i

b2 x2i

... bk xki

yi;

 

 

 

i 1

 

i 1

 

i 1

i 1

 

 

n

n

 

 

n

 

n

n

a x1i

b1 x1i

2 b2 x1ix2i

... bk x1ixki

x1iyi;

i 1

i 1

i 1

 

i 1

i 1

 

 

.................................................

 

 

 

 

 

 

 

n

n

n

n

a xki b1 xki x1i b2 xki x2i ...

bk xki

i 1

i 1

i 1

i 1

n

2 xkiyi. i 1

57

Решив данную систему методом наименьших квадратов, находим неизвестные коэффициенты.

Для построения множественной регрессии часто используются и нелинейные модели вида:

1.Степенная модель — Y* aX1b1 X2b2 ...Xkbk .

2.Экспоненциальная модель — Y* ea b1X1 b2X2 ... bkXk .

3.Гиперболическая модель —

Y*

1

.

 

a b1X1 b2X2 ... bkXk

Можно использовать и другие функции, приводимые к линейному виду.

Обозначим через 2Y дисперсию выходного фактора Y, через 2f — дисперсию функции f(X) (для линейной модели

f(X) = a + b1X1 + b2X2 + … + bkXk), а через 2ост — остаточную дисперсию. Причем выполняется следующее равенство: 2Y =

=2f + 2ост.

Тесноту совместного влияния факторов на результат оце-

нивает индекс множественной корреляции

 

 

 

 

2

R

1

ост

,

 

Y/ X1, ...,Xk

 

 

 

2у

который лежит в пределах от нуля до единицы. Множественный коэффициент корреляции больше или равен модулю максимального парного коэффициента корреляции, т.е.

RY /X ,...,X

max

Y /X

 

.

1

k

i 1,k

 

i

 

Средний коэффициент эластичности аналогично, как и в однофакторном регрессионном анализе, является характеристикой влияния входных факторов Xi на выходной фактор Y. Для линейной модели средний коэффициент эластичности

вычисляется по формуле

Э

b

Xi

.

 

 

 

 

 

 

Y / X

i

 

i

 

Y

 

 

 

Качество построенной модели в целом оценивает коэффициент детерминации (индекс множественной детерминации), равный квадрату индекса множественной корреляции. Чем

58

больше значение коэффициента детерминации, тем более адекватно описаны выборочные данные.

Скорректированный (нормированный) индекс множественной детерминации содержит поправку на число степеней сво-

 

n 1

 

боды и рассчитывается по формуле R2 1 (1 R2)

,

 

 

n k 1

где n — объем выборки; m — число входных факторов.

В многофакторном регрессионном анализе выводы о влиянии входных факторов на выходной являются статистически значимыми, если входные факторы между собой независимы. Поэтому важно определить, коррелируют ли входные факторы между собой.

Рассмотрим матрицу межфакторной корреляции

 

1 X X ...

X X

 

 

 

1

2

1

k

 

 

X X

1 ...

X X

 

 

2 1

 

2

 

k

.

 

... ... ... ...

 

 

 

 

XkX1

XkX2

...

 

 

 

 

 

1

Если бы факторы не коррелировали между собой, то матрица межфакторной корреляции была бы единичной матрицей, поскольку все внедиагональные элементы равнялись бы нулю. Если же, наоборот, между факторами существует полная линейная зависимость, то все внедиагональные элементы равнялись бы единице. Получилась бы матрица, состоящая лишь из единиц. Определитель такой матрицы равняется нулю. Таким образом, получается, чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее входные факторы коррелируют (сильнее мультиколлинеарность факторов) и ненадежнее результаты множественной регрессии.

5.3.1. Проверка гипотез о незначимости модели в целом

Проверка гипотезы о незначимости модели в целом осуществляется аналогично проверке гипотезы о незначимости однофакторной регрессионной модели с помощью дисперсионного анализа (см. разд. 2.8.2). По величине коэффициента значимости F (вычисленному уровню значимости) можно делать выводы об отвержении гипотезы о том, что входные факторы не влияют на выходной фактор в целом (если j < , то

59

отвергается гипотеза о незначимости модели). R2 — это значение коэффициента детерминации, который определяет качество модели (чем он больше, тем модель лучше).

5.3.2. Проверка гипотез о незначимости входных факторов и свободного члена

Математически данную задачу можно сформулировать следующим образом:

H0: bj = 0, j 1,k; a = 0;

H1: bj 0, j 1,k; a 0.

Для проверки гипотезы вычисляют статистику tj и уровни значимости j, которые сравнивают с = 0,05, как и в однофакторном регрессионном анализе (см. разд. 2.8.2). Еслиj < , то отвергается гипотеза о не значимости влияния фак-

тора Xj на Y, j 1,k.

5.3.3. Выбор значимых факторов-аргументов

Исходный список входных факторов задается на этапе спецификации задачи на основе опыта и интуиции исследователя. Этот список в задачах экономического плана, как правило, избыточен. Встает задача его сокращения. При этом можно пользоваться различными показателями информативности

факторов Xj, j 1,k. В качестве таковых обычно используют

модуль коэффициента корреляции Y и Xj Y/Xj , либо значение t-статистики по модулю — | tj |.

Из формулы стандартной ошибки регрессии

E

 

SSE

n k

 

 

 

видно, что, увеличивая число параметров модели k, можно ухудшить качество модели, так как стандартная ошибка возрастет. Следовательно, из всего множества входных факторов {X1, X2, , Xk} в модель необходимо включать лишь наиболее

значимые (информативные) факторы Xj, j 1,k.

Алгоритмическая проблема выбора подмножества значимых факторов {Xj} усугубляется наличием статистической зависи-

60

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]