Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9789

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
3.22 Mб
Скачать

то это означает наличие между переменными линейной, функциональной связи:

прямой в случае (+1) и обратной в случае (-1).

Оценивая значение коэффициента корреляции по выборочным данным, мы должны быть уверены в надежности такой оценки. Обычно это осуществляется с помощью проверки гипотезы H0: = 0 на основе критерия Стьюдента:

t

r

 

n 2

 

с n-2 степенями свободы ( – теоретическое значение коэффици-

 

 

 

 

 

1 r2

 

 

 

 

ента корреляции, вычисленное по всем элементам генеральной совокупности).

Если расчетное значение этого критерия окажется больше критического (опре-

деляемого по таблице значений t-статистики), то нулевая гипотеза о равенстве нулю теоретического значения коэффициента корреляции отклоняется. При компьютерных расчетах вместе с оценками коэффициентов корреляции обычно рассчитываются и выборочные уровни значимости для статистик Стьюдента.

Если расчетное значение уровня значимости (р-величина) для какого-либо вы-

борочного коэффициента корреляции окажется больше фиксированного уровня значимости, например, 0,05, то гипотеза Ho не отклоняется, и в этом случае го-

ворят, что коэффициент корреляции не значимо отличен от нуля и, следова-

тельно, линейная зависимость отсутствует. В противном случае говорят, что коэффициент корреляции значимо отличен от нуля, что означает наличие ли-

нейной корреляционной связи между соответствующими переменными.

Количественное описание связи корреляционно связанных величин осу-

ществляется на основе регрессионного анализа. Одной из предпосылок регрес-

сионного анализа является предпосылка независимости объясняющих перемен-

ных. Ясно, что это практически невыполнимо, но уж совсем нежелательно, что-

бы между независимыми переменными наблюдалась тесная корреляционная взаимосвязь. В этом случае говорят о коллинеарности переменных. Считается,

что две случайные переменные коллинеарные, если коэффициент корреляции между ними не менее 0,7. Если таких переменных несколько, то говорят о

21

мультиколлинеарности. Мультиколлинеарность – нежелательное явление в ре-

грессионном анализе, и ее выявление является одной из задач анализа матрицы парных коэффициентов корреляции.

Матрица парных коэффициентов корреляции состоит из коэффициентов корреляции, рассчитанных для набора переменных y, x1, x2,….., xm и размещен-

ных в виде матрицы. В дальнейшем переменную y будем называть зависимой, а

остальные – независимыми. Поскольку rxy = ryx, то корреляционная матрица симметрична относительно главной диагонали. Поэтому естественно анализи-

ровать только одну из частей корреляционной матрицы (верхнюю или нижнюю

относительно главной диагонали). Пусть корреляционная матрица R имеет вид:

 

 

y

 

x1

x2

 

 

xm

 

 

 

y

1

ry x

ry

x

 

...

ry x

 

 

 

 

 

 

1

2

 

2

 

m

m

R

x1

rx1y

1

rx1x2

...

rx1xm

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

rxm x1

rxn x2

 

 

 

 

 

x m rxm y

...

1

 

.

Договоримся в дальнейшем анализировать верхнюю часть матрицы. Пер-

вая строка матрицы содержит коэффициенты корреляции между зависимой пе-

ременной y и независимыми переменными х1, х2, …, xm. Коэффициенты этой строки анализируют с целью выявления значимых и незначимых независимых переменных. Значимость независимой переменной здесь понимается с точки зрения влияния ее на зависимую переменную. Если проверка гипотезы Н0: yx

= 0 покажет, что коэффициент корреляции незначимо отличен от нуля, то это означает, что соответствующая независимая переменная незначимо влияет на зависимую переменную, т. е. незначима, и является кандидатом на исключение из регрессии.Второй этап анализа матрицы парных коэффициентов корреляции заключается в выявлении мультиколлинеарности среди независимых перемен-

ных. Для этого просматривается оставшаяся часть матрицы R (кроме первой строки) и выделяются коэффициенты, по величине 0,7. Они и укажут на кол-

22

линеарные переменные. Обычно в уравнение регрессии коллинеарные пере-

менные не включаются.

Уравнение линейной регрессии

Если в регрессионном анализе рассматривается пара переменных, одна за-

висимая и одна независимая, то говорят о простой (парной) регрессии. Если не-

зависимых переменных более одной, то говорят о множественной регрессии.

В дальнейшем будем рассматривать только линейную регрессию. Пусть рассматривается совокупность переменных y, x1, x2, … , xm, причем, будем счи-

тать, что y – зависимая переменная, а x1, x2, … , xm – независимые. Для этих пе-

ременных уравнение множественной линейной регрессии (как оценка модели)

может быть записано так:

y = a + b1x1 + b2x2 + …+ bmxm + е,

где а – оценка свободного члена уравнения регрессии;

bk – оценки коэффициентов регрессии при переменных xk;

е – отклонения фактических значений зависимой переменной от расчет-

ных.

Если расчетные значения обозначить через y, то y= a + b1x1 + … + bmxm .

Тогда: y = y + е или е = y –y. В дальнейшем е будем называть остатками.

Итак, а и bk (k = 1, m ) – оценки параметров уравнения регрессии, получае-

мые обычно на основе метода наименьших квадратов (МНК).

Свободный член уравнения регрессии обычно не интерпретируется. Коэф-

фициенты уравнения регрессии показывают, на сколько в среднем изменится значение зависимой переменной (в своих единицах измерения), если значение соответствующих независимых переменных изменится на единицу (в своих единицах измерения) при фиксированных значениях других независимых пе-

ременных. Но это так, если выполняется основная предпосылка регрессионного анализа, т.е. если объясняющие переменные не зависят между собой, иначе смысл этих коэффициентов искажается. В случае же мультиколлинеарности ко-

23

эффициенты уравнения регрессии вообще теряют какой-либо смысл.

Сопоставимость коэффициентов уравнения регрессии в случае разных единиц измерения достигается при рассмотрении стандартизованного уравне-

ния регрессии:

y0 = 1x10 + 2x20 + … + mxm0 + е ,

 

где y0 и x0k – стандартизованные значения переменных y

и xk:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

0

 

 

y y

 

 

0

 

x x k

 

 

 

y

 

 

 

 

,

x k

 

 

 

,

 

 

 

Sy

Sx

 

 

 

 

 

 

 

 

 

 

 

 

k

 

 

 

где

 

Sy и

S x

k

– стандартные отклонения переменных y

и xk, а k – -

 

 

 

 

 

 

 

 

 

 

 

 

 

 

коэффициенты уравнения регрессии. -коэффициенты показывают, на какую часть своего стандартного отклонения Sy в среднем изменится зависимая пере-

менная y, если независимая переменная xk изменится на величину своего стан-

дартного отклонения S xk (при прочих равных условиях). Оценки параметров уравнения регрессии в абсолютных показателях (bk) и β–коэффициентов связа-

ны соотношениями:

βk bk Sx k .

Sy

При анализе воздействия на моделируемый признак показателей, вклю-

ченных в уравнение регрессии, наравне с -коэффициентами используются также коэффициенты эластичности:

Эk bk xk , которые показывают, на сколько процентов в среднем изме-

y

нится зависимая переменная, если соответствующая независимая переменная изменится на один процент (при прочих равных условиях).

Оценка точности уравнения регрессии

Как уже отмечалось, оценки параметров уравнения регрессии вычисляются по выборочным данным и лишь приближенно оценивают эти параметры. В свя-

зи с этим появляется необходимость оценить точность как уравнения регрессии

24

/2,m,n-m-1

в целом, так и его параметров в отдельности. При решении первой задачи ис-

пользуют процедуру дисперсионного анализа, основанную на разложении об-

щей суммы квадратов отклонений зависимой переменной: SST (y y)2 на две составляющие, источниками которых являются отклонения за счет регрес-

сионной зависимости (SSR) и за счет случайных ошибок (SSE), причем

SSR (y

 

 

 

а SSE (y y) 2 .

y)2

,

Как известно, SST=SSR+SSE

или (y

 

 

 

( y

 

 

y)2

 

y)2 (y y) 2 .

Аналогичное разложение имеет место и для степеней свободы соответ-

ствующих сумм:

dfT = dfR + dfE ,

где dfT = n-1 – общее число степеней свободы;

dfR = m – число степеней свободы, соответствующее регрессии (m – число независимых переменных в уравнении регрессии);

dfE = n-m-1 – число степеней свободы, соответствующее остаткам.

Разделив соответствующие суммы квадратов на степени свободы, получим

средние квадраты или оценки дисперсии 2 , которые сравниваются по крите-

рию Фишера ( F MMSRSE ). При этом проверяется гипотеза о равенстве нулю од-

новременно всех коэффициентов регрессии против альтернативной гипотезы:

не все коэффициенты регрессии равны нулю. Если F > F, т. е. таблич-

ное значение критерия больше расчетного, то уравнение регрессии значимо, и

не все коэффициенты уравнения регрессии равны нулю. В противном случае уравнение регрессии не значимо. В этом случае уравнение регрессии ничего не дает для предсказания зависимой переменной и не может быть использовано в анализе.

При компьютерных расчетах вместе со статистикой Фишера рассчитыва-

ется р-величина, которую сравнивают с фиксированным уровнем значимости и

25

на этой основе делают вывод о значимости уравнения регрессии. Если р-

величина меньше фиксированного уровня значимости, то уравнение регрессии значимо.

Дисперсионный анализ регрессии проводится в таблице вида:

Таблица дисперсионного анализа регрессии.

Источник

Сумма квад-

Степени

Средние

F- отноше-

р-величина

 

ратов

свободы

квадраты

ние

 

модель

SSR

m

MSR

F= MSR

 

ошибки

SSE

n – m - 1

MSE

 

MSE

 

 

 

 

 

 

 

 

общая

SST

n - 1

 

 

 

 

 

Если нулевая гипотеза отклонена, встает вопрос о значимости каждого ко-

эффициента регрессии в отдельности, т.е. необходимо выяснить, какие из ко-

эффициентов регрессии равны нулю, а какие значимо отличны от нуля.

Такая проверка осуществляется на основе статистики Стьюдента, вычис-

ленной для свободного члена и для каждого коэффициента регрессии.

Статистика Стьюдента для свободного члена уравнения регрессии вычис-

ляется по формуле ta = a / Sa ,

где Sa – стандартная ошибка свободного члена уравнения регрессии:

Sa S Y,X/n .

Для коэффициентов регрессии t-статистики равны: tbk = bk / S bk ,

где S bk – стандартные ошибки коэффициентов регрессии:

Sb2k

 

S y2, x

 

,

S

2

 

 

 

 

x

n

 

 

 

k

 

 

 

Вычисленные статистики Стьюдента сравниваются с критическими значе-

ниями t , / 2 , найденными по таблице t – распределения с фиксированным и

степенями свободы = n – 1.

26

Если, например, tbk >t , / 2 , то это означает, что коэффициент при

переменной xk в уравнении регрессии значимо отличен от нуля и влияние переменной xk на моделируемый показатель можно признать значимым. При компьютерных расчетах вместе со статистикой Стьюдента вычисляется и вы-

борочный уровень значимости или р-величина. По ее значению и определяется значимость каждого параметра уравнения регрессии.

Показатель MSE является одной из характеристик точности уравнения ре-

грессии и называется остаточной дисперсией. Корень квадратный из MSE

называется стандартной ошибкой оценки регрессии (Sy,x) и показывает, какую ошибку в среднем мы будем допускать, если значение зависимой переменной будем оценивать по уравнению регрессии на основе известных значений неза-

висимых переменных. Итак,

 

 

 

(y y)2

SY,X

M SE

.

 

 

 

n m 1

Кроме того, этот показатель в неявном виде участвует в определении ко-

эффициента множественной детерминации (R2), т. к.

R2 1

SSE

=

SST SSE

 

SSR

.

SST

 

 

 

 

SST

 

SST

Отсюда следует смысл коэффициента множественной детерминации. Он показывает долю вариации результативного показателя, обусловленную вариа-

цией включенных в уравнение регрессии независимых переменных. Коэффици-

ент множественной детерминации обычно выражают в процентах, поэтому,

например, если R2 = 75 %, то это означает, что изменение зависимой перемен-

ной на 75 % объясняется изменением включенных в уравнение регрессии неза-

висимых переменных, а остальные 25 % – это изменения, обусловленные не-

учтенными факторами, в том числе и случайными отклонениями (ошибками).

Корень квадратный из коэффициента множественной детерминации назы-

вается коэффициентом множественной корреляции:

27

R

1

SSE

.

 

 

 

SST

Radj2
Radj2

Коэффициент множественной корреляции показывает тесноту линейной корреляционной связи между зависимой переменной и всеми независимыми переменными. По сути дела, это коэффициент корреляции между фактически-

ми и расчетными значениями зависимой переменной.

Ясно, что R2 изменяется от нуля до единицы и равен единице, если SSE =

0, т. е. когда связь линейная функциональная, и равен нулю, если SST = SSE, т.

е. когда связь отсутствует.

Значимость коэффициента множественной детерминации определяется на

основе критерия Фишера: F

R 2

(n m 1)

с m степенями свободы числителя и

(1

R 2 ) m

 

 

(n–m–1) степенями свободы знаменателя.

Известно, что коэффициент множественной детерминации является завы-

шенной оценкой точности уравнения регрессии, поэтому разработана преобра-

зованная форма этого коэффициента, имеющая вид: R2

1 (1 R2 )

n 1

,

 

 

adj

 

n m 1

 

 

 

 

где – исправленное (adjusted) (c учетом степеней свободы) значение коэффициента множественной детерминации.

В отличие от R2 , будет убывать, если в уравнение регрессии будут добавляться незначимые независимые переменные.

Исправленный коэффициент детерминации всегда меньше неисправленно-

го и является несмещенной оценкой для коэффициента множественной детер-

минации.

Как уже отмечалось, одной из предпосылок МНК является независимость отклонений e = y y друг от друга. Если это условие нарушено, то говорят об автокорреляции остатков.

Разработано несколько методов проверки на автокорреляцию остатков.

Большинство статистических пакетов прикладных программ используют метод Дарбина–Уотсона. Он основан на гипотезе о существовании автокорреляции

28

остатков между соседними членами ряда. Этот критерий использует статистику

 

n

εi 1)2

 

i

d

i 2

 

 

.

 

n

2

 

 

 

 

εi

 

 

i 1

 

 

Для d-статистики найдены критические границы (du – верхняя и dl – ниж-

няя), позволяющие принять или отклонить нулевую гипотезу об отсутствии ав-

токорреляции при фиксированном уровне значимости , известном числе не-

зависимых переменных m и объеме выборки n.

Процедура принятия и непринятия гипотезы об отсутствии автокорреля-

ции в остатках изображена на рисунке ниже.

Критическая

 

Область не-

Область

при-

Область

не-

Критическая

область

 

определенно-

нятия гипоте-

определенно-

область

(есть автокор-

 

сти

зы

 

сти

 

(есть автокор-

реляция)

 

 

(нет

авто-

 

 

реляция)

 

 

 

корр.)

 

 

 

 

 

 

 

 

 

 

 

 

dl

du

 

4-du

 

4-dl

 

Рис. Процедура принятия решения об автокорреляции остатков.

 

Если вычисленное значение d–статистики попало в область неопределен-

ности критерия, то это означает, что нет статистических оснований ни откло-

нить, ни принять нулевую гипотезу об отсутствии автокорреляции в остатках.

Если с помощью критерия Дарбина–Уотсона обнаружена существенная автокорреляция остатков, то необходимо признать наличие проблемы в опреде-

лении спецификации уравнения и либо вернуться к набору включаемых в урав-

нение регрессий переменных, либо к форме регрессионной зависимости.

Раздел 5. Теоретические основы построения имитационных моделей

(ИМ). Метод статистического моделирования.

Основные вопросы, рассматриваемые на лекции:

Метод имитационного моделирования и его особенности. Возможности,

29

область применения имитационного моделирования. Основные понятия имита-

ционного моделирования. Сущность моделирования как статистического экс-

перимента. Основные этапы имитационного моделирования Формулировка проблемы и определение целей имитационного исследования. Разработка кон-

цептуальной модели объекта моделирования. Формализация имитационной мо-

дели. Программирование имитационной модели. Сбор и анализ исходных дан-

ных. Испытание и исследование свойств имитационной модели. Направленный вычислительный эксперимент на имитационной модели. Анализ результатов моделирования и принятие решений. Имитационное моделирование систем со случайными исходами. Метод статистических испытаний (статистическое мо-

делирование на ЭВМ, метод Монте-Карло). Генерация случайных чисел с раз-

ным законом распределения. Применение метода Монте-Карло в имитацион-

ном моделировании. Общие представления об оценке точности результатов,

полученных методом Монте-Карло. Моделирование случайных процессов. Ис-

пользование законов распределения случайных величин при имитации эконо-

мических процессов. Моделирование зависимых и независимых событий. Ста-

тистические характеристики случайных параметров имитационной модели.

Псевдослучайные числа и процедуры их машинной генерации (метод середин-

ных квадратов, конгруэнтные процедуры, мультипликативный метод). Вычис-

ление статистических характеристик случайных параметров имитационной мо-

дели.

Метод Монте-Карло.

Метод Монте-Карло основан на статистических испытаниях и по своей сущности является экстремальным. Он может применяться и для решения пол-

ностью детерминированных задач, например решение дифференциальных уравнений в частных производных или численное интегрирование. В рамках метода Монте-Карло статистические результаты получаются путем повторяю-

щихся испытаний. Вероятность того, что результаты отличаются от истинных не более чем на заданную величину, есть функция количества испытаний. В ос-

30

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]