Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

9521

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
2.81 Mб
Скачать

Задаваясь уровнем значимости для проверяемой гипотезы H 0 , будем строить кри-

тическую область K kr в зависимости от вида единственной конкурирующей (альтернативной) гипотезы H1 в следующих случаях (рис.14.2):

Случай А: H1 { 2 02 } . В этом случае, при справедливости конкурирующей

гипотезы ожидаем сдвиг наиболее вероятных значений критерия K в большую сторону, поэтому критическая область будет правосторонней.

Рис. 14.2 Критические области гипотезы H 0 { 2 02 } .

Критическая точка k kr здесь однозначно определяется согласно общему подходу к

построению критических областей критерия из условия равенства вероятности ошибки I-рода заданному уровню значимости :

 

 

 

 

P(k kkr )

2 (k; n 1)dk

.

 

 

kkr

 

 

Решение этого уравнения kkr kr2

( ; n 1) находятся однозначно, и представ-

ляет собой правостороннюю квантиль «хи-квадрат» распределения случайной величины и приводится в приложении 4.

Случай Б: H1 { 2 02} . В этом случае критическая область критерия будет левосторонней, а критическая точка однозначно определяется из уравнения :

kkr

 

P(k kkr ) 2 (k; n 1)dk

 

0

 

Левосторонняя критическая точка может быть легко выражена через функцию

для

правосторонней

 

критической

точки.

Действительно,

т.к.

P(k kkr ) P(k kkr ) 1

, то

P(k kkr ) 1 и тогда решение для левосторонней

точки будет следующим

kkr

kr2 (1 ; n 1) .

 

 

 

Случай В: H1 { 2

02} . В этом случае, объединяющем два предыдущих слу-

чая,

критическая область критерия будет двухсторонней Kkr {k kkr1; k kkr 2}.

Однако, здесь критические точки kkr1, kkr 2

не определяется однозначно из уравне-

ния

 

 

 

 

 

 

 

 

 

kkr 2

 

 

 

 

P(k kkr1 ) P(k kkr 2 ) 1 2 (k, n 1)dk .

 

 

 

 

 

kkr1

 

 

 

Доказано [9], что при условиях P(k kkr1 ) / 2, P(k kkr 2 ) / 2 мощность критерия (1 ) по отношению к конкурирующей гипотезе H1 будет максимальной, тогда из этих двух условий критические точки находятся однозначно:

kkr1 2kr (1 / 2; n 1) ; kkr 2 2kr ( / 2; n 1) .

Рассмотрим числовой пример: Пусть по выборке объема n=15 получена оценка дисперсии наблюдаемой нормальной случайной величины S 2 40,25 или оценка среднеквадратического отклонения S 6,5. Поскольку, каждая оценка есть величина случайная (получена по конкретной случайной выборке), то проверим гипотезу о том, что истинная дисперсия наблюдаемой величины равна 36, т.е. H0 { 2 36} . Зада-

димся

уровнем значимости

гипотезы

H0 0,05и альтернативной

гипотезой

H1 { 2

36}.

 

 

 

 

 

 

Наблюдаемое значение критерия

knab (15 1)40,25 / 36 15,653 . Критическая

область K kr {k k1kr ; k k2kr }

двухсторонняя, а критические точки будут:

 

k

kr1

2 (1 0,025;14) 5,63; k

kr 2

2 (0,025;14) 26,1.

 

 

kr

kr

 

 

Видим,

что knab 15,653 не принадлежит критической области и значит,

гипотеза

принимается, т.е. отличия наблюдаемого значения дисперсии от гипотетического незначительны. Если бы, такая оценка дисперсии была получена по выборке меньшего объема n=7, то

k

kr1

2

(1 0,025;6) 14,4;

k

kr 2

2

(0,025;6) 1,24.

 

kr

 

 

kr

 

тогда наблюдаемое значение критерия knab 15,653 попадает в критическую область и тогда проверяемая гипотеза отвергается.

Отметим, что при проверке гипотез H 0 {a хВ } и H 0 { 2 S 2 } при уровне значимости будут построены двухсторонние критические области такими, что область принятия гипотез Kkr совпадет с доверительными интервалами, построенными с надежностью 1 .

2. Критерий согласия Пирсона

Критериями согласия называются критерии проверки статистических гипотез о виде распределения случайной величины. Проверяемая гипотеза имеет вид:

H0 {X ~ f Х (x, 1, 2 ,... r ) ,

где 1, 2 ,... r - принятые в гипотезе параметры распределения. Пирсон предложил и обосновал следующий критерий проверки гипотезы H 0 по отношению к единственной альтернативной противоположной гипотезе

H1 H 0 .

Пусть по полученной выборке хВ {xi , i 1, n} {x1 , x2 ,...xn } построена гистограмма наблюдаемых частот H Xn {hj , n j ; j 1, m}. Построим, так же теоретические частоты nTj для интервалов hj при условии справедливости проверяемой гипотезы H 0 . Теоретические частоты вычисляются через вероятность Pj нахождения случайной величины X в интервале hj (xj , xj 1) по формуле:

 

n

Т

 

 

 

 

 

 

x j 1

 

 

 

 

j

 

Р j

F (x j 1 ) F (x j )

f Х (x, s )dx hf (x j 0.5 , s ) ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

x j

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где F (x j )

- функция распределения для случайной величины X ,

h – шаг интерва-

лов гистограммы, x j 0.5 0,5 (x j x j 1 ) центры интервалов hj

гистограммы. Та-

ким образом, получим теоретические частоты

nT n P . Показано [9],

 

 

 

 

 

 

 

 

 

 

 

j

j

что величина :

 

 

 

 

m

 

(n

 

nT )2

 

 

 

 

 

 

j

 

j

m2 r 1 ,

 

 

 

 

 

 

T

 

 

 

 

 

j 1

 

 

 

n j

 

 

 

 

 

при достаточно большом объеме выборки имеет «хи-квадрат» распределение с m r 1 степенями свободы и может быть использована в качестве критерия для проверки гипотезы H 0 . Задаваясь уровнем значимости можем однозначно

определить правостороннюю критическую область критерия из уравнения

P( 2 2kr )

Его решение представляет собой правостороннюю квантиль «хи-квадрат» распре-

деления kr2

kr2

( , m r 1) и приведено в приложении 4.

Рис. 14.3. Критическая область критерия Пирсона.

Определив, таким образом, критическую точку 2kr , сравним ее с наблюдаемым

значением nab2

получим правило проверки гипотезы:

- если nab2

kr2 , то гипотеза принимается

(отклонения теоретических и наблюдаемых частот незначительны),

- если же 2nab 2kr , то гипотезу необходимо отвергнуть (отклонения частот значительны).

Числовой пример: Проверим гипотезу о нормальном распределении полуденных температур месяца мая для выборки, приведенной в лекции 10, при уровне значимости гипотезы 0,05. Вычислив выборочные характеристики

 

хВ 14,6

и

 

S 7,5 ,

примем их за оценки параметров нормального распределе-

ния. Таким образам проверяемая гипотеза такова:

 

 

 

 

 

 

 

H0 {X N (a, ); а хВ ; S} .

 

 

 

 

 

 

 

 

 

Учитывая, что для нормальной случайной величины Х

функция распреде-

ления имеет вид F(x)

 

1

 

Ф(

х а

) , где Ф(x) - функция Лапласа (приложение 2), то

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

для теоретических частот получим формулу:

 

 

 

 

 

 

 

Т

 

 

x

j 1

x

B

 

 

 

x

j

x

B

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n j n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

[Ф

 

 

 

 

 

 

Ф

 

 

 

 

]

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

S

 

 

 

 

 

S

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где x j

,

x j 1

– соответственно левая и правая границы каждого из интервалов h j

разбиения

 

данных в гистограмме. Все результаты приведем в таблице 8 и на

рис.14.4.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 8.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

h j

 

 

 

0-5

5-10

 

 

 

10-15

15-20

 

20-25

 

25-30

 

 

 

 

n j

 

 

 

 

 

3

 

 

 

6

 

 

 

 

 

 

 

 

8

7

 

3

 

4

 

31

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nТj

2,31

5,26

7,79

7,53

4,74

1,95

29,6

 

 

 

 

 

 

 

 

nab2

0,205

0,105

0.006

0,037

0,639

2,171

3,162

 

 

 

 

 

 

 

 

Рис. 14.4. Ги-

стограмма наблюдаемых частот и кривая теоретических частот.

По заданному уровню значимости проверяемой гипотезы H 0 определим критическую точку распределения «хи-квадрат» используя приложение 4. Получим,

что kr2 kr2 (0,05;6 2 1) 7,8 .

 

Поскольку nab2

3,162 kr2

7,8 , то гипотеза H 0 принимается (нет основа-

ний ее отвергнуть), т.к. отклонения частот незначительны.

Примеры заданий для проверки различных статистических гипотез для самостоятельной работы студентов приводятся в [12].

Лекция № 15 Элементы корреляционного анализа

Две случайные величины X и Y могут быть независимыми между собой, зависимыми строго функционально Y (X ) или зависимыми статистически. При статистической зависимости между случайными величинами распределение одной из величин зависит от того, какое значение имеет другая случайная величина. Степень статистической зависимости величин X и Y характеризует теоретический коэффициент корреляции Пирсона

 

 

 

 

M ( X Y ) M ( X ) M (Y )

,

 

 

XY

 

 

 

 

 

 

 

 

 

 

 

D( X ) D(Y )

 

 

 

 

 

 

обладающий следующими свойствами:

 

 

 

 

1)

его значение по модулю не превышает единицы 1 ХУ 1.

2)

для независимых величин X и Y

 

ХУ 0 ,

3)

для линейно зависимых величин

ХУ 1.

Сама статистическая зависимость описывается функциями условного распределения, например, для непрерывных случайных величин функциями плотности

условного распределения

f X (x

 

y) или

f y ( y

x) . Однако нахождение этих функций и их

 

практическое

использование

 

 

 

 

обычно затруднено и малоэффективно. Чаще

статистическая

зависимость

 

 

рассматривается в более простом виде, в виде

функциональной зависимости

 

числовых характеристик одной из величин от значения

другой величины. Такая

зависимость

называется корреляционной и описывается

функциями регрессии

ˆ

 

 

 

 

 

ˆ

Так например, наиболее часто используется

Y (x) или X ( y) .

регрессия в форме условного математического ожидания:

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

M (Y

 

х) yf y ( y

 

x)dy Y (x) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y

Корреляционная зависимость приближает статистическую зависимость функциональной зависимостью и имеет следующий вид:

ˆ

Y Y (x) .

Здесь Y - объясняемая переменная, x - значение объясняющей переменной X , а - случайная величина ошибки (невязки) корреляции с нулевым математическим ожиданием М ( ) 0 при любом значении х. Дисперсия же ошибки D( ) не нулевая, но при «хорошей» функции регрессии она не должна быть большой, и не должна зависеть от переменной х. Построение таких функций регрессии является задачей регрессионного анализа.

Для приближенного построения функции регрессии будем искать наилучшее в определенном, но довольно широком, m-параметрическом классе функций

U m {yˆ(x, 1 , 2 ,.. m )} таким образом, что бы дисперсия ошибки D( , 1 , 2 ,.. m ) как функция от параметров k была минимальной. Такое приближение называется средне-

квадратической регрессией в классе U m . Для приближенного построения функции регрессии можно так же воспользоваться данными наблюдений за величинами X и Y, полученными в выборке (хi , yi ) объема n. Такие оценки для функции регрессии уˆ(x)

ищутся так же в кассе U m , имеют минимальное суммарное отклонение от наблюдае-

мых значений yi , строятся методом наименьших квадратов и называются выборочной среднеквадратической регрессией.

1. Эмпирическая линейная среднеквадратическая регрессия

Линейная регрессия является простейшей регрессионной моделью, согласно которой функция регрессии является линейной 2-х параметрической функцией:

уˆ(x) а вх ,

где а, в - неопределенные коэффициенты, которые оценим по наблюдаемым данным. Пусть имеется двухфакторная выборка n наблюдений (хi , yi ) за величинами X и Y , которую будем называть корреляционным полем. Помимо выборочных средних зна-

чений х, у и выборочных дисперсий

Dx 2x , Dy 2y ,

вычислим так же среднее

 

 

 

 

 

произведение xy и выборочный

(эмпирический)

коэффициент корреляции

r xy x y , который является выборочным аналогом теоретического коэффициента

xy

x y

 

корреляции Пирсона XY .

 

Построим коэффициенты а, в методом наименьших квадратов. Для этого

найдем такие значения а, в , которые минимизируют сумму квадратов отклонения yi

и yˆi

yˆ(xi ) , то есть

ошибки ei yi

yˆi

n

n

 

n

 

 

ei2

( yi

yˆi )2

( yi a bxi )2

min .

i 1

i 1

 

i 1

 

a,b

 

 

 

Из необходимых условий минимума найдем искомые значения а, в :

 

n

n

 

 

 

 

 

 

 

 

 

 

 

ei2 2 ( yi

a bxi ) 0 ;

y а вх ;

a y вх ,

 

a i 1

i 1

 

 

 

 

 

 

 

 

 

 

 

n

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

xy

xy

 

 

 

 

аx вх 2 ; в

 

 

ei2 2 ( yi

a bxi )xi 0 ;

xy

 

.

 

 

 

 

 

 

b i 1

i 1

 

 

 

 

 

 

 

x 2 x 2

Через выборочный коэффициент корреляции rxy , коэффициент в представим в

форме в rxy y , а уравнение выборочной линейной среднеквадратической регрес-

x

сии имеет одну из следующих форм: yˆ(x) а вх ; yˆ(x) y в(х x) ;

ˆ

y

 

yˆ(x) y

 

(x x)

 

y(x) y rxy

x

(х x) ;

y

rxy

x

.

 

 

 

 

2. Свойства линейной регрессии и коэффициента корреляции

Построенная выборочная линейная среднеквадратичная регрессия является простейшим приближение корреляционной зависимости, показывает тенденцию (тренд) этой зависимости и изображается прямой на корреляционном поле, наименее уклоняющейся от его точек. Прямая линия регрессии yˆ(x) а вх проходит через

точку (х, у) , отсекает от оси х отрезок а , и имеет угол наклона с тангенсом равным в , как это изображено на рис. 15.1.

Рис. 15.1 Прямая линейной среднеквадратической регрессии

Выборочный коэффициент корреляции rxy характеризует степень корреляционной зависимости наблюдаемых величин Х и У и обладает следующими свойствами:

1)его значения по модулю не превышают единицы ( rxy 1),

2)для независимых Х и У коэффициент близок к нулю (rxy 0) ,

3)для линейно зависимых величин он близок к единице ( rxy 1) .

Геометрически он показывает «тесноту» корреляционного поля возле прямой линии регрессии, что иллюстрирует рис. 15.2 для различных значений коэффициента.

.

Рис. 15.2 Корреляционное поле для различных уровней корреляции величин

Из рис. 15.2 видно, что некоррелированной выборке (rxy

0) соответствует не-

ориентированное шаровое корреляционное поле, с ростом rxy

поле сжимается и ори-

ентируется к прямой линии регрессии. Знак коэффициента говорит о нарастающем или убывающем тренде зависимости.

 

Ошибки регрессии ei yi

ˆ

имеют нулевое среднее значение е 0 , так как

 

yi

 

 

 

y yˆ , и минимальную в соответствии с методом наименьших квадратов дисперсию

 

 

 

1

n

 

 

De

 

 

 

ei2 Dy (1 rxy2 ) , так называемую остаточную дисперсию, которая тем мень-

 

 

 

 

 

n i 1

 

 

ше, чем выше коэффициент корреляции. Величина выборочной дисперсии De является статистической оценкой для дисперсии ошибки D( ) , однако, это смещенная оцен-

ка. Несмещенной (исправленной) оценкой является величина S 2

n

D , величина

 

 

 

 

 

 

 

 

 

 

 

n 2

e

 

 

 

 

 

 

 

 

 

 

 

 

1

 

 

n

 

S (

 

ei2 )1/ 2 называется стандартной ошибкой регрессии. Ошибки для коэффи-

 

 

 

 

n 2 i 1

 

циентов регрессии вычисляются по формулам:

 

 

 

 

 

 

 

 

 

 

 

Sb2

 

S 2

 

, Sa2

x 2 S 2

.

 

 

n Dx

 

 

 

 

 

 

 

 

n Dx

 

В корреляционном анализе также вводится понятие коэффициента

детерминации

R 2 DY / DY , показывающего долю объясненной части дисперсии, объясняемой переменной Y. Поскольку Dy Dyˆ De , то коэффициент детерминации представим так же в следующем виде:

R 2 1 De r 2 ,

D y xy

показывающем его прямую связь с коэффициентом корреляции.

Известно [9] распределение случайных величин, связанных с введенными выше

коэффициентами при условии независимости величин

X и Y :

 

 

 

 

 

 

 

 

 

rxy n 2

 

tn 2 ~ распределение Стьюдента с n 2

степенями свободы,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1 r 2

 

 

 

 

xy

 

 

 

 

R 2 (n 2)

 

F1,n 2 ~ F-распределение Фишера с 1 1,

2 n 2 степенями свободы.

 

1 R

2

 

 

 

 

 

 

 

 

Эти величины используется для построения критериев значимости выборочных ко-

эффициентов rxy и R 2 , и их распределение

приводится приложениях 3 и 5 соответ-

ственно.

Действительно, например, задаваясь уровнем значимости проверяемой

гипотезы

H 0 { XY 0} , соответствующей

независимости величин Х и Y, можно

сравнить наблюдаемое значение критерия tnab с критическим значением tkr ( ) . Если tnab tkr ( ) , то гипотеза принимается, что говорит о незначимости выборочного ко-

эффициента корреляции, мало отличного от нуля. Если же tnab tkr ( ) , то гипотеза

отвергается, то есть выборочный коэффициент корреляции, а значит и уравнение регрессии, значимы. Значимость коэффициента корреляции говорит о том, что полученный по данной выборке коэффициент неслучайно отличен от нуля, а корреляционная зависимость между наблюдаемыми величинами существенна.

Аналогично строится критерий Фишера для проверки гипотезы H 0 {R 2 0} о значимости коэффициента детерминации R 2 :

если

 

Fnab Fkr ( ) , то гипотеза H 0

принимается, т.е. R 2 незначим.

Выводы критериев значимости rxy

и R 2 идентичны [9].

 

Значимость коэффициентов регрессии может быть оценена по критериям Стью-

дента

 

a

tn 2 ,

b

tn 2 .

 

 

 

Sa

 

 

 

 

 

 

 

 

 

Sb

 

 

 

 

 

3. О множественной

регрессии

 

На практике, объясняемая переменная Y часто зависит не от одной, а несколь-

ких объясняющих переменных

Х к . Пусть таких переменных будет m 1, и они

наблюдаются вместе с переменной Y в многофакторной выборке ( yi x1i , x2i ,..., xmi ) объема n. Построим выборочную линейную регрессию в форме:

уˆ(x1 , x2 ,...xm ) b0

b1 х1

b2 x2 ..... bm xm e .

 

 

 

 

 

 

 

 

(b0 , b1 ,b2 ,.....bm )Т , то ее

Если введем следующие

вектора

x (1, x1 , x2

,...xm ) , b

 

 

 

 

 

 

 

 

можно записать в векторном виде:

yˆ(x) x

b .

 

 

 

 

 

Х ,

 

 

 

 

Введем матрицу

измерений

вектор

измерения y и переменных

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ˆ

 

xi (1, x1i , x2i ,...xmi ) , а так же вектор регрессии y :

 

1

1

Х...

1

x11 x12

...

x1n

x21 x31 ...

x22 x32 ...

... ... ...

x2n x3n ...

x

m1

xm2

... ,

xmn

 

y1

 

 

 

 

 

 

 

 

 

 

 

y2

 

 

 

 

 

 

 

 

y

,

х

i

 

...

 

 

 

 

 

 

 

 

 

 

yn

 

 

 

 

xi1xi 2

...

xin

 

 

yˆ1

 

 

 

 

 

 

 

 

yˆ 2

 

,

ˆ

 

 

,

y

...

 

 

 

 

 

 

 

 

 

 

 

 

 

yˆ n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Тогда вектор регрессии будет

ˆ

X b

 

 

 

 

 

ˆ

y

, а ошибки регрессии e y y .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Построим оценки коэффициентов регрессии b методом наименьших квадратов,

для чего рассмотрим суммарную ошибку регрессии

 

 

 

2

T

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ei

e

 

 

ˆ

T

 

ˆ

 

 

T

( y

X b ) .

 

 

e ( y y)

 

( y y) ( y X b )

 

 

 

i 1

Подберем такие коэффициенты b , при которых суммарная ошибка регрессии минимальна, для этого рассмотрим условие минимума:

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]