Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

10075

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
3.88 Mб
Скачать

,

,

,

Рис. 2.4. Функции распределения величины Фишера

♠2.2 Статистические оценки

Пусть распределение наблюдаемой случайной непрерывной величины X

(признак

генеральной совокупности) задаётся функцией плотности вероятно-

сти f X (x, ) , где

параметр или параметры распределения. Допустим, что вид

функции

f X (x, )

известен или ограничен некоторым классом функций, а параметр

неизвестен и должен быть оценён по выборке хВ {xi , n} {x1 , x2 ,...xn } , где n

объём выборки.

Точечной статистической оценкой параметров распределения или характеристик наблюдаемой случайной величины X называется построенная по данным выборки объема n величина:

*n *n (x1 , x2 ,...xn ) .

Например, статистическими оценками математического ожидания величины могут быть такие оценки: m* xB , m* 0.5(xmin xmax ) или m* 0.75xmax .

Оценка *n является случайной величиной, т.к. зависит от случайной выборки. Для того, чтобы оценки, получаемые по данным различных выборок соответствовали истинному значению параметра , оценка должна удовлетворять следующим требованиям [8].

Оценка должна быть несмещенной, т.е. её математическое ожидание должно совпадать с истинным значением параметра для любого объёма n

М ( *n )

или хотя бы асимптотически несмещённой:

М ( * )

.

n

n

Оценка должна быть состоятельной,

т.е. с ростом объёма выборки оценка

должна сходиться по вероятности к истинному значению параметра:

 

 

 

 

 

 

P(

*

 

) 1

для любого 0 .

 

n

 

n

Для состоятельности оценки достаточно выполнения следующего:

D( * ) 0 .

n n

Построенная оценка для использования на практике должна быть эффективной, т.е. её дисперсия должна быть минимальной среди всех возможных оценок при фиксированном объёме выборки:

.

Коэффициент эффективности оценки

показывает степень эф-

фективности оценки *n , если , то говорят об асимптотической эф-

фективности оценки.

Отметим, что на практике не всегда удаётся удовлетворить всем перечисленным требованиям к оценке, но введённые свойства оценок позволяют проранжировать имеющиеся оценки по их качеству.

♠Как пример рассмотрим оценки математического ожидания M (X ) m и дисперсии D(X ) d наблюдаемой случайной величины Х.

Построим точечные оценки:

m* xB , d * DÂ

и рассмотрим их свойства.

Поскольку можно вычислить, что для оценки m* справедливо:

M (m* ) m ;

D(m* ) (d / n) 0

при n ,

то из этого следует несмещённость и состоятельность оценки m*. Рассматривая же оценку d* , можно получить что:

M (d * )

n 1

d d

;

D(d * )

1

0

.

 

 

 

n

 

 

n

n

 

 

 

 

 

 

Из чего следует состоятельность, но

смещённость оценки

d*. Смещёность оцен-

ки здесь легко может быть исправлена, если рассмотрим оценку:

 

d*

 

n

DÂ S 2 .

 

 

 

 

 

 

 

 

 

 

n 1

 

 

Оценка d* S 2 является уже не только состоятельной, но и несмещённой, так как M (d * ) d . Величина S 2 называется исправленной (несмещённой) выборочной

дисперсией, а величина S - исправленным среднеквадратическим выборочным отклонением (выборочный стандарт).

♠ В отличие от точечных оценок типа *n интервальные оценки задают интервал значений, где оцениваемый параметр находится с заданной вероятностью, т.е. это оценки типа P( θ θ*n ε) γ .

Надёжностью оценки (доверительной вероятностью) называется вероятность γ , с которой оцениваемый параметр находится в интервале:

*n *n .

Полуширина доверительного интервала называется точностью оценки, соответствующей надёжности . Для построения доверительного интервала (нахождения

по

величины )

необходимо знать закон распределения оценки случайной ве-

личины *n .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Пусть в выборке хB {xi ; i 1, n} наблюдается нормальная случайная величи-

на X N(m,σ) c неизвестными параметрами распределения m и

.

 

Построим доверительный интервал для математического ожидания m:

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

принимая за точечную оценку m,

величину m* õÂ

и учитывая, что величина

 

 

 

 

 

 

 

 

 

 

 

(õÂ m) /(S /

n) tn 1

имеет распределение Стьюдента с

n 1 степенью свободы.

 

ε) γ

относительно

при заданном значении

 

Решение уравнения P(

xB m

эк-

вивалентно решению уравнения:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

,

или Р(

t

t ) .

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Его

решение

 

получим

в

виде

 

t S /

 

n ,

где

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

двухсторонняя

квантиль Стьюдента (рис. 2.5).

 

 

 

 

 

 

 

 

 

 

Рис. 2.5. Двухсторонняя квантиль Стьюдента

Построим теперь доверительный интервал для среднеквадратического отклонения :

 

 

 

 

 

 

 

 

S S .

 

 

 

 

 

 

 

Принимая

за

 

оценку

 

 

величину

* S

и

учитывая,

что

величина

S 2 (n 1) / 2

n2

1 , имеет

2 -распределение

с

n - 1

степенью свободы.

Решение

 

 

 

при заданном параметре эквивалентно

уравнения P(

S

) относительно

решению уравнения:

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Р( 2

S 2 (n 1)

2 ) ,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

тогда получим

 

его

решение в

виде

S

n 1

S

n 1

,

где

величины

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

являются правосторонними «хиквадрат» квантилями (рис. 2.6).

Рис. 2.6. Двухсторонняя «хи-квадрат» квантиль

Пример. Наблюдается выборка полуденных температур в Мае объёмом n =31 со средним выборочным значением õÂ 14,87 и несмещённой дисперсией

S2 62.32 . Построить доверительные интервалы для неизвестного математического ожидания m и среднеквадратического отклонения при надёжности 0,95 .

Исправленное выборочное среднеквадратическое отклонение S 7.89 . Через обратное распределение Стьюдента находим

, тогда γ 2.042 7,89 /

 

 

31 2.894

и тогда доверительный интервал для математического ожидания m будет:

14.87+2.894 < m <14.87+2.894 или 11.976< m <17.674.

Для построения доверительного интервала среднеквадратического отклонения через обратное распределение «Хи-квадрат» находим

,

тогда:

 

 

 

 

 

 

 

 

6.305 7.89

31 1

σ 7.89

 

31 1

10.546 .

 

 

 

 

49.98

16.74

 

 

 

 

 

 

♠2.3. Проверка статистических гипотез

Имея дело со случайными величинами, в различных областях человеческой деятельности часто приходится высказывать предположения о виде распределения случайной величины или о значениях её параметров. Эти предположения строятся с целью прогнозирования поведения случайной величины и принятия решений в условиях неопределённости.

Статистической гипотезой называется любое предположение о виде распределения случайной величины f X (x, ) или/и о значении неизвестных параметров рас-

пределения :

H {X ~ f X (x, ); 0 } статистическая гипотеза.

Высказанная статистическая гипотеза должна быть проверена по результатам наблюдений (измерений) случайной величины [11], в результате чего, гипотеза принимается или отвергается с определённой степенью риска совершить ошибку. Примером статистической гипотезы может быть предположение о том, что наблюдаемая в выборке случайная величина является нормальной с определёнными значениями параметров:

H {X N (m, ); m xB ; σ S}.

Выдвинутая статистическая гипотеза Н должна быть проверена. Как и в любой другой науке, критерием её проверки является опыт, т.е. наблюдение (измерение) случайной величины. Критерий проверки должен отвергать или принимать гипотезу по результатам наблюдения. При этом могут быть совершены ошибки двух родов [6]:

1.Отвергнута верная гипотеза с вероятностью α ,

2.Принята не верная гипотеза с вероятностью β .

Исключить эти ошибки полностью невозможно («не ошибается тот, кто ничего не делает»), действительно рассмотрим два крайних критерия:

- «Ни чему не верю» β =0

- «Верю всему»

α =0, β =1

Гипотезу будем формулировать так что ошибки 1-го рода более значимы по своим последствиям. Так для гипотезы Н={В партии продукции недопустимо велик брак} ошибка 1-го рода есть пропуск бракованной партии на рынок и это приведет к серьезным последствиям (аварии, шумы, отравления ..). Ошибка 2-го рода состоит в забраковывании хорошей партии продукции, но это всего лишь экономические потери предприятия. Учитывая сказанное, при построении критерия проверки статистической гипотезы необходимо сначала задаться допустимым уровнем риска α на совершение ошибки 1 рода, как наиболее значимой, а затем минимизировать ошибки 2

рода β .

Пусть необходимо проверить гипотезу Н0 {X f X (x, )} , помимо основной гипотезы Н 0 («нулевой») рассмотрим ещё одну или несколько альтернативных гипотез Í 1, H2 , H3 ,.. каждая из которых противоречит основной. Построим критерий, однозначно принимающий или отвергающий проверяемую гипотезу

по полученной

в наблюдении за

случайной величиной

Х

выборке

хВ {x1 , x2 ,...xn }

объёма n. Критерий проверки гипотезы состоит

из двух со-

ставляющих:

 

 

 

 

Во-первых, в качестве критерия принимается некоторая случайная ве-

личина

с известным распределением

при условии справедливости основной

f K (k / H 0 )

и хотя бы частично известным для альтернативных гипотез

f K (k / H j )

j=1, ..m. Кроме того, значения критерия должны быть вычисляемы по наблюдаемой выборке хВ , т.е. знать .

Во-вторых, строится решающее правило для критерия проверки, согласно которому гипотеза будет приниматься или отвергаться. Для этого, назовем критической областью критерия те значения величины при которых гипотеза

отвергается. Критическую область будем обозначать К kr . Тогда решающее правило критерия проверки будет следующим:

отвергается (по наблюдаемой выборке),

принимается (нет оснований отвергать гипотезу).

Точки значения критерия где критическая область критерия проверки К kr от-

деляется от области принятия гипотезы, называются критическими точками критерия k kr . Как построить критическую область критерия?

Принцип максимального правдоподобия утверждает, что наблюдаемые события имеют большую вероятность и наоборот, маловероятные события ненаблюдаемые. Согласно этому принципу наблюдаемое значение критерия

должно иметь в рамках проверяемой гипотезы большую вероятность. В противном случае, если вероятность наблюдаемой величины мала, проверяемую гипотезу нужно отвергать в пользу иных альтернативных гипотез.

Зададимся вероятностью ошибки 1-го рода, как наиболее значимой. Исключить такую ошибку при проверке гипотезы невозможно ( 0 ), на практике обычно эту вероятность задают достаточно малой величиной 0,05; 0,025;0,005 и называют уровнем значимости гипотезы.

Если из условия

P(k Kkr ) f K (k / H 0 )dx

Kkr

можно определить критические точки k kr однозначно, то задача построения кри-

тической области критерия решена. В противном случае, когда ещё остаётся свобода выбора критических точек, рассмотрим влияние альтернативных гипотез.

Поскольку величина j - есть вероятность принять неверную гипотезу H 0 при условии справедливости альтернативной гипотезы H j , то

f K(k / H j )dx 1 j

Kkr

есть вероятность правильного отбрасывания H 0

при условии справедливости

H j и её называют мощностью критерия по отношению к альтернативной гипоте-

зе H j . Поэтому при заданном уровне значимости

, критическую область кри-

терия

нужно

строить так,

чтобы мощность критерия была максимальной

(1 j

) max

по отношению

ко всем альтернативным гипотезам.

Таким образом, критическими точками критерия являются квантили его распределения, определенные согласно уровню значимости проверяемой гипотезы.

Рис. 2.7. Двухсторонняя критическая область критерия

Кkr {k k2 , k k1} при наличии двух альтернативных гипотез H1 , Н 2

На рис. 2.7 приведена графическая интерпретация алгоритма построения критической области одномерного критерия. Видим, что структура критической области зависит от наличия альтернативных гипотез и их «расположения» относительно основной. Рассмотрим примеры.

Критерий Смирнова-Граббса. Рассмотрим проблему отсева грубых ошибок при измерении нормальной случайной величины. Пусть мы имеем нормальную выборку наблюдений объёмом n, а проверяемой гипотезой является гипотеза о не грубой ошибке при измерении элемента õj этой выборки. Тогда

, H1 H0 . Критерием для проверки гипотезы является величина Стьюдента

 

K

x j

xB

tn .

 

 

 

 

 

S

 

 

 

 

Вычисляя значение

и критическую точку при заданном уровне значимости α

проверяемой гипотезы

 

 

 

можно судить о гру-

бости данного измерения. Обычно на грубость измерения проверяются крайние точки наблюдений (максимальная и минимальная). Проверим на грубость измеренную максимальную температуру в рассмотренной выше выборке майских температурных измерений.

x j 30, xB 14.87, S 7.89, α 0.1 , ,

Видим, что при значимости проверяемой гипотезы в 10% критерий отклоняет её в пользу гипотезы H1 о грубости этого измерения. Таким образом, это измерение гру-

бое и его лучше убрать из выборки. Вывод критерия зависит от точности измерения (её объёма n) и значимости гипотезы, то есть риска ошибиться при отклонении верной гипотезы. Так, если уровень значимости гипотезы повысить до 5%, то , то измерение уже не является грубым.

Критерий Стьюдента о значимости измеренной величины. В статистиче-

ском анализе очень часто используются критерии о значимости оценок различных величин, построенных по выборке. Проверяемой гипотезой является гипотеза о том, что истинная теоретическая величина u равна нулю H0 {u 0} , а в наблюдениях ее

выборочный аналог uB отличен от нуля. Действительно ли наблюдаемое значение не

нулевое (значимое), или это произошло случайно на рассматриваемой выборке? Для ответа на этот вопрос очень часто в дальнейшем мы будем использовать критерий Стьюдента рис. 2.8 в виде:

u

K SB tn r ,

u

Рис. 2.8. Критерий Стьюдента проверки значимости величины

Здесь uB , Su статистическая оценка и её несмещённая ошибка, r количество степе-

ней свободы выборки, потерянных при построении оценки. Для удобства часто вводится понятие жёесткости критерия

.

Значимость проверяемой оценки имеет место быть при жёсткости G 1, когда проверяемая гипотеза о нулевом значении теоретической величины отвергается.

Например, в качестве проверяемой величины часто используется выборочный коэффициент корреляции между двумя выборками xB , yB одинакового объёма.

♠2.4. Критерий согласия Пирсона

Критериями согласия называются критерии проверки статистических гипотез о виде распределения случайной величины. Проверяемая гипотеза имеет вид:

H0 {X ~ f Х (x, 1, 2 ,... r ) ,

где 1, 2 ,... r - принятые в гипотезе параметры распределения. Пирсон предложил и обосновал следующий критерий проверки гипотезы H 0 по отношению к единственной альтернативной противоположной гипотезе H1 H 0 .

Пусть по полученной выборке хВ {xi , i 1, n} {x1 , x2 ,...xn } построена гистограмма наблюдаемых частот H Xn {hj , n j ; j 1, m}. Построим, так же теоретические частоты nTj для интервалов hj при условии справедливости проверяемой гипотезы H 0 . Теоретические частоты вычисляются через вероятность Pj нахождения

случайной величины X в интервале hj

(xj , xj 1) по формуле:

 

n

Т

 

 

 

x j 1

 

j

Р j

F (x j 1 ) F (x j

)

f Х (x, s )dx hf (x j 0.5 , s ) ,

 

 

 

 

 

 

n

 

 

 

 

x j

 

 

 

 

 

 

nTj n Pj

где F (x j ) - функция распределения для случайной величины X , h – шаг интервалов

гистограммы, x j 0.5

0,5 (x j

x j 1 ) центры интервалов hj гистограммы. Таким об-

разом, получим теоретические частоты.

Показано [9], что величина :

 

 

m (n

 

nT )2

 

 

 

 

j

 

j

m2 r 1 ,

 

 

 

 

T

 

 

 

j 1

 

n j

 

 

при достаточно большом объеме выборки имеет «хи-квадрат» распределение с m r 1 степенями свободы и может быть использована в качестве критерия для проверки гипотезы H 0 . Задаваясь уровнем значимости можем однозначно опре-

делить правостороннюю критическую область критерия из уравнения

P( 2 2kr )

Его решение представляет собой правостороннюю квантиль «хи-квадрат» распределения 2kr 2kr ( , m r 1) и приведено в приложении 4.

Рис. 14.3. Критическая область критерия Пирсона.

Определив,

таким образом, критическую точку kr2 , сравним ее с наблюдаемым

значением

nab2

получим правило проверки гипотезы:

-

если nab2

kr2 , то гипотеза принимается

(отклонения теоретических и наблюдаемых частот незначительны),

-

если же nab2

kr2 , то гипотезу необходимо отвергнуть

(отклонения частот значительны).

Числовой пример: Проверим гипотезу о нормальном распределении полуденных температур месяца мая для выборки, приведенной в лекции 10, при уровне зна-

чимости гипотезы 0,05. Вычислив выборочные характеристики хВ 14,6 и S 7,5 , примем их за оценки параметров нормального распределения. Таким образам проверяемая гипотеза такова:

H0 {X N (a, ); а хВ ; S} .

Учитывая, что для нормальной случайной величины Х функция распределения имеет вид F (x) 12 Ф( х а ) , где Ф(x) - функция Лапласа (приложение 2), то для теоретических частот получим формулу:

Т

x

j 1

x

B

 

x

j

x

B

 

 

 

 

 

 

 

 

 

 

 

n j

 

 

 

 

 

 

 

 

 

n [Ф

 

 

 

 

Ф

 

 

]

,

 

 

 

S

 

 

 

S

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

где x j , x j 1 – соответственно левая и правая границы каждого из интервалов h j

разбиения

данных в гистограмме. Все результаты приведем в таблице 8 и на

рис.14.4.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 8.

 

 

 

h j

0-5

5-10

10-15

15-20

20-25

25-30

 

 

 

n j

3

6

8

7

3

4

31

 

 

nТj

2,31

5,26

7,79

7,53

4,74

1,95

29,6

 

 

 

 

 

 

 

 

 

 

 

 

nab2

0,205

0,105

0.006

0,037

0,639

2,171

3,162

 

 

 

 

 

 

 

 

 

 

 

Рис. 14.4. Гистограмма наблюдаемых частот и кривая теоретических частот.

По заданному уровню значимости проверяемой гипотезы H 0 определим критическую точку распределения «хи-квадрат» используя приложение 4. Получим,

что kr2 kr2 (0,05;6 2 1) 7,8 .

 

Поскольку nab2

3,162 kr2

7,8 , то гипотеза H 0 принимается (нет оснований

ее отвергнуть), т.к. отклонения частот незначительны.

Примеры заданий для проверки различных статистических гипотез для самостоятельной работы студентов приводятся в [12].

♠2.5. Критерий однородности выборок.

Часто приходится сравнивать две или несколько нормальных выборок

x {xi ;i 1..nx } b y {yi ;i 1..ny }

на их идентичность (наблюдаемость в них одой и той же величины).

Проверим гипотезу об равенстве дисперсии Н0={ х2= у2}. В качестве критерия примем величину К, распределенную при условии

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]