Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладная статистика

..pdf
Скачиваний:
7
Добавлен:
12.11.2023
Размер:
9.53 Mб
Скачать

Рис. 8.8

Пользуясь критерием Вил конеона, можно принять нулевую гипотезу даже в случае очевидно разных генеральных совокуп­ ностей.

Пример. Пусть выборки таковы:

X -5 -3 -2 -1

0 1 2 3 4 5 6 -

- -

У 0,1 0,15 0,2 0,25 0,3 0,35 0.4 0,45 0,5 0,55 0,6 0,65 0.7 0,75 о,»

Решение. Ясно, что они извлечены из разных генеральных совокупностей. Посмотрим, что даст применение критерия Впякоксона:

- 15*6 = 90; Щи) = 12*15/2 = 90;

Щц) = 12*15*28/12 = 420; ф ) = 20,5.

Так как просто совпадает с математическим ожиданием Д м ), ширина области принятия гипотезы //0 не имеет значения. Экспериментальное значение попадает в самую середину этой области, а нулевую гипотезу следует считать верной, хотя она очевидным образом неверна.

181

А3.2.3. Критерии энпкие

Этоткритсрзщ применяют аслучае попарно связанных выбо­ рок. Такая ситуация возникает, например, когда у и объектов из­ меряется некоторый параметр двумя приборами. Тогда для 1-го объекта имеем два результата: я, — показание первого прибора; у, — показание второго прибора, 1= 1 , 2 , . н. Нужно проверить нулевую гипотезу о тождественности законов распределения случайных величин А'и У— ошибок измерения — при исполь­ зовании первого н второго приборов.

Пусть значениях.,^ извлечены из одной генеральной сово­ купности. Если эта генеральная совокупность распределена по непрерывному закону, то

/>(*, >у) =р(*,< у) = 0.5; р{х. = у) = 0. = 1,2.3... /г.

Событие {х. >у. } обозначим знаком «+»; событие {х < >•} — знаком «-». В силу сделанных предположен ий случайная вели­ чина х — число появлений знака «+» в и независимых испытани­ ях — имеет биномиальное распределение, причем вероятность появления «успеха» р = 0,5.

Задача сводится к проверке нулевой гипотезы # 0: р = 0,5 против одной из альтернативных (Иа1 : р < 0,5; И 2 : р > 0,5; Н *:рФ 0,5). Если верна кулевая гипотеза, то случайная величи­ на г принимает значения 0 ,1 .......л с вероятностями р(г = к) = = С*я (0,5)-, А= О, I , ... л.

Критическая область и область принятия гипотезы Н0в слу­ чае альтернативной гипотезы р < 0,5 показаны па рис. 8.9.

Замечание. Вследствие ошибок округления может возник­ нуть ситуация, когда х = уу Такие пары просто исключаются из рассмотрения, соответственно уменьшается объем выборок.

Пример. Предполагается, что один из двух приборов, опре­ деляющих скорость автомобиля, систематически завышает ее. Для проверки этого положения определили скорость 10 автомо­ билей, причем скорость каждого фиксировалась одновременно

двумя приборами. Получены следующие данные:

 

 

 

Л\км/ч

70

85

63

54

65

80

75

95

52

55

УрКи/ч

72

86

62

55

63

80

78

90

53

57

182

А(> (г= к)

Область приютил Ко

Критических

область

^ Р (г =к) =}-*а

^ р ( т =*)=СС 1-0

 

 

 

 

*

0 1 2

кЬр

к.,+1

п-2 п-1 п

к

Н,:|кО,$.

Рис. 8.9

Завышает ли второй прибор значения скорости? Принял, а =0,1. Решение. Применим критерий знаков» считая» что показания

приборов нс зависят друг от друга. Так как один раз показания приборов совпали» этот случай нс рассматривается. Объем вы­ борки и = 9» причем показания первого прибора три раза {к = 3) были больше показаний второго и б раз оказались меньше. Про­ веряется нулевая гипотезаИ0:р - 0,5 против альтернативной Нв: р < 0,5. В предложении справедливости # 0вычислим несколько первых вероятностей р{г - к) для к = 0 , 1 , 2 , :

р(2 - 0) - С®9{0,5)9

= 0,002;

р(г - 1) - ^,(0,5)* = 0Я018;

р{2 = 2} = С%(0,5)9

= 0,070;

р(г = 3} = С^(0,5)5 - 0,164-

Таким образом, X д(г = Л) = 0,09, Х р (г = к) - 0,25. Крити­ ческим значением следует признать число к = 2. Так как экс­ периментальное значение статистики г равно 3, гипотеза Н0 не противоречит результатам наблюдений. Различия в показаниях приборов вызваны случайными ошибками.

Мощность критерия знаков, так же, как к критерия Вилкоксона, нс велика. Вычислим, например, вероятность ошибки в то

рого рода ц предположении, что второй прибор все-гаки завы­ шает истинное значение скорости. Пусть вероятность события (*1 > >|} равна 0,4. Если объем выборки л = 9, то неверная нуле­ вая гипотеза Н0 ; р = 0,5 будет принята, если показания первого прибора не менее трех раз превзойдут показания второго. Веро­ ятность этого события:

р ( г > 3) = 1 - (р(г < 3) = 1 - (р(г = 2) + р (2

= \)+ р(г= 0)).

р(г= 2) = С29 к (0,4У * (0,б)7= 0,16;

р{х = I ) =

= С'9х (0,4)' к (0,6)*- 0,06.

р{2 - 0) = х (0,4)® X (0,6)*= 0,01. Тогда > 3) = 1 - 0,23 =* 0,77.

В 77% случаев критерий знаков «ошибается», считая, что различие в показаниях приборов случайно.

8.3.3. Проверка гипотезы о независимости двух дискретных случайных величии

Пусть ^ и У— две дискретные случайные величины, причем X принимает к разных значении л*2, ..., лк с вероятностями р,, р 2У... , р к соответственно, а Упринимает /различных значений у,,

у2>...,у : с вероятностями ц д

^соответственно.

Случайные величины л и Уназываются иезавиюмыми тогда

н только тогда, когда справедливо соотношение; ’

р {Х —Хр У~Уу)

I - К 2,

А» ] ~ 1» 2,..., /.

Требуется описать процедуру проверки нулевой гипотезы о независимости случайных величин X и У.

Далее мы будем достаточно широко трактовать понятие «значения» случайной величины. Как и в современных алгорит­ мических языках, иод значением мы будем понимать не толь­ ко число, но и, например, символьную строку вида «да», «нет», «одобряю» и т,п, У случайной величины, принимающей подоб­ ные «значения», нет, конечно, числовых характеристик, как нет и функции распределения. Но для нас важно только наличие «закона распределения»: перечня «значений» и соответствую­ щих им вероятностей.

Опишем выборку, на основании которой осуществляется про­ верка. Итог каждого эксперимента — пара (х(, где х{— зна-

184

ченне случайной величины X, которое она приняла в результате этого эксперимента;^— значение, принятое случайной величи­ ной У. Выборка объема и состоит из п таких пар. Вели у случай­ ной величины X к разных значений, а у случайной величины У I разных значений, всего возможно к * I разных сочетаний вида (х, у). Обозначим частоту каждого такого сочетания через г?у. Одновременно обозначим через п{частоту значения дг, (сколько раз о п экспериментах случайная величина ЛТ приняла значение

х,), через иг— частоту значения у., \ -

1,2,

 

/ = 1,2,

 

 

к

г

 

 

к

 

'

 

 

 

 

Ясно, что

X

X

« г= »;

X к .= и;

г? щ - л;

 

 

 

 

 

I

 

 

 

I

 

= т ..

 

 

 

 

 

Х и

*

= н ;

Х и

К

 

 

 

 

 

1=1

 

*

1-1

/

 

 

Результаты л экспериментов можно представить в виде так

называемой таблицы сопряженности признаков размера к *

1:

 

 

 

 

 

 

 

 

 

г

 

 

 

Ул

 

Ух

 

 

 

Уг

 

X п„ - я .

 

 

 

 

 

 

 

 

 

 

1-1

 

 

•г »

 

 

«11

 

 

 

 

 

 

л,

 

 

 

 

 

 

 

 

 

 

 

х !

 

 

 

 

 

 

 

 

 

" .

 

......... ......... ......... ..... Г..

 

 

 

 

А»

«11

 

 

 

 

 

пи

 

 

Л1

 

I

^1

 

" .

 

 

 

 

 

1»!

/■!

 

 

 

 

 

 

 

 

 

 

 

Если птотеэа И0 верна, вероятность каждой пары (х,

рав­

на произведению р ^ , а математическое ожидание числа появ­ лений пары (х|( в л независимых экспериментах равно произ­ ведению лр.<7г

Тогда случайную величину;

 

м #

п р хЧх

185

(при условии, что # 0 верна, а все математические ожидания пР\Ч$ ^ 4, / = 1,2,..., к%] = 1,2,..., /) можно считать распреде­ ленной по закону ^ с ( к - 1)(/~ I) степенями свободы. Зная уро­ вень значимости <х и число степеней свободы, можно найти х^» и сравнить его с числом х определенным по выборке. Если

%кр > Хп1ги> г,|ПОтеза ^ 0 независимости случайных величин принимается, иначе # 0 отклоняется.

Несколько замечаний.

1. Вероятности р., ц обычно неизвестны. Оки оцениваются но выборке.

В качестнсзначения/?, бсрстся число п(/ л, / = 1,2,..,, к, вмес­ то д. берется число т^ I п3] = 1, 2 , А

2.Если числа л р ^ < 4, то соответствующие строки и столб­ цы должны быть объединены с соседними строками н столбца­ ми.

3.Если ( к - 1) (У- 1) > 8 и и > 40, то минимально допустимое значение ожидаемых частот может быть равным единице.

4.

Формулу, по которой

вычисляется

можею уп­

ростить. Если вероятности р р д оцениваются

по выборке, то

Р, = ПТ/гг, д = т .I п, тогда

 

 

 

 

 

 

 

V

2У У » / , " * " * ) -

м^и

(Д »[у

м*ДИ,'»,

 

"Ч»»у ]

 

 

 

II л

 

 

 

= « Л

 

V

^

у у

у у

 

А ,-------

-н» так как

л-гл-ш . = п; л - г л - п ш = и \

*

м ш

 

/=| У=| V

4-1 4-1

» /

/в| /-|

И,/И;

 

 

 

 

Пример. Утверждается* что результат действия лекарства зависит от способа его применения. Проверить это утверждение при а = 0,05 по следующим данным:

186

Результат

 

Способ примеиеши

 

А

В

С

 

Неблагоприятный

11

17

16

Благоприятный

20

23

19

Решение. Вычислим экспериментальное значение критерия#'. /1=11 н-17 + 16 +20 + 23 + 19 = 106; л, = 11 + 17 + 1 6 -4 4 ; ла =20 + 23 + 19 = 62; т{= 11 + 20 = 31; тг = 7 + 23 = 40; =16+19 = 35.

В соответствии с выведенной формулой:

 

1 г

\ Т

 

1б2

' 2 = 10б

44x40

44x35

 

44x31

202

23г

19*

1

- 1 0 6 = 0,73,

62x 31

62 x 40

62

 

 

 

Число степенен свободы

г = (2-1 )(3-1) = 2.

Если а - 0,05, то у ,/ = 6 > #мсл2

нулевая гипотеза не отвер­

гается, результат действия лекарства не зависит от способа его применения.

8 . 4 . Р А Н Г О В А Я К О Р Р Е Л Я Ц И Я

Пусть ш двумерной генеральной совокупности извлечена выборка (х,у.) объема ». Упорядочим по возрастанию или убы­ ванию варианты х . Каждому значению .г, I = 1,2, п поставим в соответствие номер этого значения в упорядоченной последо­ вательности. Этот номер называется рангом варианты х .. Ана­ логично ранжируем варианты у.. Таким образом, каждой паре (дг,. у,) соответствует пара рангов се элементов. Обозначим эту пару рангов также (х,,у,).

Пример. Измерения длины головы (я,) и длины грудного плавника (у,) у 10 окуней дали такие результаты (мм):

187

Таблица8,2

*|

66

61

67

73

51

59

48

47

45

44

38

31

36

43

29

35

28

25

26

23

У^

 

 

 

 

 

 

 

 

 

 

Определить р а н т элементов этой выборки. Решение нс тре­ бует комментариев. Выборка рангов такова (табл. 8.3):

Таблица 8.3

8

7

9

10

5

6

4

3

2

1

9

6

8

10

5

7

А

2

3

1

л _

8 .4 ,1 . К о э ф ф и ц и е н т р а т о е о й к о р р е л я ц и и С п и р м е н а

Вычислим теперь коэффициент корреляции по выборке ран­ гов, В этом случае он называется выборочным коэффициентом ранговой корреляции Спирмена [Ч. Спирмен — английский пси­ холог (1863-1945)] и обозначается г%.Формулу для вычислений:

У »Т .х1У ,-х*У

"

* А

можно упростить. Воспользуемся формулами для суммы пер­ вых степеней н квадратов первых л натуральных чисел:

 

.

Л о

л(л + 1)

 

 

1+

2 +3 +... + л = --------{

 

, 4 2 * + з * + . . . + * *

б

 

Отсюда:

 

 

 

 

 

 

 

' У - * Ъ

2

 

" » + '

1 2 ] ‘ 12 ’

 

 

 

я * - 1

 

 

 

 

12

 

188

 

Далее обозначим через </, разность

-у..

 

 

 

 

 

Так как Х ( а-( - у , ) 1 = ^

а/ + ^ ,У )1 ~ 2

^

 

то в нашем

 

 

/=1

 

<=1

1=1

 

*=1

 

 

 

случае получаем:

 

 

 

 

 

 

 

 

 

 

 

I V1

- '

(п + 1)(2м + |)

1

\7

,

г

 

 

и

/=1

 

 

 

-------~ ъ г Ъ

'

~

 

 

 

 

( л + 1 ^

 

н2 ~~ 1

1

чг*

* 2

 

 

 

 

 

 

 

Г П

= ~ П ~ 2 г г § 1

 

 

 

 

 

Окончательно г, = 1-

 

6

 

2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Найдем значение г%для нашего примера. Разности рангов </,

таковы:

 

 

 

 

___________

 

 

 

4

-1

1

1

0

0

-1

 

0

 

1

- 1

0

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

г*

6 x6

= 0,964.

 

 

 

 

 

 

 

 

10x99

 

 

 

 

 

Мы получили число, очень близкое к единице. Следует счи­ тать, что длина головы и длина грудного плавника тесно связа­ ны между собой.

Проверку на значимость выборочного коэффициента ранго­ вой корреляции можно произвести строго. Гипотеза/^: \р$ \ = О при альтернативной гипотезе Я : | рд|> 0 и при объеме выборки л >10 проверяется по значению случайной величины:

Бели гипотеза Н0 верна, эта статистика имеет распределение Стьюдента с л - 2 степенями свободы. Закон распределения ис­ ходной двумерной генеральной совокупности не имеет значе­ ния, хотя предполагается э что составляющие ЛГи Угенеральной совокупности — непрерывные случайные величины.

189

В нашем случае;

Г"" =10,9б41 \|гЩ ^ " =10,25-

Если положить а = 0,05, то = 1,86 (число степенен свобо­ ды г = 8, а критическая область — правосторонняя), / < 10,25, гипотеза//в отвергается.

При помощи статистики Т можно проверять нулевую гипо­ тезу о равенстве нулю коэффициента корреляции р двумерной нормально распределенной генеральной совокупности.

8.4.2. Связанные ранги

На практике часты случаи, когда несколько значении х§(у,) исходной выборки одинаковы, нм нужно приписывать одинако­ вые ранги. Говорят, что несколько подряд идущих одинаковых значений хг (у) образуют связку. Такие элементы называются связанными. Кавдын из связанных элементов получает ранг, равный среднему арифметическому рангов, которые имели бы элементы связки, если бы они были различны.

Одинаковые ранги называются связанными рангами (табл. 8.4):

 

 

 

 

 

 

 

Таблица 8.4

 

10

12

10

12

12

15

17

Рлнгх,

1.5

4

1.5

4

4

6

1

У*

2

4

2

3

7

2

9

Рангу,

2

5

2

4

6

2

7

Формула для вычисления коэффициента корреляции Спир­ мена при наличии связанных рангов становится громоздкой и здесь не приводится. Практика показывает, что использование обычной формулы для без поправки на связанные ранги обес­ печивает достаточную точность вычислений:.

190