Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

1139

.pdf
Скачиваний:
3
Добавлен:
15.11.2022
Размер:
10.29 Mб
Скачать

6.5. П Р ОВЕ Р КА ОДНОРОДНОСТИ Н АБ Л ЮД ЕН ИЙ

151

симальное значение урожайности несовместимо с осталь­ ными значениями, то это будет служить доказательством неслучайного появления такого максимума, т. е. доказа­ тельством преимуществ сорта с максимальной урожайно­ стью.

Этот же т-критерий можно использовать для прибли­ женного сравнения нескольких выборочных средних, най­ денных по выборкам одинакового объема. Действительно, если все выборки принадлежат, к единой генеральной сово­ купности с параметрами а и а, то и все средние должны принадлежать к единой генеральной совокупности с пара­

метрами а и . Проверяя с помощью максимального

V п

относительного отклонения крайнее значение среди всех выборочных средних, мы и сможем проверить гипотезу о случайном различии выборочных средних.

§7. АНАЛИЗ РАСПРЕДЕЛЕНИЯ НАБЛЮДЕНИЙ

7.1. Проверка основной гипотезы. Все оценки предыду­ щего параграфа существенно опираются на нормальность наблюдаемого распределения и в случае другого распреде­ ления могут быть не справедливы. Поэтому применение этих оценок допустимо лишь при достаточной уверенности, что наблюдаемое распределение нормально или по крайней мере близко к нормальному.

Гипотезу о нормальности изучаемого распределения мы выше (п. 4.2) назвали основной гипотезой. Разумеется, самая надежная проверка этой гипотезы состоит в тщательном анализе условий испытаний; принципы такого анализа изложены в п. 4.2. Однако подобный анализ не всегда воз­ можен, в других случаях он может вызывать сомнения. В такой ситуации гипотезу нормальности приходится про­ верять непосредственно по наблюдениям (по выборке), ис­ пользуя так называемые критерии согласия.

Основной принцип критериев согласия заключается в том, что заданная выборка сравнивается с некоторым за­ ранее намеченным теоретическим распределением. Приме­ нение критериев согласия в той или иной форме зависит при этом от требований, предъявляемых к теоретическому распределению. Например, при исследовании согласия с нормальным распределением мы можем задаться не только типом распределения, но и какими-то готовыми параметра­ ми а и о. Совсем другая картина будет, если мы зададимся только нормальностью распределения, а параметры возь­ мем из выборки. Именно этот, второй случай наиболее ха­ рактерен для практики, где для выяснения распределения нет никаких других данных, кроме самой выборки. Поэтому в дальнейшем мы в качестве параметров теоретического рас­ пределения всегда будем брать параметры заданной выбор­

ам: х вместо а и s вместо о.

7.1. ПРОВЕРКА ОСНОВНОЙ ГИПОТЕЗЫ

153

Простейшие критерии согласия основаны на сравнении некоторых генеральных параметров предполагаемого тео­ ретического распределения и их оценок, полученных по исследуемой выборке. Нормальное распределение полно­ стью определяется параметрами а и а, поэтому прочие па­ раметры нормально распределенной генеральной совокуп­ ности выражаются через а и а, и их можно заранее теоре­ тически рассчитать. В то же время для этих параметров можно найти оценки непосредственно по заданной выборке. Если выборочные оценки окажутся достаточно хорошо со­ гласованными с теоретически вычисленными значениями параметров, то это может служить основанием для приня­ тия основной гипотезы; в противном случае основную ги­ потезу нужно отвергнуть.

В качестве оцениваемых параметров удобнее всего брать моменты (п. 5.1), которые нетрудно вычислить для нормаль­

ного распределения. В частности,

 

т3 = 0,

т 4 = За4.

(7.1)

Величины

 

 

Л = - ^ ,

Е = Щ~ — 3

 

о3

а4

 

называются соответственно, асимметрией и эксцессом рас­ пределения. Из (7.1) сразу же следует, что для нормального распределения асимметрия и эксцесс равны нулю. Названия асимметрии и эксцесса отражают связь этих величин с фор­ мой графика плотности распределения. На рис. 24 и 25 приведены примеры графиков плотности распределений с ненулевыми асимметрией и эксцессом. Для сравнения штри­ ховой линией изображена нормальная кривая с теми же математическим ожиданием а и дисперсией а2.

Если в качестве т-Ли т 4 взять моменты исследуемой вы­ борки, то получатся выборочные асимметрия и эксцесс. Формулы для их расчета имеют вид

П

П

/'= 1

/ = 1

Выборочные асимметрия и эксцесс, как и все выборочные параметры, являются случайными величинами и поэтому даже для нормального распределения могут отличаться от

154

§7 АНАЛИЗ РАСПРЕДЕЛЕНИЯ Н АБ ЛЮД ЕН ИЙ

нуля. К сожалению, применить здесь общие методы кри­ териев значимости трудно, так как распределения асим­ метрии и эксцесса очень сложны и мало изучены. Однако известны дисперсии этих величин,

D(/l) =

6

( я - 1 )

п ( F x _

24п (п — 2) (п — 3)

(п +

1)(л + 3) ’

1

(« + !)* (л + 3)(п + 5) ’

где п — объем исследуемой выборки.

Дисперсия служит мерой рассеяния для любого распре­ деления, в силу чего даже знание одной только дисперсии позволяет оценивать вероятности тех или иных значений исследуемой случайной величины (см. об этом подробнее в следующем пункте). Поэтому по дисперсиям D(y4) и D(£) можно оценивать, значимо ли выборочные асимметрия и эксцесс отклоняются от своих математических ожиданий, т. е. от нуля.

7.1. ПРОВЕРКА ОСНОВНОЙ ГИПОТЕЗЫ

155

Мы получаем следующий критерий согласия: если вы­ борочные асимметрия и эксцесс удовлетворяют неравен­ ствам *)

И Ю К о Ш | £ |< 5 / D ( £ ) ,

то наблюдаемое распределение можно считать нормальным.

В противном случае гипотезу нормальности следует отверг­ нуть или по крайней мере считать сомнительной.

Сформулированный критерий является весьма прибли­ женным, поэтому его применение оправдано лишь при не­ больших объемах выборки. Если же выборка достаточно велика ( п ^ 20), то рекомендуется применять более общие критерии согласия, использующие не только одну-две об­ щие характеристики, но и все элементы выборки.

Простой критерий согласия получится, если использовать понятие эмпирического распределения (п. 4.3). Для этого по выборке строится выборочная функция распределения, согласно правилам, полученным в п. 4.3, и на миллиметро­ вой бумаге вычерчивается ее график. Потом на этом же чертеже вычерчивается график функции нормального рас­ пределения

где Ф есть функция Лапласа, значения которой даны в таб­ лице I Приложения. Расхождение между эмпирической и теоретической функциями распределения оценивается на глаз; если оно невелико, то можно принять основную гипо­ тезу.

Сравнение графиков очень удобно своей наглядностью, однако не является достаточно строгим из-за отсутствия надежной количественной оценки. Положение можно ис­

править, если

воспользоваться теоремой Колмогорова.

А. Н. Колмогоров доказал, что величина X = D \fn,

где п

объем выборки,

D — максимальная абсолютная

величина

разности между теоретической и эмпирической функция­ ми распределения, имеет при больших п приближенную

*) Мотивировка выбора коэффициентов 3 и 5 дается р следующем пункте.

156

§7. АНАЛИЗ РАСПРЕДЕЛЕНИЯ НАБЛЮДЕНИЙ

функцию распределения

К( у ) = Р { К у } = 2 ( - l ) V » * ’»* (</>0).

к= —ао

Втаблице X Приложения приведены квантили Х1_р этого распределения.

Мы получаем следующий критерий согласия. По чертежу или непосредственно по вычислениям нужно найти

D = max | Fn (x) — F(x)\,

а затем \= D Y п- Если вычисленное значение X меньше, чем найденное по выбранному уровню значимости р таб­ личное значение к1_р, то основная гипотеза считается спра­ ведливой. В случае ^ . ^к1_р эта гипотеза отклоняется (или считается сомнительной).

Теорема Колмогорова справедлива не только для нор­ мального, но и для любого теоретического распределения, лишь бы оно было непрерывным. В силу этой, а также ряда других причин в описанном критерии согласия берут очень

«жесткие» уровни значимости р = 0,2 или даже

0,3.

Если число элементов в выборке очень велико (порядка сотни и выше), то все вычисления (в том числе вычисление

х и s) становятся очень громоздкими. В этом случае можно использовать «метод сгруппированных данных», который заключается в следующем. Вся область изменения выборки, т. е. отрезок между ее минимальным и максимальным эле­ ментами, разбивается на интервалы одинаковой длины h. Число интервалов k берут обычно в зависимости от объема выборки в пределах от 8 до 20.

В каждый получившийся интервал попадает каксе-го число элементов выборки; число элементов, попавших в г-й интервал, обозначим через /г(-. Вместо прежней выборки мы можем теперь рассматривать совокупность интервалов. Выбирая в качестве «представителя» интервала его середину, мы получим новую, «сгруппированную» выборку xlt х2, ..., xk\ объем этой выборки значительно меньше, чем у перво­ начальной, но каждый t-й элемент здесь нужно повторять tij раз. Мы как бы перестаем различать элементы прежней выборки, отличающиеся меньше, чем на h, заменяя их все серединой соответствующего интервала.

7.1

ПРОВЕРКА ОСНОВНОЙ ГИПОТЕЗЫ

157

Отметим, что

подобная «группировка» происходит

и

в естественных условиях, так как у каждого измеритель­ ного прибора есть свой предел разрешающей способности, меньше которого он не различает. Благодаря этому в серии наблюдений часто появляются одинаковые наблюдения, хотя теоретически вероятность двух одинаковых наблюде­ ний равна нулю. Отличие естественной группировки от описанной выше «искусственной» в том, что при естественной группировке величина интервала группирования не выше точности наблюдений, в то время как при «искусственной» группировке, объединяя отдельные наблюдения в один ин­ тервал, мы не меняем их точности, которая в результате оказывается намного меньше длины интервала h.

Среднее и дисперсию прежней выборки можно теперь с достаточной степенью точности вычислить по новым, «сгруп­

пированным»

данным

с

помощью формул

 

 

-

1

V

п*

о

1 v

/

-\2

Л2

х =

т

Ъ

 

= ~^=т Ъ

(xi - * ) —

гг ■

 

 

/=1

 

i-i

 

 

 

Величина

 

называется поправкой Шеппарда-, она связана

со смещением дисперсии при группировании. Причиной этого смещения как раз является превышение длины интер­ вала h над точностью данных; именно поэтому поправка Шеппарда не нужна при естественней группировке.

Группирование данных значительно облегчает работу

по вычислению к и .s2, а погрешность при этом, как правило, невелика. В связи с этим «метод сгруппированных данных» следует применять и в обычней обработке наблюдений, если объем этих наблюдений очень велик.

С группированием данных связан еще один, пожалуй, самый строгий и надежный критерий согласия, называемый обычно критерием Пирсона. Дело в том, что гипотеза о нор­ мальном характере распределения позволяет вычислить теоретические значения для вероятностей р{ попасть в i-й интервал. Для этого используется выведенная. в п. 3.2 формула

Р {а <

s

—Ф

а—х

 

 

s

158

§7. АНАЛИЗ РАСПРЕДЕЛЕНИЯ НАБЛЮДЕНИЙ

здесь а

и Р — концы рассматриваемого интервала, а зна­

чения функции Лапласа Ф даны в таблице I Приложения. После того как найдено ph можно подсчитать наивероятней­ шее число попаданий в i-й интервал — согласно п. 2.3 оно равно npt.

Для сравнения эмпирического распределения с предпо­ лагаемым нормальным можно теперь сравнить числа я,- и пр[. Оказывается, при условии, что все п р ^ Ъ , величина

k

имеет приближенно Х2-распределение с f= k —3 степенями свободы *). Поэтому, выбрав уровень значимости р и найдя в таблице IV Приложения значение Х2_р (с f степенями сво­ боды), мы должны гипотезу нормальности отвергнуть при Х2^ Х 2_р и считать правильной при Х2<Х 2_р.

Отметим особенности группирования в критерии Пир­ сона. Интервалы здесь не обязательно брать одинаковые

по длине (это, правда, затруднит вычисление х и s). При подсчете теоретических вероятностей р,- нужно считать, что крайний левый интервал простирается до —оо, крайний правый — до + о о . Кроме того, несколько крайних интер­ валов, лежащих с одной стороны, объединяются в один, если в них по отдельности не выполняется неравенство п р ^ 5 .

В качестве иллюстрации применим все описанные кри­ терии согласия к анализу распределения диаметров вали­ ков (в мм), изготовленных на токарном станке. Для ана­ лиза отберем /2=200 валиков; результаты сгруппируем в 10 интервалов длины/i=0,2 мм. Сгруппированные данные приведены в таблице 7.1 в первых трех колонках. Осталь­ ные колонки служат для вычисления среднего, дисперсии, асимметрии и эксцесса; их данные позволят вычислить s2,

А и Е, не вычисляя отклонений xtх.

*) Действительно, здесь имеется три связи. Две из г.их - это х

к

И s, третья связь заключена в равенстве ^ р. = 1 .

 

?.1. П Р ОВЕ Р КА ОСНОВНОЙ ГИПОТЕЗЫ

159

 

 

 

 

 

Т а б л и ц а 7.1

 

 

 

 

rii *?

 

rt| X*

1

3,2

1

3,2

10,24

32,77

104,8

2

3,4

5

17,0

57,80

196,52

668,2

3

3,6

4

14,4

51,84

186,62

671,8

4

3,8

18

68,4

259,92

987,70

3753,2

5

4,0

86

344,0

1376,00

5504,00

22016,0

6

4,2

62

260,4

1093,68

4593,46

19292,5

7

4,4

14

61,6

271,04

1192,58

5247,3

8

4,6

6

27,6

126,96

584,02

2686,5

9

4,8

3

14,4

69,12

331,78

1592,5

10

5,0

1

5,0

25,00

125,00

625,0

 

Су ммы

200

816,0

3341,60

13610.70

56657,8

Используя суммы, получившиеся в последней строке таблицы, находим

1

816

. АО

 

Х ~ ~П ^ П‘Х‘ ~ 200

 

S2=

п — 1

 

( 2 я«*|)а

н*_

 

 

 

12

Т М 3341'6 -

^

) - 2# *

0 ’06'

откуда s«0,25. Асимметрию и эксцесс будем вычислять по следующим непосредственно проверяемым формулам:

А —7J- ' 2

«Iх?

з 2 П‘Х\ 2

ni*i | 2 2

а д ) 3

S3

п

п2

'

п»

Е = -^-

2 ад*

2 «.■*? 2

16 S «i*?(S n'x'')2

 

п

л2

"*

цз

3 ® ^

—3.

160§7. АНАЛИЗ РАСПРЕДЕЛЕНИЯ НАБЛЮДЕНИЙ

Внашем примере получаем

А

1

'13610,7

3-3341,6-816 2-8163]

=

—217,5,

0,253

200

2002

1

2003

Е =

1

56657,8

4-13610,7-816 6-3341,6-8162

0,254

200

2002

'

2003

 

 

 

 

 

 

3 •8164

—3 = 255,6.

 

 

 

 

 

2004

 

 

В качестве первого критерия согласия сравним найден­ ные асимметрию и эксцесс с их теоретическими дисперсиями:

О(А)

6 (200—1)

+ 3) = 0,0293, у

D (А) « 0,17,

(200+ 1) (200

О ( Е)=-

24-200 (200 —2)

(200 —3)

= 0,113,

|Л Р (£ )« 0 ,3 4 .

(200+1)2(200 + 3) (200 + 5)

Мы видим, что найденные асимметрия и эксцесс во много раз превосходят свои средние квадратичные отклонения. Поэтому нужно считать, что изучаемое распределение су­ щественно отличается от нормального.

Проверим полученный вывод с помощью критериев Кол­ могорова и Пирсона. Составим новую таблицу 7.2, в которой первые три колонки оставим прежние, а остальные колонки используем для новых вычислений. Четвертая колонка содержит теоретические числа пр, попаданий в соответст­ вующие интервалы. Вероятности р, вычислены в предполо-

 

 

 

 

 

 

Т а б л и ц а 7.2

 

К,

' l l

■ф .

n F n (X)

n F ( А )

п 1 F,, ( л ) — F (х) 1

(П1 пр,)-

 

пр.

 

X

ъ

\

ь

___Q

 

 

 

 

1

3,2

1

0,2

1

0,2

0,8

)

2

3,4

5

1,9

6

2 , 1

3,9

0,65

3

3,6

4

10,8

10

12,9

2,9

1

4

3,8

18

34,3

28

47,2

19,2

7,75

5

4,0

86

59,2

114

106,4

7,6

12,13

6

4,2

62

55,7

176

162,1

13,9

0,71

7

4,4

14

28,6

190

190,7

0,7

7,45

8

4,6

6

8,0'

196

198,7

2,7

0,05

9

4.8

3

1 , 2

199

199,9

0,9

10

5,0

1

0.1

200

200,0

0

 

 

 

 

 

 

 

И т о г о :

X2 = 28,74

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]