книги / Прикладная статистика
..pdfДоверительный интервал (х - /а Н п %х + изНп) содержит чис ло л с вероятностью {3.
Приведем значения г для наиболее часто встречающнхея зна чений вероятности 0:______________________________________
р |
0,9 |
0,95 |
0.99 |
0,9973 |
0,999 |
1 |
1,64 |
1,96 |
2,53 |
3,00 |
3.37 |
Пример. У ста случайно отобранных двадцатилетию* юно шей измерили рост. Оказалось, что средний ростх =1,73 м, а ис правленная выборочная днсперсия5*= 0,00245 м1. Построить до верительный интервал среднего всей совокупности, если/?-0,99.
Решение. Подразумевается, что случайная величина X — рост юноши — имеет нормальное распределение с неизвес тными нам параметрами гг и с Так как объем выборки п ве лик, то вместо неизвестного значения о можно взять значение
= >/5^00245 = 0,0495. Пели |3 = 0,99 = > I = 2,58. Отсюда:
с = 15 2,58x0,0495 = 0,013; 1,717< а <1,743.
ю |
|
Подчеркнем, что условие Р(е1<а< |
следует интерпре |
тировать следующим образом. Случайный интервал (с,, е2) со случайными границами е(>е2, с вероятностью |3 содержит неслу чайное число а,
7.4.2. Построение доверительного интервала для неизвестной вероятности р «успеха»
Пусть в серии из п независимых испытаний «успех» произо шел к раз. Требуется построить доверительный интервал, содер жащий значения вероятности р появления «успеха» в каждом испытании с данной вероятностью Д
Вэтом случае генеральная совокупность X распределена по
за к о н у : __________________ ___________________
|
0 |
1 |
Л |
д - 1 - р |
Р |
|
141
М (Х ) =р, О Д =рд.
Выборка, соответствующая к появлениям «успехом в п неза висимых испытаниях, имеет вид;
*< |
0 |
1 |
_ а ___ |
н-к |
к |
Выборочное среднеех - к/п можно считать приближенно нор мально распределенным только в случае большего числа испы тании. Но если это условие выполнено, можно воспользоваться таблицей функции Лапласа, подставив в формулу для € вместо неизвестного среднего квадратического отклонения а генераль ной совокупности исправленное выборочное среднее квадрати ческое отклонение 5;
Причем, если п велико, то подправлять 5 ист смысла. Окончательно с определяется по формуле:
/3 < м ^ )
& '
где число I берется из таблицы функции Лапласа из условия
Ф(0/2.
Пример. В 100 бросаниях монеты герб выпал 64 раза. Построить доверительные интервалы для вероятности р выпа дения герба в одном бросании с доверительными вероятностями
Р,=0)9;Рг = 0,9;Р, = 019.
Можно ли считать монету правильной?
Решение. Здесь: л = 100; Аг= 64; г , - 1,64; ^=1,96;
/= 2,58; выборочное срсднесГ=0,б4 выборочная дисперсия
=лг(| - *)= 0,б4х0,3б = 0,2304; выборочное среднее квад
ратическое отклонение $ |
= 0,48. Число опытов д вели |
ко, поправкой для дисперсии можно пренебречь:
142
< | = * | » . ! а |
^ . ц т а , е г . а . Ь » ^ . м и . |
|||
V» |
Ю |
|
V» |
Ю |
|
|
‘4 |
= 2,58x0,48 д 0 [| 24 |
|
|
е3 |
10 |
|
|
|
|
' Л |
|
Границы доверительных интервалов для вероятности р та ковы:
0,561 <р < 0,719, если (} = 0,9; 0,546 </> < 0,734, если р = 0,95; 0,516 <р < 0,764, если р = 0,95.
Ни один из этих шггсрвалов нс содержит числа 0,5. Монету следует признать неправильной, вероятность р выпадения герба больше 0,5.
7.4.3. Построение доверительного интервала для неизвестного математического ожидания нормально распределенной генеральной совокупности, когда дисперсия о2 генеральной совокупности неизвестна
Как уже было сказано выше, когда объем выборки п > 30, при построении доверительного интервала дня а можно пользо ваться нормальным распределением, подставляя л формулу для ширины интервала с вместо неизвестного значения <х число 5, определяемое по выборке. Рассмотрим случай малых л.
В этой ситуации пользуются случайной величиной Г, опре деляемой формулой:
5 а Подчеркнем, что х к 5 — это случайные величины, а п и а —
числа.
Случайная величина ^распределена по закону Стыодента [Сгькъ декг— псевдоним английского статистика В. Госсста (1876-1937), одного из создателей теории проверки статистических гипотез].
График функции плотности вероятности случайной вели чины, распределенной по закону Стьюдента, симметричен
143
относительно оси ординат. Функция плотности /{(, г) зависит от одного параметра г, который называется числом степе ней свободы.
Случайная величина;
5 я
имеет число степеней свободы г1= п - 7 .
Для распределения Стьюдснта составлены специальные таб лицы» по которым, зная число степеней свободы г к вероятность Р события {Т>/^Ь можно кпйти число Таблица распределения Стъюдента приведена в прпл. 2.
Заключим случайную величину Т в интервал, симметричный относ*ггсльно нуля, и обозначим его границы через и у
' ( И < ' * ) - *
Тогда вероятности событии {Г<г^} и {Т>1&} равны:
д г > 9 = я ( г < г р) = 1 ^ .
Зная число степеней свободы г = л - 1 и вероятность (I - РУ2, можно по таблице найти число у Неравенство р | < /р означает, что
Раскрывая знак модуля, получаем, что
- |
■< я < т + |
<Р$ |
< а < л + |
х - |
X - |
||
*1П |
л/Л |
л / м - 1 |
4п- Т |
Мы построили доверительный интервал, содержащий чис ло я о вероятностью р. Если генеральная совокупность конеч на, состоит из N единиц, из нее извлекается выборка объема и, причемл>0,05АГ; при вычислении границдоверительных нктерваловдля а следует ввести поправочный коэффициент, равный у/ \ - а Ш (см. §7.4). Таким образом,
144
где число I определяется по таблице функции Лапласа при и >30 и по таблице распределения Стьюдента при и < 30.
Если закон распределения генеральной совокупности долек от нормального, то выборками малого объема лучше не пользо ваться, иначе закон распределения выборочного среднего* так же будет отличаться от нормального. Во всяком случае лучше брать а не менее 15-20 единиц.
7.4.4. Построение доверительного интервала для неизвестной дисперсии о1 нормально распределенной генеральной совокупности
Для построения такого доверительного интервала пользуют ся случайной величиной:
2 ИЗ* |
(и - !) 5 2 |
сг2 |
о 2 |
Здесь а и п — числа, 5 2,55 — случайные величины. Случайная величина:
-.2 _ ^ 2 |
(и -О Д 2 |
||
к |
„2 |
а |
2 |
|
а |
|
имеет распределение г2 с числом степеней свободы г = л-1.
2 |
2 |
2 |
Заключим случайную величину х2 в интервал Х| |
< Х |
< ^2 |
'«условий; р ( х * < х 2 < у 2)= Р ; /'(х 2 > х 0 = ^ |
: |
|
я (х 2 < х ? ) = ^
По таблице распределения х?> зная число степеней свободы г = п - 1 и вероятности событий:
145
находим числа Хз и В отличие от нормального распределения II распределения Стыодента распределение Хи-квадрат не сим метрично: для определения граЕНщ доверительного интервала нужно задать два условия.
Неравенство |
гг8* |
2 |
можно записать в виде: |
— |
< ^2 |
||
|
л $ 2 |
2 |
н 5 2 |
|
2 |
<СТ |
< 2 “ |
|
*2 |
|
X, |
Пример. Построить доверительный интервал с доверитель ной вероятностью р = 0,96 для неизвестной дисперсии а 2 нор мально распределенной генеральной совокупности, седи гг-20, 3=10.
Решение, г = п - 1= 19; —г ^ = 0,02; * * ^ = 0,98. По таблице
|
2 |
2 |
|
распределения х* находим числа х* и |
х| = |
х1= 33,7. |
|
20x10 |
2 20x10 |
Л |
|
< V |
< - г г - ; 5,93 < сг* < 23,26. |
||
33,7 |
8,6 |
|
|
Извлекая квадратным корень нз чисел 5,93 и 23,26, получаем границы доверительного интервала для ст: 2,44 < а < 4,82.
7.4.5. Построение доверительного интервал» для разности математических ожиданий нормально
распределенных генеральных совокупностей
В этом случае имеются две нормально распределенные ге неральные совокупности Х { и Х2 с параметрами ар о2, и а2, о2 соответственно. Из первой совокупности извлекается выборка объема пр из втором — объема пг Требуется с заданной довери тельной вероятностью Р построить доверительный интервал для разности чисел (а2-а Д
Рассмотрим случай, когда числа о{ и о2, известны. Тогда слу чайная величинах,— выборочное среднее для генеральной сово купности Х1— имеет нормальное распределение с параметрами
146
ЪА(х) -а г 0(л;) * о*/и,. Случайная величина х2— выборочное среднее для генеральной совокупности Х2— имеет нормальное распределение с параметрами М(х^ = аг &(х{) = о*/пг Случайная величина х - тг- 3^ — разность выборочных средних — имеет нормальное распределение (как разность нормально распреде ленных случайных величин) с параметрами:
аг(л-)=л/(у1—дга)= - « 2 ;
о ( л ) = л ( ^ ] - л г ) = — + — • «1 «2
Теперь можно заклинит» случайную величину х в интервал |х - Л /(т )|< е
и найти число е, пользуясь таблицей функции Лапласа, из условия
/З(|д-М (л)|<г)=р .
Более подробно: |
|
( |
\ |
Р ( |л - Л /( л ) |< е) = 2 ^ ^ = 2 Ф |
= Р |
, 1 «I |
«2 У |
Тогда по таблице функции Лапласа находим число:
,=6. ЕГ73,ф(о=р/2.
V "1 ч "2 интервал для разности (а - д 2) таков:
1 |
2 |
2 |
|
- \ |
1 |
2 |
2 |
'а \ |
° 2 |
( - |
Р Г |
° 2 |
|||
- + — < « 1 - ^ 2 < и | |
|
1 |
|
|
|||
?Г] |
«2 |
|
|
|
"2 |
||
|
|
|
|
|
1 «1 |
||
Если значения |
|
и о, неизвестны, но объемы выборох доста |
точно великл (??,, п^> Зб), то также пользуются описанной про цедурой, подставляя вместо о{ и а* исправленные выборочные диспсрсии${ и ^оп ределен ны е по выборкам.
147
Пример. Почва двух участков земли была тщательно про анализирована и оказалась одшгаковей по составу. На этих учас тках была посеяна пшеница одного сорта. На участок А внесено удобрение, а на участок В нет. Через месяц со дня посева пше ницы с каждого участка была произведена случайная выборка 50 растений, измерялась их длина. Средние значения и несме щенные выборочные дисперсии, вычисленные по выборкам,
оказались равными: |
^ |
_ |
х - 323 мм; хг= 323 мм; |
|
= 441 мм2; У2 = 529 мм2. |
С доверительной вероятностьео р = 0,9 построить довери |
тельный интервал для разности средних (я - д2). Оказывает ли удобрение влияние на рост растении?
Решение. Имеется в виду, что случайные величины Х § н Х2 — длины растений на участках А и В соответственно — нор мально распределены. Нужно построить доверительный интервал для разности (я,- я2) их математических ожидании. Дисперсии о1, и о2, неизвестны, но ввиду больногх объемов выборок (п= п = 50} можно воспользоваться нормальным распределением, подставив вместо о2, и о22числа?2 и $ 2 соответственно.
Так как Р=Ю,99, число /=2,58, |
|
|
||
е = /4|— |
Щ |
„ со 1441 |
529 |
„ „ |
+ — |
=2,58,1— |
+ — |
—11,36. |
|
V Н| |
п2 |
V 50 |
50 |
|
Доверительный интервал для разности (я;-я2) таков: |
||||
(323 - 297) - 11,36 < ага2< (323 - 297) + 11,36; |
14,64 < аг а2< 37,36. |
Интервал не содержит нуля. Удобрение способствует росту растений.
Бели выборки небольшие, но генеральные совокупности^ и Х 2имеют одиу и ту же дисперсию о2, вместо числа:
1 ° Ц ? , о 1 и ±
V«1 "2 |
"2 |
рассматривают случайную величину: |
|
нт |
ч |
148
где?— объединенная несмещенная оценка дисперсии а1. Ранее была выведена формула, позволяющая найти выбороч
ную дисперсию для объединения двух выборок:
« |+ « г
где 5\ — выборочные дисперсии, определенные по первой и второй выборкам соответственно. Как точечная оценка диспер сии о3 статистика ^ смещена. Действительно,
„ р |
) |
|
|
4 |
' |
Н1 +Л 2 |
и| + « 2 |
Л| +ГГ2
Несметен ной объединенной оценкой дисперсии о1 является статистика:
~2 Он - |
1)д,2 4 («2 - |
0 |
$2 |
+ » 2У2 |
|
п у + н ч - 2 |
|
|
И | + И 2 —2 |
Тогда случайная всличика: |
|
|
|
|
г |
(*1 ~ ^'2) |
- |
(а 1 ~< Ч ) |
|
|
1 ^ ^ |
|
П |
+ I |
|
V Н| + 1<2 - |
|
2 у ?Г] |
и2 |
плюет распределение Стыодепта с числом степеней свободы
г = «1 + Д2 - 2 .
Эту случайную величину можно заключить в интервал |Г| < из условия:
к и < 'р ) = р .
Число 1р находится по таблице распределения Огыодента.
149
Тогда интервал для разности: (а,- <?,} таков:
(*1 - .т г ) —Г р -р -^ 1, + " 2^2 |
[ — + — |
]<<?!- « I < ( ч - А2)н |
||
н || и ,+ п 2 - 2 |
р ц |
« 2 ) |
||
■1р |
+ « 2^2 |
и |
± |
) |
Щ |
||||
|
«1 + «2 - 2 { п \ |
п2 ) |
Пример. Химик делает шесть измерений концентрации
серной кислоты и обнаруживает, |
что средняя концентрация |
х = 9,234, 3,= 0,12. Проводя опыты |
с кислотой из другой бутыл |
ки, он делает одиннадцать измерений и получает, что срсдЕмл концентрация х2= 8,86, а 32= 0,21. Найти границы доверительно го интервала для разности средних величин концентрации кис лоты в двух бутылках при 0=0,99. Были ли наполнены бутылки одной и той же кислотой?
Решение, Предполагается, что показания прибора, измеря ющего концентрацию кислоты, можно считать значениями нор мально распределенной случайной величины.
Число степеней свободы г-6+1 -2 = 15; (1-р)/2=0,005. Тогда 1=2,95. Объединенная несмещенная оценка дисперсии;
|
г = ^ |
р |
р |
^ |
=0>|95. |
|
|
< В 5 ,Р - + — |
- 2,95x0,195* |
11*1 =0.292, |
|||
|
к уи| |
1?2 |
|
|
|
V 6 II |
|
х] |
- * 2 = 9,234 -8,86 = 0,374; |
||||
0,374 - |
0,292< а ,- а2< 0,374 + 0,292; 0,08< аг а2< 0,67. |
|||||
Интервал не содержит нуля, концентрация кислоты в бутыл |
||||||
ках разная. |
|
|
|
|
|
|
|
|
|
7 * 5 . З А Д А Ч И |
|||
1. |
Пусть хг ху |
|
хл — выборка из генеральной совокупно |
с т и ^ с известным математическим ожиданием а к неизвестной
150