книги / Прикладная статистика
..pdfпо биномиальному закону, примет значение, равное к, считается по формуле:
Рик = С кр к Ц - р ) '‘~к ,к-=0,},2,...,п; Щ х) =пр\01х) = »рд.
Если закон распределения генеральной совокупности из вестен, а значения параметров, от которых этот закон зависит, неизвестны, возникает задача оценки значений этих параметров по имеющимся значениям хг .... хп извлеченной из генераль ной совокупности выборки. Точечные оценки параметров — это оценки с помощью числовых значений подходящих, статистик. При этом можно оценивать нс только параметры, непосредс твенно входящие и формулу для закона распрсдслсЕшя, но п чис ловые характеристики генеральной совокупности — математи ческое ожидание, дисперсию, коэффициент корреляции и т. п. К точечным оцсЕгкам: предъявляют три следующих требования:
к. |
Если статистика /(л ,|,-Т2 |
— оценка параметра а, |
то при л -> « она должна сходиться по вероятности к числу <т, |
||
т.с.Уе>0: |
|
|
Н т ^(|/(-Т1, д-2 |
) - п| < е) = 1. |
п->** |
|
Такая оценка называется состоятельной. |
|
2. Математическое ожидание |
статистики Л х ]*х 2>"'>х п) |
должно равняться числу а: |
,л'2>—>*л ))=а. |
Такая оценка называется несмещенной.
3. Значения случайной величины / ( * 1 1*2 >—>*,,) долж ны быть достаточно близкими, другими слонами, статистика /(.V) ,Л'2 ) должна иметь маленькую дисперсию.
Оценка, обладающая минимальной дисперсией, называется эффективной.
В качестве примера рассмотрим точечные оценки математичес кого ожидают а н дисперсии о* генеральной совокупности — вы борочное среднее х, выборочную дисперсию 5 \ исправленную
выборочную дисперсию |
Состоятельность выборочного сред |
него: |
|
Ш
-1 "
1=1
вытекает из закона больших чисел.
Ранее мы показали, что Л^(л')—л, поэтому х — несмещенная оценка математического ожидания а Мы показали также, что
Можно доказать, «гго если генеральная совокупность X имеет нормальное распределение, то х —■эффективная оценка пара метра а.
Состоятельность статистики 5* как оценки дисперсии
- X- 2
также вытекает из закона больших чисел. Ыо оценка № — сме щеннал оценка3 ведь
Л^(52) = — а 2 .
Н - 1 Несмещенной оценкой дисперсии а 1является иелрлвлешшл
выборочная дисперсия Чтобы оценить некоторый параметр закона распределения
генеральной совокупности^, нужно выразить его через теорети ческие моменты (математическое ожидание, дисперсию и т.п.), а затем подставить в полученную формулу значении соответс твующих выборочных статистик (выборочного среднего, выбо рочной дисперсии и т. д.).
Например, оценками параметров а и о2 нормального рас пределения служат статистики _г и $ 2>так как М(х)=а, П(х)=сР. Оценкой параметров А. показательного закона является статис тика (Ш ), т.к, М(х)=1/^.Оценкой параметра к закона Пуассона является статистка х %т.к. М (х)=Х.
Такой метод оценки параметров называется методом моментов. Мы фактически пользовались нм в процедуре
132
проверки гипотезы о законе распределения генеральной совокуп ности по критерию Пирсона.
В заключение отмстим, что поправочный множитель и/(н-1), вводимый для статистики при больших и практически равен 1 и его нет смысла использовать.
7.3. О ТОЧНОСТИ И НАДЕЖНОСТИ ТОЧЕЧНЫХ ОЦЕНОК
Рассмотрим здесь только случай оценки математического ожидания а генеральной совокупности значением х , Заменяя не известное значение п числом л:, мы совершаем ошибку. Тогда случайная величина .V- а — абсолютное значение ошибки. Если известен закон распределения случайной величины Зг, можно найти вероятность:
/ >( | . у - й |< г ) = р е
Число г. характеризует точность оценки, вероятность Ре — ее надежность. Бели для небольших в вероятность ре достаточно велика, число х можно считать точной и надежной оценкой ма тематического ожидания а.
Когда генеральная совокупность имеет нормальное распре деление, случайная величина т распределена нормально (сумма независимых нормально распределенных случайных величин). Если закон распределения генеральной совокупности отличен от нормального, но число п достаточно велико, случайную ве личину х можно считать приблизительно нормально распреде ленной в силу центральной предельной теоремы. Числовые ха
рактеристики X ИЗВССТЕ1Ы! |
2 |
|
_ |
|
|
М ( х ) = а , 1»(л) = — |
, сг(.*) = ~ . |
|
|
» |
-Ул |
Если дисперсия генеральной совокупности неизвестна, заме ним ее на значение исправленной выборочной дисперс1Ш П р и меняя известкую формулу для нормального закона, получим:
133
Пример. Из генеральной совокупности извлечена выборка объема п = 47. Найденное по выборке значение 5 = 2,35. Какова вероятность того, что точность в оценки математического ожи дания а генеральной совокупности не больше 0,3?
Решение. Нужно найти вероятность события:
Имеем:
Найденная вероятность достаточно мала. Для того чтобы по лучить большую надежность (при тон жсточностм) или большую точность (при той же надежности), нужно увеличить число и.
Пример. Каков должен быть минимальный объем выборки п для того, чтобы с надежностью 0,98 точность оценки матема тического ожидания а с помощью выборочного среднего х была 0,2, если среднее квадратичное отклонение в генеральной сово купности равно 1,5?
Решение. Число и определяется из условия:
/ >( |* - а |< 0,2) =0,98,
134
Тогда:
^ 0 ^ 7 1= 0 ^ 2 ^ . = 2,34 => и 2 234x15 = 308.
Пример. Как изменится точность математического ожида ния а из предыдущего примера, сели объем выборки увеличить до 500, а надежность оставить равной 0,98-?
Решение. Из условия:
я ( |* - л|< е)=0,98
получаем, что
/
0,98=2Ф
иI и
Пример. Оценка вероятности р «успеха».
Пусть проведено п независимых испытаний, в каждом из ко торых вероятность события А («успеха») равна р (следователь но, вероятность непоявления события А равна ^ - 1 - р). Бели в л независимых испытаниях событие А появилось к раз, то на сколько точно число Ш оценивает вероятностьр1
Решение. Б этом случае генеральная совокупность X имеет
следующий закон распределения: |
|
|
X, |
0 |
1 |
_____ а _____ |
я |
______ Е______ |
Случайная величина X равна единице, если событие А про изошло, и равна нулю — в противном: случае:
М(Х)=р, 0(Х)=рд, а(х)=
Если число п достаточно велико, то случайная величина х = = Ш — выборочное среднее — имеет приближенное нормаль ное распределение с параметрами:
135
Тогда точность и падеж кость оценки числа р числом к/н оп ределяют кэ равенства:
5 = ^ 1 -.г ).
Пример, Из большой партии некоторых изделии отобрано наугад для контроля 500 штук, причем 20 штук оказались бра кованными. Найти вероятность того, что, приняв вероятность р изделию быть бракованным, равной 0,04, мы совершаем ошиб ку, не превосходящую 0,01. Сколько нужно отобрать изделий, чтобы с вероятностью 0,95 была совершена ошибка, не превос ходящая 0,01?
Решение.
1.Здесь:
:с = | ^ |
= 0,04, « = 500; |
.V2 = х([ - |
* ) = 0,04 х 0,96 = 0,03 84; |
|
$ = Д 0 3 8 4 = 0,2; |
е=0,01 . |
|
Положим: а |
|
|
|
/ ' О |
Н < 0 ,0 |)*2 ф |^ |
01* ^ |
| = 2ф (|,14)=0,746. |
2. Здесь: дг=0,04; 5 = 032; е = 0,01; Р = 0,95. Требуется най ти объем выборхи п.
136
По таблице функции Лапласа, зная ее значение, равное числу 0,475, определяем аргумент:
0,01Л |
- = 1,96, отсюда |
I <«» ^ |
1537. |
( = ■ |
|||
0,2 |
|
|
7.3.1.Еще об определении нужного объема выборки
Пользуясь формулой:
можно поставить три несложные задачи. Примеры решения этик задач уже были подробно разобраны выше. Здесь мы прос то подведем итоги.
Задача 1. Зная объем выборки а и точность е оценки матема тического ожидания я, найти надежность [1 этой оценки:
р-Н т М ^ )
Вслучае выборки из биноюминально распределенной совокуп
ности: |
/ |
\ |
Р = 2<]4и*(1_д0 ,
Задача 2. Зная объем выборки п и надежность р, оценить точность в оценки математического ожидания я:
КТ /5
е = -
где число I определяется ю таблицы функции Лапласа из условия:
Ф (0 ■ ^ Н
137
В случае выборки из биномиально распределенной генераль ной совокупности:
Задача 3. Зная точность е и надежность р оценки математи ческого ожидания а\ определить минимальный объем п выбор ки, обеспечиваю щии заданные точность и надежность:
В случае выборки из биноьшадъно распределенной генераль ной совокупности:
е
Вес эти формулы были выведены в предположении, что
где Хр Ху ...* Хя — независимые и одинаково распределенные (как генеральная совокупность X) случайные величины. Такое предположение не всегда можно принять. На практике генераль ная совокупность X — это ^объектов, из которых отбирают для исследования п объектов. Если выборка бесповториая (один раз отобранный объект нс возвращается назад), то дисперсия выбо рочного среднего х в общем случае зависит от чисел N и п.
Пусть генеральная совокупность X состоит из N чисел л,, Ху ху Если вероятность выбора каждого числа (при извлечении одного числа) равна \Ш, то математическое ожидание а и дис персия о3 случайной величины х — выбранного числа — равны
соответственно:
138
Пусть теперь х — это среднее арифметическое и наудачу отобранных чисел, пригнем отбор бесповоротный. Нетрудно по
казать, что в этом случае: |
_____ |
На практике величину >/| |
заменяют на I, если н0У<О,О5, |
ирассчитывают — в противном случае. Для отыскания необхо димого объема выборки, обеспечивающего заданную точность
инадежность, имеем:
е-Лг |
о 2(2 N |
8 2( 2Ы |
|
|
***** |
|
|
|
г2Ы + <т2/ 2 |
г 2 Ы + 3 2( 2 |
|
Если среди чисел д/( ху .... |
встречаются только нули н еди |
||
ницы, то |
/ |
ч 0 |
|
Л _ е 2Д' + ^(1-Зс) / 2
Напомним, что пользоваться указанными формулами мож но, только если закон распределения выборочного среднего ~х можно хотя бы приближенно считать нормальным. Так почти всегда получается, когда и > 36.
Пример. Фермер хочет оценить среднюю массу своих 5000 индеек с точностью до 0,5 фунта, чтобы как можно точнее определить доход от продажи этих индеек. Отобрав случайным образом 20 индеек, он нашел, что их средняя масса составляет 9,25 фунта, а 5 = 4,39 фунта. Теперь он в состоянии определить минимальный объем выборки л, позволяющий оценить среднюю массу индейки с точностью е = 0,5 и надежностью р = 0,95:
$ 2/ 2^ |
_ |
4,392 х1,962 х 5000 |
е 2 М + $ V |
|
0,52 х 5000 + 4,392 х 1,962 28° (штук)' |
Предварительная малая выборка потребовалась, чтобы оце нить о, иначе дальнейшие вычисления невозможны.
139
7 . 4 . |
П О Н Я Т И Е О Б И Н Т Е Р В А Л Ь Н Ы Х |
ОЦ Е Н К А Х П А Р А М Е Т Р О В Г Е Н Е Р А Л Ь Н О Й
СО В О К У П Н О С Т И
Еще один способ оценить известное значение параметра — указать интервал (г,, е2) на числовой оси, про который известно, что он содержит это неизвестное значение с достаточно боль шой вероятностью р, Р(е,<а<
Вероятность р называется доверительной вероятностью, а интервал (е,, — доверительным интервалом. Для построения доверительных интервалов используют подходящим образом подобранные выборочные статистики.
7.4.1. Построение доверительного интервала для неизвестного математического ожидания
а нормально распределенной генеральной совокупности, когда дисперсия ^генеральной совокупности известна
Рассмотрим случайную величину * — выборочное среднее:
Так как генеральная совокупность X распределена по нор мальному закону, х тоже имеет нормальное распределение, М(х)=а,0(х)=о*/п. График функции плотности вероятности слу чайной величины .т симметричен относительно оси х=а.
Рассмотрим интервал [х-д]<е, или о - е < х < а + а + е. Ширину 2е этого интервала определим из условия:
где р — заданная доверительная вероятность.
/<т
Как мы уже знаем, е«■=- где число I находится по таблице
функции Лапласа из условия
140