книги / Статистика и анализ геологических данных
..pdfи их стандартное отклонение, равное 4,7 мм. Какова вероятность появления при случайном выборе образца, меньшего 3 мм? Для получения ответа на этот вопрос приведем 3 мм к единицам стандартного отклонения и затем обратимся к табл. 3.8:
Z |
3.0 - |
14.2 |
- 2 ,4 . |
|
4.7 |
||||
|
|
Вероятность получения представителя совокупности рода- Composita, длина которого меньше —2,4 стандартных отклоне ний, есть кумулятивная вероятность в этой точке: из нашей таб лицы мы находим значение 0,0082, которое в действительности очень мало. Теперь вычислим вероятность появления предста вителя, длина которого превышает 20 мм.
Снова требуемую величину преобразуем в стандартную нор мальную форму:
7 _ 20.0 -14 .2 |
_ |
л 0 |
L |
~ |
1,Z. |
Так как суммарная площадь под кривой нормального распреде ления равна 1,00, то вероятность получения величины х, равной или большей 1,2 стандартных отклонений, т. е. больше, чем сред нее, равна разности 1,00 и кумулятивной вероятности получения значений, не превосходящих 1,2. Иначе говоря,
Рг (х > 1,2) = 1,0 - |
Рг (х < 1,2). |
Табл. 3.8 дает нам кумулятивные |
вероятности вплоть до 1,2, |
и вычитаемая вероятность равна 0,8849. Поэтому вероятность извлечения Composita длиннее 20 мм равна 1,0000 — 0,8849= =0,1151, или немногим больше чем одна десятая. Теперь вы числим вероятность случайного выбора Composita, длина кото рой попадает в интервал от 15 до 20 мм:
для 15 мм
Z |
15.0 -14 .2 |
0,2, |
|
4.7 |
|||
|
|
для 20 мм
„20.0 -14,2
Р г (х < 1,2) = 0,8849,
Р г ( х < 0,2) = 0,5793,
Р г ( 0 ,2 < х < 1,2) = 0,3056,
т. е. примерно одна треть образцов попадает в заданный ин тервал.
Свойства стандартного нормального распределения позво ляют нам проверять гипотезы о происхождении изучаемых вы борок. Проверка статистических гипотез составляет большой раздел прикладной математической статистики, в котором уже разработаны более или менее формализованные процедуры. Приведем пример, иллюстрирующий необходимость такой про верки. Предположим, что в лабораторию палеонтолога, исследо вавшего все уже упомянутые образцы Composita, поступила большая плита породы, покрытая брахиоподами. Эти ископае мые остатки по виду напоминают Composita, но очень велики,
так что средняя длина для десяти |
особей примерно равна |
30,0 мм. Можно ли считать, что эти |
экземпляры принадлежат |
к уже исследованному палеонтологом виду?
Для того чтобы ответить на этот' вопрос, можно воспользо ваться статистическим критерием, основанным на известных ха рактеристиках нормального распределения. Первый шаг в ста тистической проверке гипотез — формулировка подходящей ги потезы об исследуемой переменной. Обычно такая гипотеза называется нулевой, обозначается Но и в сущности является гипотезой об отсутствии различия. Мы, например, можем пред положить, что данная выборка взята из совокупности, имеющей
заданное среднее значение. Нулевая гипотеза |
выражается |
в форме |
|
Н0 : р-1 = ь*-0, |
(3.19) |
которая означает, что среднее значение pi изучаемой совокупно сти, из которой была взята выборка, равно заданному среднему значению ро.
В нашем примере мы должны будем предположить, что сред нее значение совокупности, из которой были взяты брахиоподы, находящиеся на плите, совпадает со средним значением сово купности рода Composita.
Сформулировав нулевую гипотезу, мы должны указать и аль тернативу к ней. Подходящая альтернатива в этой ситуации мо
жет быть следующей: |
|
H i: Pi ф Ро> |
(3.20) |
т. е. что среднее значение совокупности, из которой была взята выборка, не равно заданному значению ро. Теперь мы рассмот рим процедуры проверки гипотез при заданном уровне значи мости. Если две изучаемые совокупности окажутся различными, мы должны сделать вывод, что ископаемые остатки были взяты не из совокупности рода Composita, а из совокупности некото рого другого рода.
Как только гипотеза сформулирована, мы можем на осно вании нашего статистического критерия принять ее или отверг-
нуть. Гипотеза также может быть истинной или ложной. Это приводит к тому, что возникает четыре комбинации возможных исходов, две из которых приводят к правильному, а две — к не правильному выводу. Это можно проиллюстрировать следующим образом:
|
|
Гипотеза верна |
Гипотеза неверна |
Гипотеза |
принимается |
Правильное решение |
Ошибка второго рода Р |
Гипотеза |
отвергается |
Ошибка первого рода а |
Правильное решение |
Только принятие правильной или отклонение неправильной гипотезы можно считать верным решением. Если нулевая гипо теза отвергается, в то время как на самом деле она верна, то возникает ошибка, называемая ошибкой первого рода. Наобо рот, если ошибочная гипотеза принимается, то совершается ошибка второго рода. Возвращаясь к нашему примеру, проил люстрируем введенные понятия. Здесь «р плиты» относится, ко нечно, к среднему значению совокупности, к которой принадле жат особи, собранные с плиты.
|
В действительности |
|
Гипотеза |
Особи с плиты принадлежат |
Особи с плиты не принадле |
|
совокупности |
жат совокупности |
р, плиты = р, Composita |
Правильное решение |
Ошибка типа р |
|
|
|
р, плиты ф \1 Composita |
Ошибка типа а |
Правильное решение |
|
В распространенных статистических процедурах вероятность появления ошибки первого рода обозначается через а и назы вается уровнем значимости; эту вероятность можно задать до применения критерия. Для того чтобы минимизировать вероят ность появления ошибки второго рода, мы запишем нулевую ги потезу при условии, что она будет отклонена. Если гипотеза от клоняется, то вероятность появления ошибки второго рода равна нулю, тогда как вероятность появления ошибки первого рода из вестна, так как она задается заранее. Если, однако, критерий не приводит к отклонению нулевой гипотезы (т. е. нулевая гипо теза принимается), то появляется некоторая вероятность сделать ошибку второго рода. Эта вероятность р, вообще говоря, неиз вестна. Таким образом, если гипотеза о равенстве средних отвер гается, мы делаем вывод о том, что две изучаемые совокупности имеют различные средние значения, и вероятность того, что при нято ошибочное решение, равна а. С другой стороны, если Н0 не
отвергается, утверждение о том, что средние двух совокупностей совпадают, может оказаться ложным с неизвестной вероят ностью р.
Все статистические критерии основаны на предположении, что нулевая гипотеза и альтернатива к ней взаимно исключают друг друга и вместе образуют полное множество событий. Так как нулевая гипотеза записывается в явном виде, то альтерна тива должна быть довольно общей. Если Но отвергается, то мы считаем, что заданное соотношение, описываемое нулевой гипо тезой, не выполняется. Более того, истинное соотношение в этом случае содержится в обширном множестве альтернатив, заклю ченных в общей альтернативе. Мы не можем определить, какое из соотношений истинно; мы можем только установить, какое из соотношений не выполняется. Иногда в математической стати стике применение статистических критериев позволяет говорить об «опровержении нулевой гипотезы» против альтернативы о неуспехе опровержения. Неуспех опровержения, которому со ответствует неизвестная вероятность принятия ошибочного реше ния, не является эквивалентом принятия гипотезы. Статистиче ские критерии в некотором смысле не могут сказать нам, что именно имеет место, а только могут сказать, чего нет.
Возвращаясь к нулевой гипотезе и альтернативе, определен ной формулами (3.19) и (3.20), предположим, что мы сочли уро вень значимости (т. е. вероятность ошибки первого рода) а= 0 ,0 5 подходящим для наших целей. Иными словами, мы допускаем возможность приблизительно 5 раз на 100 испытаний ошибочно отвергнуть проверяемую гипотезу в случае, когда она верна.
Предположим, что дисперсия совокупности, по отношению к которой ведется проверка, нам известна. Палеонтолог опреде лил, что дисперсия значений длины для совокупности особей рода Composita равна 22,1 (напомним, что стандартное откло нение было 4,7). Теперь мы можем формально записать стати стический критерий следующим образом:
1. Пусть проверяемая гипотеза и альтернатива имеют сле дующий вид: H0 : HI = HO ,
H i: 14 ф р.0.
2.Принимаем уровень значимости
а= 0,05.
3.Вычисляем статистический критерий:
Если выборка взята |
наудачу из нормальной совокупности |
с известной дисперсией, |
то статистический критерий Z будет |
распределен нормально со средним значением, равным нулю, и дисперсией, равной единице. Мы приняли соглашение о том, что приблизительно один раз на 20 испытаний мы допускаем оши бочное отклонение гипотезы о равенстве средних, в то время как она верна. Иными словами, мы принимаем пятипроцентный уро вень риска или вероятность ошибки первого рода равную 0,05. Определим для стандартизованного нормального распределения область, заключающую 5% площади под кривой нормального распределения. Эта область называемая критической. Если вы численное значение статистического критерия попадает в эту об ласть, мы вынуждены отклонить нулевую гипотезу.
Так как альтернатива — просто одно из неравенств, то гипо теза будет отклонена, если значение критерия слишком велико или слишком мало. Это значит, что существует три возможных ситуации: р1= р 0, |ii>|io или pi<|io. В данном случае нас не ин тересует различие между двумя последними неравенствами. По этому критическая область охватывает крайние значения оси абсцисс, причем каждая подобласть занимает 2,5% площади, ограниченной кривой нормального распределения.
Сказанное можно резюмировать следующим образом: мы знаем характеристики нормальной кривой, которые получены из теоретических соображений и поэтому их эмпирическое использо вание вполне оправданно. Если мы з>раем дисперсию нормально распределенной совокупности, тоЧмы знаем также процентное содержание индивидуумов, размеры которых заключены в раз личных пределах (например,' мы знаем, что две трети индиви дуумов приходится на интервал с центром в среднем значении, имеющий длину, равную двум стандартным отклонениям). Если индивидуумы извлечены из этой совокупности случайным образом, вероятность получения выборки в заданном интервале кривой распределения равна площади, заключенной под соответ ствующей частью этой кривой. Если выборка извлечена из об ласти, соответствующей очень малой вероятности, то мы заклю чаем, что наша выборка не является выборкой из совокупности, указываемой гипотезой, и мы отвергаем нулевую гипотезу. Од нако имеется некоторая вполне определенная вероятность из влечь выборку из критической области совокупности, равная площади этой критической области.
Возвращаясь к примеру Composita, напишем:
1. |
Но:н- плиты = 14,2 |
мм |
|
H i : (х плиты Ф 14,2 |
мм |
2. |
а-уровень = 0,05 |
|
3. |
Z = 3 0 ,0 - 1 4 ,2 |
8,2 |
4.7/У'б
числа наблюдений над числом оцениваемых параметров рас пределения. Число степеней свободы можно определить и как
Т а б л и ц а 3.9
Критические значения t-критерия при v степенях свободы и заданном уровне значимости [10]
Число степеней свободы
Уровень значимости ос,%
|
1 0 |
5 |
2 ,5 |
1 |
1 |
3 0 7 8 |
6 3 1 4 |
12 706 |
31821 |
2 |
1888 |
2 9 2 0 |
4 3 0 3 |
6 9 6 5 |
3 |
1638 |
23 5 3 |
3182 |
4541 |
4 |
1533 |
21 3 2 |
2 7 7 6 |
3747 |
5 |
1476 |
2 0 1 5 |
2571 |
3 3 6 5 |
6 |
1440 |
1943 |
2447 |
3143 |
7 |
1415 |
1895 |
236 5 |
2 9 9 8 |
8 |
1397 |
1860 |
2 3 0 6 |
289 6 |
9 |
1383 |
1833 |
22 6 2 |
2821 |
10 |
1372 |
1812 |
222 8 |
2 7 6 4 |
11 |
1 363 |
1 796 |
2201 |
2 7 1 8 |
12 |
1356 |
1 782 |
217 9 |
2681 |
13 |
1350 |
1 771 |
2 1 6 0 |
2 650 |
14 |
1345 |
1 761 |
2 1 4 5 |
* 6 2 4 |
15 |
1 341 |
1 753 |
2131 |
280 2 |
16 |
1337 |
1 7 4 6 |
2 1 2 0 |
2 5 8 3 |
17 |
1333 |
17 4 0 |
211 0 |
258 7 |
18 |
133 0 |
1 7 3 4 |
2101 |
2*552 |
19 |
1328 |
172 9 |
209 3 |
2 5 3 9 |
20 |
1325 |
1 725 |
2 0 8 6 |
252 8 |
21 |
1323 |
1 721 |
208 0 |
251 8 |
22 |
1321 |
1717 |
2 0 7 4 |
2508 |
23 |
1 319 |
1 714 |
20 6 9 |
250 0 |
24 |
1318 |
1711 |
2 0 6 4 |
2492 |
25 |
1316 |
1708 |
2 0 6 0 |
2 4 8 5 |
26 |
1315 |
1 706 |
2 0 5 6 |
2 4 7 9 |
27 |
1 314 |
1703 |
20 5 2 |
2 4 7 3 |
28 |
1313 |
1701 |
2 0 4 8 |
2467 |
29 |
1311 |
1699 |
2045 |
*4 6 2 |
30 |
1310 |
1697 |
204 2 |
2457 |
40 |
1303 |
1684 |
2021 |
2423 |
во ^ 1296 |
1671 |
2 0 0 0 |
* 3 9 0 |
|
120 |
1 289 |
1658 |
1980 |
2 3 5 8 |
00 |
1282 |
1645 |
1980 |
2 326 |
0 ,5
63657
9*925
5841
4 6 0 4
4 0 3 2
3707
3 499
3 3 5 5
3*250
3 1 6 9
3 1 0 6
3 0 5 5
301 2
2*977 *9 4 7
2921
2898
*8 7 8
*8 8 1
2 8 4 5
*8 3 1
*8 1 9
*8 0 7
*7 9 7
*7 8 7
*7 7 9
*7 7 1
*7 6 3
2 7 5 6
*7 5 0
*7 0 4
*6 8 0
*8 1 7
2 5 7 8
0 ,1
316310
2 *3 2 7
10*215
7 1 7 3
5 8 9 3
5 2 0 8
4 7 8 5
4501
4 2 9 7
4 1 4 4
4 0 2 5
3*930
3*852
3*787
3 7 3 3
3*886
3*646
*6 1 0
*5 7 9
*5 5 2
*5 2 7
*5 0 5
3 4 8 5
*4 6 7
3 4 5 0
3 4 3 5
*4 2 1
3 4 0 8
*3 9 6
*3 8 5
*3 0 7
*2 3 2
*1 6 0
*0 9 0
число независимых связей в оце- ! |
|
Т а б л и ц а ЗЛО |
|||||||||||
ниваемой |
выборке. |
В большин |
Результаты измерения пористости |
||||||||||
стве |
элементарных |
задач |
это |
десяти образцов песчаников |
|||||||||
число |
на |
единицу |
меньше |
числа |
Тенслип пенсильванского возраста, |
||||||||
наблюдений. Рассмотрим три на |
впадина Бигхорн, Вайоминг |
||||||||||||
блюдения |
А, |
|
В, |
С. |
Сравнения, |
Номер образца |
Пористость (%) |
||||||
которые можно провести в этом |
|||||||||||||
|
|
|
|||||||||||
случае, |
сводятся |
к |
следующему: |
|
|
13 |
|||||||
А с В, |
А с С и С с В . |
Однако |
01 |
|
|||||||||
если связи А с В и А с С опреде |
02 |
|
17 |
||||||||||
лены, |
то |
автоматически |
опреде |
03 |
|
15 |
|||||||
ляется |
и связь |
С с В. Таким об |
04 |
|
23 |
||||||||
разом, |
|
для |
определения |
числа |
|
||||||||
|
05 |
|
27 |
||||||||||
степеней |
свободы |
системы |
трех |
|
|||||||||
наблюдений необходимо провести |
06 |
|
29 |
||||||||||
только два сравнения. |
|
|
07 |
|
18 |
||||||||
Число |
степеней свободы |
всег |
08 |
|
27 |
||||||||
да является |
целым |
положитель |
09 |
|
20 |
||||||||
ным числом и обычно обозна |
|
||||||||||||
ч10 |
|
24 |
|||||||||||
чается греческой буквой v. Таб |
|
||||||||||||
лицы t-распределения (и |
других |
|
|
|
|||||||||
выборочных |
распределений) ис |
|
Сумма |
213 |
|||||||||
пользуются точно таким же обра |
|
Среднее 21,3 |
|||||||||||
зом, как |
и таблицы |
кумулятив |
|
||||||||||
|
S2 = |
30.46 |
|||||||||||
ного |
стандартного |
нормального |
|
||||||||||
распределения; |
отличие |
состоит |
|
s = |
5.52 |
||||||||
лишь в том, что для нахождения |
|
|
|
||||||||||
требуемой |
вероятности |
в |
таб |
|
|
|
лице t-распределения надо знать два числа: а — заданный уро вень значимости (вероятность ошибки первого рода) и число степеней свободы v. Табл. 3.9 является сокращенным вариантом таблицы значений t-распределения; более подробные таблицы можно найти во многих руководствах по математической ста тистике.
Так называемые t-критерии, которые основаны на распреде лении Стьюдента, полезны для проверки гипотезы о том, что данная выборка извлечена из совокупности с заданными харак теристиками или же для проверки гипотезы 66 однородности двух выборок. Проблемы такого типа рассматриваются во ввод ных курсах в математическую статистику и являются основными в экспериментальных науках и в области контроля качества про дукции.
Пусть, например, нам нужно проверить гипотезу, заключаю щуюся в том, что ряд образцов песчаника Тенслип, результаты анализов которых приведены в табл. 3.10, взят из одной сово купности, имеющей среднюю пористость более 18%. Допустив,