Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

Это очень полезное соотношение, так как иногда мы знаем условную вероятность в одной форме, но интересуемся и дру­ гой. Например, известно, что рудные поля часто характеризу­ ются наличием геомагнитных полей, отличных от нормальных. Однако мы больше интересуемся обратным, а именно, какова вероятность того, что некоторое поле окажется минерализован­ ным. причем последнее обусловлено наличием магнитной ано­ малии. Нам проще оценить условную вероятность р (аномалпя/мпнералпзаиия) и безусловную вероятность р (минерали­

зации), исходя из

изучения

известных рудных районов, одна­

ко труднее прямо

оценить р

(минералнзации/аномалин), так

как это может потребовать исследования геомагнитных анома­ лий которые, возможно, еще не были предсказаны.

Предположим, что мы имеем п несовместимых событий В и Вг, ...,В,Ь которые обусловливают событие А, тогда вероятность осуществления события А есть попросту сумма условных веро­

ятностей Р

(А!В.),

умноженных

на вероятности

событий В/,

то есть

 

П

 

 

 

 

 

(2.9,

 

Р(А)= %Р (А \ В,)Р(В}).

 

 

/=I

 

 

Если (2.9)

подставить вместо Р(А) в уравнение Байеса, в фор-

'ме (2.8), то мы получим более общее уравнение

 

 

P{Bj

Р(А

|В ;)Р(В } )

(2. 10)

 

I А) =

 

2 Р (Л I В,)Р(В,)

/=I

Простой пример с двумя возможными независимыми исходами иллюстрирует теорему Байеса.

В русле потока в Западном Канзасе был найден фрагмент до сих пор неизвестного вида мезозавров, и специалист по па­ леонтологии позвоночных счел целесообразным послать студен­ ческую полевую партию для поиска более полного набора ис­ копаемых остатков. К сожалению, место обнаружения уже найденного фрагмента нельзя было идентифицировать с полной уверенностью, так как ископаемое было найдено ниже слияния двух сухих русел. Площадь дренажного бассейна более круп­ ного потока около 18 условных единиц, в то время как пло­ щадь бассейна, дренируемого меньшим руслом, около 10 ус­ ловных единиц. На основе только такой информации, мы мо­ жем постулировать, что вероятность того, что фрагмент при­ несен из какого-либо одного дренажного бассейна, пропорцио­ нальна площади этого бассейна или

Р(В1) = ~ = 0,64, Р(В1) = -^ - = 0.36.

32

Однако исследование геологического доклада и карты региона дает дополнительную информацию о том, что около 35% обна­ жений меловых пород в большем бассейне являются морскими, в то время как в меньшем бассейне на их долю приходится почти 80% обнажений меловых пород. Мы можем поэтому по­ стулировать условную вероятность того, что если ископаемый фрагмент принесен из бассейна В, он является морским иско­ паемым, в соответствии с процентным соотношением меловых морских обнажений в бассейне, т. е. имеет морское происхож­ дение, или для бассейна В i P(A|Bi)=0,35 и для бассейна В 2 Р (А\В2)=0,80,

Используя эти вероятности и теорему Байеса, мы можем под­ считать условную вероятность того, что ископаемый фрагмент

принесен из бассейна В-, т. е. того, что

его происхождение

морское, по формуле

Р<А I

Д,)Р(.в,)

 

Р(В, | Л) =

 

Р(А | В1)Р(В1)

Р(.4 |

В2)Р(Вг)

 

(0,35) (0,64)

=

0,44.

 

 

(0,35.1(0,64) - f (0,80)(0,36)

 

Аналогично, вероятность того, что ископаемый фрагмент при­ несен из меньшего бассейна, можно подсчитать по формуле

Р(Вг | Л) == _______ (0,80)

(0,36)

0,56.

(0,35)(0,64) +

(0,30)(0,36)

 

К счастью для студентов, которые должны исследовать пло­ щадь, представляется несколько более правдоподобным, что фрагмент морского ископаемого мезозавра принесен из мень­ шего бассейна, а не из большего. Однако различия в вероят­ ностях очень малы, и, конечно, зависят от обоснованности до­ пущений, используемых для оценки вероятностей.

Для того чтобы перейти к следующей теме, мы должны вер­ нуться к биномиальному распределению. На рис. 2.2 представ­ лено вероятностное распределение для всех возможных чисел выпадения гербов и решек при трех бросаниях монеты. Анало­ гичный эксперимент молено осуществить при большем числе испытаний. На рис. 2.7, например, представлены вероятности получения заданного числа «успехов» (гербов) в десяти броса­ ниях монеты, а на рис. 2.8— вероятностное распределение, ко­ торое описывает результаты эксперимента, состоящего из 50 бросаний монеты. Все эти вероятности были получены из таб­ лиц биномиального распределения или могут быть вычислены из биномиального уравнения.

В каждом из этих экспериментов вычислялись все возмож­ ные числа гербов, которые можно получить, начиная с 0 до 3, 10, 50. Никакие другие комбинации гербов и решек не могут

3—201

33

0,25

0,20

°

0,15

 

 

 

 

 

 

 

ос

 

 

ш

 

 

 

 

 

2-

0,10

 

Ц W/M

 

 

 

 

Ю

 

 

 

 

7

 

 

 

 

 

 

 

 

 

 

 

0,05

 

 

 

 

//Y sA

ш

 

 

 

'//%

 

 

 

 

 

0,00

Ш А г

 

Л'/У/Л. -'У/Л7Я7Л

I

 

У7Г7%у&

6

 

 

 

4

5

7

8

10

 

 

 

 

Число

 

гербсв

 

 

Рис. 2.7. Дискретное распределение, показывающее вероятность получения за­ данного числа гербов при десяти бросаниях монеты

Рис. 2.8. Дискретное распределение, показывающее вероятность получения за ­ данного числа гербов при 50 бросаниях монеты

встретиться. Так как мы обязательно получаем какой-либо ре­ зультат из перечисленных выше, то сумма всех вероятностей в каждом эксперименте должна равняться 1,00. Это удобно пред­ ставить, полагая площади под гистограммами на рис. 2.7 и 2.8 равными 1,00, как это сделано на гистограмме, изображенной на рис. 2.2. При таком условии увеличивающееся число броса­ ний монеты будет сопровождаться только сужением ширины

34

полос. Гистограмма становится все более напоминающей глад­ кую п непрерывную кривую. Можно представить себе экспери­ мент, состоящий в бесконечном числе бросаний монеты, в ре­ зультате которого будет получено бесконечное число полос бесконечно малой ширины. Тогда гистограмма превратится в непрерывную кривую, и горизонтальная ось будет представлять

скорее непрерывную, чем дискретную

переменную.

дело с дис­

В эксперименте бросания

монеты

мы

имеем

кретными исходами, т. е. со

специфической

комбинацией гер­

бов и решек. Однако в большинстве экспериментов,

встречаю­

щихся на практике, возможные исходы не являются дискрет­ ными. Обычно имеется бесконечный континуум возможных ис­ ходов, которые могут быть получены. Множество возможных исходов может быть конечным и на самом деле ограниченным, но в пределах этого множества результат, который может быть получен, нельзя предсказать точно. В данном случае мы имеем дело с непрерывными случайными переменными. Предполо­ жим, например, что измеряется длина замочного края ракови­ ны брахиоподы и установлено, что она равна 6 мм. Однако если провести измерение, используя бинокулярный микроскоп, то можно получить длину 6,2 мм, а при использовании компа­ ратора— 6,23 мм, и, наконец, используя сканирующий элект­ ронный микроскоп, получим 6,231 мм. Непрерывная перемен­ ная теоретически может бесконечно подразделяться. Это явля­ ется следствием того факта, что всегда можно найти разность между двумя измерениями, если проводить измерения в доста­ точно мелкой шкале. Следствие этого утверждения таково, что каждый исход в непрерывной шкале измерений уникален и что вероятность получения конкретного точного результата равна нулю.

Если это так, то кажется невозможным определить вероят­ ность на основе относительных частот встречаемости. Однако хотя невозможно наблюдать исходы, которые в точности соот­ ветствуют 6,000...000 мм, вполне доступно получить ряд измере­ ний, попадающих внутрь некоторого интервала, включающего это значение. При том, что индивидуальные изменения в точ­ ности не идентичны, они достаточно близки н можно считать их принадлежащими одному классу. В итоге разобьем непре­ рывную шкалу на дискретные сегменты, и тогда можно подсчи­ тать число событий, попавших внутрь каждого интервала. Су­ жая границы класса, мы уменьшим число событий в нем, и снизим оценки вероятностен появления события.

Если мы имеем дело с дискретными событиями, то опреде­ ляем значения с абсолютной точностью. Непрерывные перемен­

ные, однако, измеряются с помощью

некоторых

физических

процедур, которые ограничивают

точность

их

измерения.

В повторных измерениях, сделанных

на одном

и том же объ­

3*

35

екте, возникают малые отклонения, величина которых отража­ ет как естественные изменения объекта, так и изменения в ус­ ловиях проведения измерений и, кроме того, изменения, обус­ ловленные деятельностью исследователя, производящего изме­ рения. Единственное, точное, «истинное» значение не может быть определено; иными словами, мы наблюдаем непрерывное распределение возможных значений. Такие свойства присущи непрерывной случайной переменной.

Для иллюстрации непрерывных случайных величин рас­ смотрим задачу определения показателя проницаемости образ­ цов из керна скважины. Проницаемость определяется временем, требуемым для проникновения заданного количества флюида при стандартных условиях через образец породы. Допустим, что в результате одного определения получена проницаемость, равная 0,108 мкм2. Является ли это число «истинной» проница­ емостью пробы? Другие определения на этом же образце мо­ гут дать проницаемость, равную 0,093 и 0,112 мкм3. На прони­ цаемость, записываемую приборами в ходе любого эксперимен­ та, влияет ряд условий, которые внутри прибора неизбежно изме­ няются от одного определения к другому в результате капри­ зов потока и его турбулентности и не зависят от действий опе­ ратора. Ни одно из полученных значений нельзя взять в каче­ стве абсолютной меры истинной проницаемости. В итоге различные источники флуктуации порождают непрерывную случайную величину, которую мы подвергаем опробованию, де­ лая повторные измерения.

Изменчивость, обусловленная неточностью инструментов, более очевидна, когда делаются повторные измерения на еди­ ничном объекте, т. е. испытания повторяются без изменений. Такую изменчивость называют ошибками эксперимента. Кроме этого, изменчивость может проявляться в последовательности измерений или результатов экспериментов, проводимых на ря­ де изучаемых объектов. Обычно именно эта изменчивость и представляет научный интерес. Довольно часто оба эти типа изменчивости так перепутаны или совмещены, что эксперимен­ татор не может определить, какая часть изменчивости возника­ ет в силу различий между условиями испытаний, а какая яв­ ляется следствием ошибок измерения.

Предположим, что у нас не образец породы, а значительнее! длины керн, взятый из скважины, проходящей через слой пес­ чаника. Мы хотим определить проницаемость песчаника, но не можем ввести керн длиной в 20 уел. ед. в аппарат для измере­ ния проницаемости. Вместо этого мы вырежем из керна не­ сколько малых частей (интервалов) и определим проницае­ мость каждого из них. Наблюдаемая изменчивость явится следствием различий как между испытуемыми частями керна, так и между условиями эксперимента. Разработка методов

36

Рис, 2.9. График плотности нормального распредслс-нил

оценки величины отдельных источников изменчивости — одна из важнейших задач статистики.

Повторные измерения, проводимые на больших выборках, взятых из естественных совокупностей, дают возможность оха­ рактеризовать распределение частот. Обычно большая часть значений группируется около некоторого центрального значе­ ния, при удалении от которого частоты убывают. График, пред­

ставленный

на рис. 2.9, имеет один

максимум

и

называется

нормальным

распределением. В приложениях

часто делается

допущение,

что случайные величины

распределены

нормально,

и многие статистические критерии основаны на этом допуще­ нии.

Общую площадь, заключенную между графиком нормально­ го распределения и горизонтальной осью, можно считать рав­ ной 1,00 (или 100%). Поэтому, используя график, можно вы­ числить вероятность соответствующего события. Читатель уже заметил, наверное, сходство одновершинной непрерывной кри­ вой, изображенной на рис. 2.9, с гистограммой, представленной на рис. 2.8. Однако поскольку в случае непрерывного распре­ деления число подразделений по горизонтальной оси можно считать бесконечным, вероятность получения какого-либо кон­ кретного значения равна нулю. Вместо этого мы рассмотрим вероятность появления значений в пределах некоторого задан­ ного интервала. Эта вероятность равна площади под кривой частот, заключенной между заданными пределами. Если ука­ панный промежуток велик, то осуществление события в этом промежутке представляется более правдоподобным. Если ин­ тервал очень мал, то появление события маловероятно.

Выше были введены без определения два важных статисти­ ческих понятия — «совокупность» и «выборка». Совокупность состоит из вполне определенного множества (либо конечного,

37

либо бесконечного) элементов. Вообще эти элементы можно рассматривать как измерения, выполненные на объектах задан­ ного типа. Выборка — это подмножество элементов, выбранных из некоторой совокупности.

Примером конечной совокупности могут служить все нефтя­ ные скважины, пробуренные в Канзасе в 1963 г., а набор все­ возможных шлифов песчаника Тэнслип — примером бесконеч­ ной геологической совокупности. Заметим, что в последнем при­ мере совокупность включает в себя не только ограниченное число испытаний, которые были сделаны, но также и все воз­ можные результаты испытаний. Испытания, которые были дей­

ствительно осуществлены, можно

рассматривать как выборку

из совокупности всех потенциально возможных испытаний.

Если наблюдения с заданными

свойствами систематически

исключаются из выборки, то такую выборку называют смещен­ ной. Предположим, например, что нас интересует пористость данного слоя песчаника. Если из выборки исключить все рых­ лые и раздробленные породы, так как их пористость трудно измерить, то результат изменится. Вероятно, полученный ин­ тервал значений пористости будет усечен справа, что даст сме­ щение выборки в сторону более низких значений, и потому мы получим ошибочно заниженную оценку изменчивости порис­ тости в слое.

Обычно выборки извлекаются из совокупности наудачу. Это значит, что все элементы совокупности имеют равные возмож­ ности быть включенными в выборку. Случайная выборка будет несмещенной, и по мере возрастания ее объема она будет точ­ нее описывать рассматриваемую совокупность. К сожалению, получение истинно случайной выборки практически невыполни­ мо, так как при опробовании геологических объектов не все их части доступны. Пробы нз глубинных объектов не имеют такой же возможности попасть в выборку, как пробы из поверхност­ ных обнажений. Задача опробования в подобных условиях весьма сложна. В конце этой главы рассматриваются эффекты, возникающие из различия выборочных схем, и проведено срав­ нение последних. Однако при решении многих геологических задач анализируются данные, собранные без предварительного выборочного плана. Ярким тому примером является интерпре­ тация погребенных структур по данным скважин.

СТАТИСТИКИ

Распределения имеют ряд характеристик, например, такие, как средняя точка, меры разброса и меры симметрии. Эти ха­ рактеристики называются параметрами, если они описывают совокупности, и статистиками, если они относятся к выборкам. Статистики можно использовать для оценки параметров нс-

38

Гб

td

 

s;

о

«=С

2

оа

Рис. 2.10, Соотношение между мерами центральной тенденции в асимметрич­ ном частотном распределении

ходных совокупностей и для проверки гипотез, сформулирован­ ных относительно этих совокупностей.

Наиболее очевидная характеристика совокупности или вы­

борки — ее среднее

значение.

Существуют

различные виды

среднего значения,

но только

некоторые из

них используются

на практике. Мода — значение, которое соответствует наиболь­

шей частоте. Например, в

распределении, приведенном на

рис. 2.10, мода соответствует наивысшей точке

кривой частот,

а медиана — средняя точка

распределения. На

рис. 2.10 пока­

зано, что половина площади под кривой распределения нахо­ дится справа от медианы, а другая половина — слева. Среднее

значение — это, иными

словами, среднее арифметическое, ко­

торое определяется как

сумма всех результатов наблюдений,

деленная на их число. В условиях асимметричных кривых рас­ пределения медиана расположена между средним значением и модой, а в случае симметричных кривых, подобных нормаль­ ной, все три меры совпадают.

Некоторые символы традиционно используются в качестве характеристик кривых распределения. Обычно для обозначения характеристик теоретических распределений используются гре­

ческие буквы, а для

выборочных — латинские. Так,

например,

выборочное среднее

обозначается X, а теоретическое

среднее

значение всей совокупности р. Основная задача обычно заклю­ чается в том, чтобы оценить некоторые параметры изучаемого распределения. Статистика, которую мы вычисляем по выборке из взятой совокупности, используется как оценка требуемого параметра. Применение греческих и латинских букв подчерки­ вает разницу между параметрами и соответствующими им ста­ тистиками.

39

Среднее арифметическое, вычисленное по данным выборки, имеет два в высшей степени желательных свойства, которые делают его более полезным для оценки среднего или централь­ ного значения распределения, чем любая из двух других вы­ борочных характеристик: медиана или мода. Во-первых, сред­ нее арифметическое является несмещенной оценкой истинного среднего значения совокупности. Необходимо отметить, что статистика — это несмещенная оценка соответствующего пара­ метра. если ее среднее значение, взятое по большому набору выборок, равно этому параметру. Во-вторых, можно показать, что для симметричных распределений, подобных нормальному, среднее арифметическое характеризуется тенденцией лучшего приближения к среднему значению совокупности, чем любая другая несмещенная оценка (такая, как медиана), построенная по топ же выборке. Это равносильно тому, что выборочные средние имеют меньшую дисперсию, чем выборочные медианы, и, следовательно, являются более эффективными.

В практике геохимического анализа принято проводить се­ рию определений на одном образце. В табл. 2.1 указано пять значений содержания хрома, полученных в результате спектро­ графического анализа образца глинистого сланца пенсиль­ ванского возраста из юго-восточного Канзаса. Найдите среднее арифметическое по этим данным.

Другая характеристика распределения— мера разброса от­ дельных значений относительно среднего, или дисперсия. Из­

вестны различные меры этого свойства, но только

две

нз них

широко используются. Одна нз них — уже упомянутая

диспер­

сия,

а другая — квадратный корень из дисперсии,

называемый

стандартным

отклонением. Дисперсию можно рассматривать

как

среднее

значение квадратов

отклонений всех

возможных

значений случайной величины от

истинного среднего

еовокуп-

 

 

 

Т а б л и ц а

2.1

 

 

 

Содержание хрома в сланцах Канзаса

 

 

 

 

Номер

Содержание Сг, г/т

 

 

 

 

1

205

 

 

 

 

2

255

 

 

 

 

3

195

 

 

 

 

4

220

 

 

 

 

5

235

 

 

 

Сумма

1110

 

 

 

Среднее значение

1110/5= 222

 

 

40

ности, которая определяется по формуле

 

 

 

 

П

 

 

 

 

о » . J - Г

 

( 2. 11)

 

 

п iJ

 

 

 

 

1=1

 

 

Этим

равенством

определяется истинная дисперсия

сово­

купности

о2. Выборочная дисперсия определяется

символом

s2. Если

наблюдения

X,.....Хп— случайная выборка

из

сово­

купности с нормальным распределением, то s2 является эффек­ тивной оценкой для а2.

Причина использования среднего значения квадратов откло­ нений может оказаться не совсем очевидной. Может показать­ ся, что целесообразнее охарактеризовать изменчивость просто как среднее значение отклонения от среднего, но простая про­

верка показывает, что такая

величина всегда равна

нулю,

т. е.

 

 

П

 

 

( * , - * ) = ( ) .

(2.12)

Конечно, можно оценить абсолютное отклонение от средне­

го, или так называемое среднее отклонение (MD):

 

 

П

 

=

X t— X | .

(2.13)

/=i

 

Вертикальные черточки обозначают абсолютное значение (т. е. значение, взятое без знака) заключенной в них величины. Од­ нако можно доказать, что эта статистика менее эффективна, чем выборочная дисперсия. Хотя это интуитивно и непонятно, необходимо подчеркнуть, что дисперсия имеет свойства, которые делают ее намного более полезной, чем другие меры изменчи­ вости.

Так как дисперсия является средним значением квадратов отклонений от среднего, то ее размерность характеризуется квадратами единиц, которыми измерялись исходные наблюде­ ния. Порода, например, может содержать кристаллы полевого шпата, большие оси которых имеют среднюю длину 13,2 мм и дисперсию 2,0 мм2. Многие не считают площадь мерой диспер­ сии длин. В большинстве примеров, где мы имеем дело с дис­ персией, она используется в стандартизированном безразмер­ ном виде, т. е. в виде, не зависящем от выбранных единиц из­ мерения. Этот вопрос будет еще подробно рассмотрен в данной

главе.

Для того чтобы получить статистику, которая характеризу­ ет дисперсию, или разброс данных относительно среднего зна­

41

Соседние файлы в папке книги