Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

Если мы установили, что последовательности не имеют ни чренда, ни автокорреляции, можно попытаться проверить гипо­ тезу о том, что события подчинены распределению Пуассона.

Напомним, что в гл. 2 распределение Пуассона определялось как дискретное вероятностное распределение, которое можно считать предельным случаем биномиального при условии, что п (число испытаний) становится очень большим, а р (вероят­ ность успеха в одном испытании) становится очень малой. Мы можем представить себе, что наш временный ряд подразделя­ ется на п интервалов равной длины. Если события происходят случайно, то число интервалов, которые содержат в точности нуль, одно, два, . . . , х событий, будет подчиняться биномиаль­ ному распределению.

Если мы начнем уменьшать длины интервалов, п будет уве­ личиваться, а вероятности событий будут уменьшаться. Бино­ миальное распределение в этом случае уже не годится для под­ счетов, н удобнее пользоваться распределением Пуассона, так как в нем не требуется точных сведений о величинах п и р . Вместо этого требуется знать произведение пр=%, которое здесь характеризует скорость появления событий. Пуассоновская вероятностная модель основана на следующих допущениях: а) события происходят независимо; б) вероятность появления события не изменяется с течением времени; в) вероятность появления события в некотором интервале пропорциональна длине этого интервала; г) вероятность того что более чем два события произойдут в одном и том же временном интервале, исчезающе мала.

Уравнение для определения пуассоновского

распределения

в этом примере имеет вид

 

Р(Х) = е~УXх!XU

(4.6)

Заметим, что скорость появления событий % здесь является только параметром распределения. Типичные пуассоновские частотные распределения представлены на рис. 4.11. Распреде­ ление Пуассона применяется при решении таких задач, как оп­ ределение частоты телефонных вызовов на коммутаторе или определение промежутка времени между сбоями в вычисли­ тельной системе. Кажется вполне возможным его использование при изучении рядов геологических событий, описанных в нача­ ле этого раздела. Если мы смогли установить, что наша после­ довательность подчиняется пуассоновскому распределению, то мы можем использовать характеристики этого распределения для вероятностного прогнозирования данного ряда.

Критерий Колмогорова—Смирнова обеспечивает нам про­ стой способ проверки соответствия распределения ряда событий пуассоновскому распределению. Сначала ряды переводятся в

292

 

а

 

 

 

 

 

Я = 2

Р

 

 

 

 

 

 

 

 

0,2

 

 

 

 

 

0,2

 

 

 

 

 

 

 

0,1

 

 

° , 1

 

 

1

j__ 1_

 

 

 

 

 

'0,0

В

Ш

0,0 Ь_

2

4

 

12

6 8

10

12

Р

 

%= 0,6

 

 

 

 

 

0,5 г

 

 

 

 

 

 

 

0,4 -

 

 

 

 

 

 

 

0,3

-

 

 

 

 

 

 

 

0,2 -

 

Рнс.

4,11.

Пуассоновское

распре­

 

 

 

деление с

различными значениями

 

 

 

X, построенное по числам появле­

Ч и с л о появлений событий на интервал

 

ния событий

 

 

кумулятивную форму с помощью преобразования

 

 

 

 

 

У£ = Ц Т ,

 

 

 

 

 

где

ti — время от начала

последовательности

до г-го события;

Т — общая длина ряда. Затем вычисляются три оценки:

 

 

 

1.

КС+ =

Y n m ax (—------ YX

 

 

 

 

 

 

\ п

)

 

 

 

 

2.

КС* =

К га т ах М — —

I

 

(4.7)

 

 

 

I

 

л

I

 

 

 

3.

КС+ = тах|/сс+

КС~\.

 

 

 

Первый критерий — это просто максимум положительных раз­ ностей между наблюденным рядом и ожидаемым, исходя из пуассоновского распределения; второй — это максимум отрица­ тельной разности и третий — это большее из абсолютных зна­ чений двух предыдущих. Проверяемая статистика КС затем сравнивается с двухсторонними критическими значениями, при­ веденными в табл. 2.26. Если статистика превышает критическое значение, то максимальное отклонение больше, чем ожидаемое в выборке, полученной случайным образом из пуассоновского распределения.

Маури Шейл — это черные, содержащие кремний, глины раннего мелового возраста, встречающиеся на территории шта­ тов Колорадо, Вайоминг и Монтана. Интервал характеризуется многочисленными бентонитовыми слоями, которые залегают в нескольких местах в Вайоминге и Монтане и обнаруживаются при бурении на ил и литейную глину. Бентониты состоят из монтмориллонита, возникающего как продукт разрушения вул­ канического пепла риолитового и андезитового состава. В табл. 4.7 приводятся значения мощности интервалов между последо­ вательными бентонитовыми слоями, измеренными в обнажении

13— 201

193

Таблица 4.7

Мощность (в футах) интервалов между последовательными бентонитовыми слоями в меловых отложениях Маури Шейл

во Фремонт Кантри (щтат Вайоминг)

(Верх)

47

6

29

7

3

11

8

17

6

23

4

5

10

5

10

15

4

5

2

26

17

35

4

14

4

(Низ)

Маури Шейл во Фремонт Кантри (штат Вайоминг). Эти слои представляют скопления пепла в результате бурных изверже­ ний вулканов в Идахо. Предполагается, что содержащаяся там черная глина откладывалась с постоянной скоростью, и эту по­ следовательность значений мощности можно анализировать как ряд событий, аналогичный историческому ряду, образованному извержениями Асо.

Проверьте эти данные на тренд в значениях скорости появ­ ления. Если тренд не будет обнаружен, проверьте на автокор­ реляцию последовательные интервалы между событиями. Объ­ ясните: а) возможные эффекты от неодинаковых скоростей осадконакопления черной глины и б) возможность проявления активности более одного вулкана.

КРИТЕРИЙ СКАЧКОВ

Простейшая последовательность — это последовательность наблюдений, расположенных в порядке их появления, причем такая, что каждый ее элемент принадлежит одному кз двух взаимоисключающих друг друга состояний. Рассмотрим трещи­ новатую породу с конкрециями с целью поиска в них ископае­ мых остатков. Дробление конкрепнй является испытаниями, причем каждое из них имеет два взаимоисключающих исхода: конкреция либо содержит ископаемые остатки, либо нет. Пс-ле- довательность таких исходов при изучении данной породы в те­ чение дня составляет временной ряд специального типа. Мы мо­ жем построить аналогичную последовательность эксперимен­ тально, бросая монету и отмечая выпадение герба или решки. Полученная последовательность будет напоминать следующий ряд 20 событий:

ГРГГРГРРРГРГРГГРРГГГ.

Конечно, интуиция подсказывает нам, что в этой последователь­

194

ности должно появиться около десяти гербов, и мы можем оп­ ределить вероятность выпадения этого (или любого другого) числа гербов. В нашем примере мы получили 11 гербов; счи­ тая, что монета правильная, мы получаем вероятность выпаде­ ния этого числа гербов в последовательности 20 испытаний, равную 0,16, или приблизительно 1/6. В эксперименте, анало­ гичном рассмотренному, мы можем ожидать 9, 10 и 11 выпаде­ ний гербов, т. е. немногим больше одной трети от числа испыта­ ний. Результаты этого эксперимента подчиняются биномиаль­ ному распределению, рассмотренному в гл. 2.

Однако при этом мы не учли порядка, в котором появляют­ ся гербы. Вероятно, если бы последовательность выглядела та­ ким образом:

ГГГГГГГГГГГРРРРРРРРР,

то это показалось бы нам очень странным, хотя вероятность получения такого же количества гербов в двадцати испытани­ ях такая же, как и в предыдущем примере. Другой крайний случай — попеременное появление гербов и решек:

ГРГРГРГРГРГРГРГРГРГГ,

тоже выглядит очень необычно, хотя вероятность выпадения данного числа гербов осталась неизменной. В этих примерах наше подозрение вызывает не пропорция, в которой выпадают гербы, а порядок их появления. Мы предполагаем, что выпаде­ ние :ерба или решки случайно, а в двух последних примерах это предположение кажется весьма неправдоподобным.

Мы можем проверить гипотезу о случайности этой последо­ вательности путем исследования числа скачков. Скачки опреде­ ляются как непрерывающиеся последовательности одних и тех же состояний. Первая последовательность содержит 13 скачков, вторая — только 2, и третья— 19. Скачки в первой последова­ тельности подчеркнуты:

_г_ Л

Л 1

р_ Л

ррр л

Л I L

л .

п л

 

1

2

3

4

5

6

7

8

9

10

11

12

13

Мы можем вычислить вероятность того, что данную последова­ тельность скачков в эксперименте с двумя исходами (герб или решка в этом примере) можно считать случайной. С этой целью вычисляется число возможных размещений /if состояний 1 и п2 состояний 2. Общее число скачков в последовательности обо­ значается через U\ имеются таблицы, которые содержат крити­ ческие значения числа скачков U для фиксированных п\, п2 и заданного уровня значимости а. Однако если каждое из зна­ чений П\ и П2 превышает десять, то распределение величины U довольно хорошо аппроксимируется нормальным распределе­ нием, и мы при использовании этого статистического критерия

13'

195

можем использовать таблицы стандартного нормального рас­ пределения. Среднее число скачков в случайной последователь­ ности с П\ успехами и л2 неудачами равно

U =

- + 1.

(4.8)

 

П1+ П2

 

Дисперсия среднего числа скачков вычисляется по формуле

а ! _

2 « i « a ( 2 « i«>h2 —п2)

4 g

и

( « 1 + > к ) 2 ( « 1 + « 2 О

 

Указанные формулы позволяют определить среднее число скачков и стандартную ошибку среднего числа скачков при всевозможных размещениях П\ и я2 взаимоисключающих друг друга исходов. Вычислив указанные характеристики, мы можем по формуле (4.10) получить критерий Z:

Z —[U U)/OQ,

(4.101

где U — наблюдаемое число скачков.

Легко убедиться, что это просто формула (2.28), переписан­ ная для величины U, относительно которой можно сформулиро­ вать и проверить ряд статистических гипотез. Например, при случайном размещении нам может потребоваться проверка ги­ потезы о том, что последовательность содержит более чем сред­ нее число скачков; в этом случае нулевая гипотеза и альтерна­ тива могут быть записаны так:

Н0 : U

H y . U > U ,

т. е. слишком большое число скачков приводит к отклонению гипотезы. Этот критерий является односторонним. Наоборот, мы можем пожелать определить, не содержит ли последова­ тельность невероятно малое число скачков. В этом случае соот­ ветствующая гипотеза и альтернатива записываются в виде

H0 : U > U,

Ну. U < U

и слишком низкое число скачков приведет к отклонению ну­ левой гипотезы. Этот критерий также является односторонним. Если мы хотим отклонить гипотезу о любом нарушении слу­ чайности в последовательности, то для этой цели подходит двусторонний критерий для проверки гипотезы:

Н 0 : U = 77

при альтернативе

Н у . U Ф и .

196

Мы можем применить этот критерий для проверки гипотезы о случайном расположении элементов первой последовательности, содержащей результаты испытаний при 20 бросаниях монеты. Нулевая гипотеза утверждает, что нет существенного различия между наблюдаемым числом скачков и средним числом скач­ ков для случайной последовательности того же объема. Мы ис­ пользуем для ее проверки двусторонний критерий. Нулевая гипотеза отвергается, если в этой последовательности имеется либо слишком мало, либо слишком много скачков и принима­ ется альтернатива

Ht : U ф(7.

Выбрав 5%-ный уровень значимости (а=0,05), мы получим границы критической области —1,96 и +1,96. Сначала вычис­ лим среднее значение и стандартное отклонение для числа скач­ ков в случайной последовательности, имеющей п,\ гербов (л,= = 11) и л2 решек (л2 = 9):

U = -2 ' -1— + 1 = 10,9,

1 1 + 9

а2 (2-11 - 9) (2 -11 - 9 — 11 — 9)

и~ ( 9 + ц ) 2 ( 9 + п _ 1 )

Статистика Z равна

Z =

13— 10,9

= 1,0.

 

 

Таким образом, число скачков в последовательности мень­ ше стандартного отклонения от среднего значения всех возмож­ ных скачков в такой последовательности и не попадает в кри­ тическую область. Следовательно, указанное число скачков не дает оснований для отклонения нулевой гипотезы и принятия предположения, что последовательность не является случайной. Другие последовательности, наоборот, дают совершенно отлич­ ные значения критерия. Так как п\ и л2 одинаковы для всех трех последовательностей, то U и og также одинаковы. Для

второй последовательности значения критерия

для третьей

z = l9+J0+9 = 3 9

2,1

Оба эти значения расположены за критическими пределами, и мы должны отклонить гипотезу о случайном расположении элементов последовательностей.

197

Геологические применения этого критерия не вполне оче­ видны, так как обычно приходится рассматривать последова­ тельности с числом состояний, большим двух. Стратиграфиче­ ские разрезы или, например, пересечения шлифа обыкновенно содержат не менее трех состояний, которые нельзя ранжиро­ вать никаким осмысленным образом. Мы рассмотрим способы, с помощью которых часть последовательностей можно привести к последовательности дихотомических состояний, но прежде мы остановимся на геологическом примере применения критерия скачков при изучении системы с двумя состояниями.

Обычные пегматиты образуются при кристаллизации оста­ точного расплава, обогащенного летучими веществами при от­ вердении гранитной магмы. Их структура обусловлена одновре­ менной кристаллизацией кварца и полевого шпата в эвтектиче­ ской точке. Если кристаллизация пегматита происходит без помех, то можно допустить, что зерна кварца и полевого шпата возникают в случайных точках внутри охлаждающего распла­ ва. Эта ситуация (случайное образование зерен) остается не­ изменной до тех пор, пока расплав затвердеет. Однако присут­ ствие одного кристалла, например полевого шпата, может сти­ мулировать дополнительное образование зерен полевого шпата и привести к возникновению пестрой структуры. Наоборот, рост одного кристалла может локально исчерпать из магмы нужные составляющие и приостановить кристаллизацию, в ре­ зультате чего возникает пестрая мозаика из кварца и полевого шпата. Большую плиту полированного пегматита можно рас­ сматривать как окно в геологическую кухню, в которой студен­ там дана возможность изучения этих альтернативных процес­ сов. Полированная поверхность породы позволяет легко уста­ новить контакты между слагающими ее зернами, поэтому ли­ ния, проведенная на ней, приводит к построению последова­ тельности зерен кварца и полевого шпата. Линия на полирован­ ной плите может рассматриваться как случайная зыбопка из возможных последовательностей в теле пегматита, из которого была извлечена эта плита. Последовательность зерен кварца и полевого шпата вдоль линии указана в табл. 4.8. Наша зада­ ча— изучить скачки от кварца к полевому шпату, проверить случайность последовательности и определить, нет ли теидеп-

Т а б л и ц а 4.8

Последовательность 100 зерен полевого шпата (П ) н кварца (К)> полученная при пересечении пегматита

(Начало)

ПК К П К К П П К П К П Г Ш П П П П К К П К П П П К П П П П К П П П К

кп кпк кк пп пппкпппппккккппкккппппппк пкпппппкпкпкппкп ппп пк ппп ккп кпп к

(Конец)

19

Рис. 4.12. Последовательность наблюдений, которая анализируется методом скачков вверх и вниз

ции к систематическому следованию одного состояния за самим собой или, наоборот, тенденции одного состояния следовать не­ посредственно за другим. Выполните исследование этих дан­ ных с помощью критерия скачков и оцените три альтернативы.

Теперь рассмотрим статистическую процедуру исследования скачков вверх и вниз. Она используется в тех случаях, когда мы имеем дело не с двумя различными состояниями, а когда последующее наблюдение больше или меньше, чем предыду­ щее. На оис. 4.12 изображена типичная последовательность, ко­ торую можно проанализировать методом скачков вверх и вниз.

Отрезок АВС изображает скачок вверх, так как каждое наблюдение превосходит предыдущее; аналогично отрезок GHI изображает скачок вниз. Отрезок CDEF изображает скачок вниз, несмотря на то, что разность между D и Е равна нулю. Действительно, интервал DE расположен между двумя отрез­ ками CD и EF, каждый из которых изображает скачок вниз, поэтому и весь участок CDEF можно рассматривать как еди­ ный скачок вниз. Интервал IJ можно рассматривать либо как часть отрезка СИП, изображающего скачок вниз, либо как часть отрезка ПК, изображающего скачок вверх, причем общее число скачков остается в любом случае неизменным. Если каж­ дое наблюдение выражено некоторой величиной, то обычно она имеет дробную часть, и одинаковые значения (две последова-

.ельные точки с одинаковыми характеристиками) практически невозможны.

При рассмотрении только разностей между значениями в соседних точках мы преобразуем данную последовательность в последовательность, имеющую только два состояния (или три, если имеются равные значения). Последовательность, изобра­ женную на рис. 4.12, мы можем переписать в виде

+ + + — 0 — + ------0 + .

Считая первый нуль минусом, мы получаем пять скачков: три

199

 

Т а б л и ц а 4.9

 

Число радиолярий на 1

см2 шлифа кремнистого сланца

(Основание разреза)

1

2

10

 

2

2

12

 

3

1

14

 

2

0

22

 

3

2

17

 

5

3

19

 

7

2

14

 

9

0

4

 

9

3

2

 

11

3

1

 

10

4

0

 

12

9

0

 

7

10

8

 

4

10

14

 

3

8

16

 

2

9

27

 

3

12

(Верх разреза)

от плюса к минусу и два от минуса к плюсу (число скачков не зависит от того, назовем ли мы второй нуль плюсом или мину­

сом). Теперь мы

можем применить процедуры, рассмотренные

выше для случая

последовательностей

с двумя

взаимоисклю­

чающими друг друга состояниями — см. формулы

(4.8) —(4.10).

Для

того чтобы

аппроксимация нормальным распределением

была

оправдана,

необходимо иметь большую выборку, однако

в большинстве геологических задач

такие объемы выборок

вполне доступны.

 

 

 

При изучении кремнистых сланцев в Скалистых горах было отмечено, что эта порода содержит необычно много хорошо со­ хранившихся остатков радиолярий. Их присутствие в сланцах скорее всего не является случайным, так как последователь­ ность образцов была собрана на приблизительно равных рас­ стояниях по разрезу. Из образцов были сделаны шлифы, в ко­ торых на площадке 10x10 мм2 было подсчитано число радиоля­ рий. Данные для 50 образцов приведены в табл. 4.9. Можно ли считать, что распространенность радиолярий изменяется в шли­ фе случайно? Вполне реально составить программу, которая выполнила бы все необходимые вычисления, однако усилия, которые требуется при этом затратить на программирование, по-видимому, превысят трудности, которые придется преодоле­ вать при расчетах вручную.

В этом случае дихотомизация наблюдений достигается с по­ мощью сравнения их величин с предыдущими наблюдениями. В действительности критерий скачков может быть применен к данным, дихотомизация которых осуществляется по произволь­ ной схеме при условии, что проверяемая гипотеза может быть представлена дихотомически. Например, известная процедура

200

 

 

 

 

Т а б л и ц а

4.10

Значения удельного веса образцов, собранных при пересечении

 

магнетитового тела (хребет Ларами, штат Вайоминг)

 

(Западная часть)

3,57

4,58

4,22

 

 

 

3,63

5,02

3.52

 

 

 

2,86

4,68

2.91

 

 

 

2,94

4,37

3,87

 

 

 

3,42

4,88

3.52

 

 

 

2.85

4,52

3,77

 

 

 

3,67

4,80

3,84

 

 

 

3,78

4,55

3.92

 

 

 

3.86

4,61

4,09

 

 

 

4,02

4,93

3,86

 

 

 

4,56

4,60

4,13

 

 

 

4,62

4,51

3.92

(Восточная

часть)

 

4,31

3,98

3,54

дихотомизации ряда наблюдений состоит в вычитании каждого наблюдения из медианы, вычисленной по всем наблюдениям, после чего проводится проверка гипотезы о случайности после­ довательности скачков относительно медианы с помощью кри­

терия знаков.

!

На большой площади распространения докембрийских анор­

 

тозитов в Ларамийском хребте в штате Вайоминг наблюдается несколько магнетитовых тел. Одно из них было вскрыто, и по­ рода дробилась для использования в качестве добавки к буро­ вому раствору. В карьере были отобраны образцы в точках, равномерно расположенных на пересечении магнетитового тела. Собранные образцы различались между собой; одни со­ держали преимущественно плагиоклаз, другие — оливин, неко­ торые почти целиком состояли из магнетита, а другие представ­ ляли собой смесь их трех минералов. Несоответствие ряда чле­ нов заставляет предположить, что в магнетиювом теле имеют место систематические изменения. Чтобы проверить это пред­ положение, были проведены измерения удельного веса образ­ цов, результаты которых приведены в табл. 4.10. Можно ли считать, что изменение удельного веса вдоль пересечения соот­ ветствует тому изменению, которого можно было бы ожидать в предположении, что состав образцов изменялся случайно от­ носительно центрального значения?

Мы можем также провести проверку гипотезы о случайно­ сти скачков по отношению к среднему значению. Результаты этой проверки будут использованы в этой главе в разделе, по­ священном тренд-анализу. Критерии скачков принадлежат к широкому классу непараметрических процедур, рассмотренных в гл. 2.

Имеются многочисленные разновидноети критериев скачков, рассмотренных выше. Информацию о них читатель может по-

201

Соседние файлы в папке книги