Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

ности. Это делается сравнением наблюдаемой частотной матри­ цы перехода с ожидаемой матрицей, если последовательные состояния независимы. Однако фиксированный вероятностный вектор не может быть использован для оценки столбцов ожи­ даемой матрицы переходных вероятностей. Поскольку переходы из некоторого состояния в себя запрещены, мы должны были бы использовать какой-нибудь окольный путь для оценки час­ тот переходов между независимыми состояниями при условии, что такие состояния не могут следовать за самими собой.

Для начала представим себе, что наша последовательность в действительности является некоторой цензурированной вы­ боркой, извлеченной из обычной последовательности, в которой переходы из некоторого состояния в себя могут иметь место. Матрица переходных вероятностей этой последовательности должна иметь вид, аналогичный уже наблюденной, исключая диагональ, которая будет содержать отличные от нуля элемен­ ты. Если бы мы вычислили матрицу вероятностей перехода из этой матрицы частот и затем возвели бы ее в достаточно вы­ сокую степень, то мы оценили бы матрицу переходных вероят­ ностей последовательности, в которой последовательные состоя­ ния независимы. Если затем отбросить диагональные элементы

и пересчитать

внедиагональные вероятности,

то в результа­

те получится ожидаемая матрица

переходных

вероятностей

для вложенной

последовательности,

у которой состояния неза­

висимы.

 

 

 

Как вычислить частоты переходов из каждого состояния в себя, если эта информация недоступна? Мы будем применять для этого метод проб и ошибок, выбирая для них такие значе­ ния, которые, будучи вставленными на диагонали матрицы пе­ реходных частот, не изменяются при возведении матрицы в степень. Внедиагональные элементы, однако, будут изменяться до тех пор, пока не будет достигнута устойчивая конфигурация, соответствующая модели независимых событий.

На практике совсем нет нужды вычислять внедиагональные элементы. Мы начинаем с того, что приписываем диагональным элементам наблюденной матрицы переходных частот некоторое произвольное большое число, скажем 1000. Просуммировав элементы каждой строки и разделив результаты на общую сум­ му, используем полученные значения в качестве оценки пере­ ходных вероятностей, стоящих на диагонали. Эти вероятности возводятся в квадрат и умножаются на общую сумму, в резуль­ тате получаются новые оценки диагональных частот. Эти новые оценки вставляются в исходную матрицу переходных частот и затем этот процесс повторяется. Укажем первый цикл этой процедуры.

Шаг 1. Записываем исходную матрицу переходных частот со значением 1000 на каждом месте диагонали:

182

 

 

А

в

в

D

Е

 

Суммы ПО

 

 

 

с

 

строка^

 

А

-

1000

11

36

21

52

~

1120

 

В

 

28

1000

4

4

0

 

1036

 

С

 

34

2

1000

45

13

 

1094

 

D

 

29

1

45

1000

3

 

1078

 

Е

.

28

23

9

8

1000

_

1068

 

 

 

 

 

 

 

 

 

5396

Общая

 

 

 

 

 

 

 

 

 

сумма

Шаг 2. Оцениваем соответствующие диагональным элемен­

там переходные

вероятности,

найденные

делением сумм по

строкам на общую сумму:

в

 

 

 

 

 

 

 

 

 

 

Суммы по

 

 

 

А

В

С

D

Е

строкам

 

А

-

0,208

0,192

 

 

-

0,208

Из

В

 

 

0,203

 

 

0,192

с

 

 

 

 

 

0,203

 

D

-

 

 

 

0,200

0,198 -

0,200

 

Е

 

 

 

 

0,198

Шаг 3. Получаем вторую оценку матрицы переходных тот, используя диагональные элементы, полученные умножени­

ем диагональных вероятностей на общую сумму 5396. Внедиагональные элементы — исходные наблюденные частоты. Затем находятся новые суммы по строкам и общая сумма.

 

 

 

 

 

в

 

 

 

Суммы по

 

 

 

 

А

В

с

D

Е

 

строкам

 

 

Л

-

233

11

36

21

52

-

353

 

Из

В

 

28

199

4

4

0

 

235

 

с

 

34

2

222

45

13

 

316

 

 

D

_

29

1

45

215

3

_

294

 

 

Е

28

23

9

8

212

280

 

 

 

 

 

 

 

 

 

 

1478

Общая

 

 

 

 

 

 

 

 

 

 

сумма

Этот процесс продолжаем до тех пор, пока оценки переходных частот на диагонали не перестанут изменяться. Достижение этой цели требует от 10 до 20 итераций, причем число итераций зависит от того, как близки были выбранные нами наугад зна­ чения к стабильным. Окончательный вид матрицы переходных частот с оцененными диагональными частотами приведен ниже.

 

 

 

В

В

 

 

 

С VMM а

 

 

 

А

С

D

Е

 

строка

 

А

~

66

11

о*.

21

52

-

186

 

3

 

28

3

1

4

0

 

39

 

г

 

34

Г)

cs(.

45

13

 

123

 

ь

_

20

23

45

17

3

_

95

 

Е

2S

о

8

13

8!

 

по стс.'.-Зцач

 

185

40

123

95

81

 

524

Общая

 

 

 

 

 

 

 

 

 

сумма

183

Эту матрицу можно преобразовать в ожидаемую матрицу пе­ реходных вероятностей гипотетической марковской последова­ тельности, разделив каждый ее элемент на соответствующую сумму по строке. Однако такая матрица мало интересна, так как она характеризует больше гипотетическую, чем наблюден­ ную вложенную последовательность. Другое дело — маргиналь­ ные суммы по строкам. При их вычислении используется мар­ гинальный вероятностный вектор

А0,355

В0,074

С0,235

D 0,181

Е0,155

Мы можем теперь вычислить ожидаемые вероятности и ожи­ даемые частоты гипотетической последовательности независи­ мых состояний для маргинального вероятностного вектора. Мы проверяем гипотезу о независимости последовательных состоя­ ний, замечая, что, например, если состояние А не зависит от состояния В, то Р (А\В) = Р (А)Р (В). Так как Р (А) и Р(В)

заданы соответствующими элементами маргинального вероят­ ностного вектора, то оценка условной вероятности того, что со­

стояние А будет

следовать

за состоянием

В, равна Р (Л |5 ) =

= (0,355) (0,074) = 0,026. Ожидаемые вероятности

для всех пе­

реходов приведены ниже:

в

 

 

 

 

 

 

 

 

£

 

 

А

в

С

D

А

-

0,125

0,026

0,083

0,064

0,055

В

 

0,026

0,006

0,017

0,013

0,012

С

 

0,083

0,017

0,055

0,043

0,036

D

_

0,064

0,013

0,043

0,033

0,028

Е

0,055

0,012

0,036

0,028

0,024

Ожидаемые частоты находятся умножением этой этой матрицы на общую сумму, равную 524.

в

 

 

А

В

С

D

Е

А

~

65,5

13,6

43,5

33,5

28,8

В

 

13,6

3,1

8,9

6,8

6,3

С

 

43,5

8,9

28,8

22,5

18,9

D

.

33,5

6,8

22,5

17,3

14,7

Е

28,8

6,3

18,9

14,7

12,6

Заметим, что эта матрица симметрична и диагональные элементы остаются неизменными (с тонкостью до ошибок

округления). Внедиагональные элементы есть ожидаемые час­ тоты переходов для вложенной последовательности, если пред­ положить независимость между последовательными состояния­ ми. Если отвлечься от диагональных элементов матрицы, то ее можно сравнить с наблюденной матрицей переходных частот,

так как суммы строк и столбцов

у них одинаковые (снова с

точностью до ошибок округления).

 

 

Применяя для сравнения статистику %2, получаем значение

Х2 = 172. Критерий имеет v = ( m I ) 2—т степеней

свободы, где

т — число состояний, или в этом

примере v = 11.

Критическое

значение х2

с 11 степенями свободы и уровнем значимости а =

= 0,05 равно

19,68, т. е. вычисленное значение значительно пре­

вышает критическое и поэтому мы можем заключить, что по­ следовательные литологические состояния, зарегистрированные в Шотландии, не являются независимыми, а скорее отражают свойство сильной марковости первого порядка.

Если критерий покажет на наличие частичной зависимости между последовательными состояниями некоторой последова­ тельности, то можно продолжить исследования с целью уточне­ ния этой зависимости. Простые графы наиболее значимых ве­ роятностей напоминают картинки, характеризующие повторе­ ния в последовательности; они также могут быть обнаружены с помощью аппарата теории автоассоциаций. Для проверки значимости вероятностей переходов между индивидуальными -парами состояний применимы модификации критерия %2. Не­ которые авторы находят, что собственные значения матрицы переходных вероятностей являются полезными индикаторами цикличности. (Необходимо отметить, однако, что вычисление собственных векторов асимметричной матрицы, какой является матрица переходных вероятностей, совсем не простая задача.) Эти вопросы в нашей книге далее не будут развиваться; инте­ ресующийся читатель может обратиться к книге Кемени и Снелла [30] или книге Шварцахера [49], посвященной количе­ ственным методам изучения осадконакопления. Критерии типа X2 для вложенных последовательностей представлены в книге Гудмена [22]. Соответствующие геологические проблемы рас­ смотрены в статьях [15] и [16]; можно также рекомендовать работу Тюрка [54].

ПОСЛЕДОВАТЕЛЬНОСТИ СОБЫТИЙ

Мы не рассмотрели еще один интересный тип временных ря­ дов, называемых последовательностями событий. Примерами геологических данных такого рода могут служить исторические сведения о землетрясениях в Калифорнии, записи о вулканиче­ ских извержениях в Средиземном море. Характеристики этих рядов следующие: а) события различаются моментами време­

185

ни, в которые они произошли; б) события по существу своему мгновении; в) события настолько редки, что никакие два не происходят в один и тот же временной интервал.

Последовательности событий можно рассматривать как по­ следовательность интервалов между их реализацией. Наши дан­ ные могут содержать также продолжительность интервалов между происходящими событиями или состоять из значений суммарных длин временных интервалов, характеризующих со­ бытия. Данные в одной форме могут быть просто преобразова­ ны в данные другой формы.

Модели последовательностей событий можно использовать для анализа некоторых типов пространственных данных. На­ пример, нас может интересовать частота обнаружения редких материалов, спорадически встречающихся на пересечении шли­ фа, или же распространенность бентонитовых слоев в верти­ кальной последовательности разреза осадочных образований. Однако обоснование применимости методов исследования по­ следовательности событий к пространственным данным явля­ ется очень трудоемким и базируется на предположении о по­ стоянстве скорости образования пространственной последова­ тельности. Это предположение, вероятно, выполняется в первом примере, но во втором требуется установить дополнительное условие, заключающееся в том, что скорость осадконакопления постоянна в пределах данной последовательности.

Исторические

записи

извержений вулкана Асо в Киушу,

Япония, велись с

1229 г. и представлены в табл. 4.6. Асо — эта

Даты извержений вулкана Асо в период

 

Т а б л и ц а 4.6

1229— 1962 гг.

 

 

Годы

 

 

1229

1376

1583

1780

1927

1239

1377

1584

1804

1928

1240

1387

1587

1806

1929

1265

1388

1598

1814

1931

1269

1434

1611

1815

1932

1270

1438

1612

1826

1933

1272

1473

1613

1827

1934

1273

1485

1620

1828

1935

1274

1505

1631

1829

1938

1281

1506

1637

1830

1949

1286

1522

1649

1854

1950

1305

1533

1668

1872

1951

1324

1542

1675

1874

1953

1331

1558

1683

1884

1954

1335

1562

1691

1894

1955

1340

1563

1708

1897

1956

1346

1564

1709

1906

1957

1369

1576

1765

1916

1958

1375

1582

1772

1920

1962

186

-сложный стратовулкан, все его извержения относились к взрыв-

.ному типу, и при этом выбрасывалось огромное количество вул­ канического пепла. Хотя старые, регулярно проводившиеся записи содержат указания на относительную мощность и про­ должительность извержений, для практических целей мы можем считать записи как относящиеся к событиям, произошедшим мгновенно. Анализ истории вулкана может пролить некоторый свет на природу механизма извержений и может привести к построению физической модели вулканов [61]. Конечно, мы мо­ жем также надеяться, что такое изучение может привести к появлению технологии предсказания извержений в будущем.

Изучение рядов событий преследует несколько объективных целей. Обычно исследователя интересует средняя частота по­ явления событий, т. е. число событий за некоторый интервал времени. Кроме того, бывает необходимо исследовать ряды со­ бытий более детально. Цель такого исследования — выявление какой-либо закономерности, которой могут подчиняться собы­ тия. Дополнительная информация может быть использована для уточнения частоты появления событий, для определения особенностей выборочной схемы, для обнаружения тренда и для ■установления других систематических свойств рядов.

Так как ряды событий имеют очень простой вид в том смыс­ ле, что они состоят из характеристик типа «да — нет», то для их изучения можно использовать простые и в то же время очень мощные аналитические методы. Кокс и Льюис рассматривают множество графических методов, полезных для исследования рядов событий. Эти методы иллюстрируются в применении к данным извержений вулкана Асо, представленным в табл. 4.6.

На рис. 4.5 изображена кумулятивная кривая общего числа извержений t, произошедших вплоть до момента времени t, она соответствует на графике точке с абсциссой t. Этот рисунок хорошо отражает изменения в средней скорости появления со­ бытий. Наклон прямой, соединяющей любые две точки на ку­ мулятивной кривой, равен среднему числу событий за единицу времени, в качестве которой выбран интервал между этими двумя точками.

На рнс. 4.6 представлена гистограмма числа извержений, происходящих в последовательные равные интервалы времени. Гистограмма прямо указывает локальные периоды флюктуации относительно средней скорости появления извержений. Из ри­ сунка видно, что гистограмма чувствительна к длине выбран­ ного интервала, поэтому при анализе рядов бывает полезно иметь больше чем одну гистограмму.

Эмпирическая функция деятельности вулкана получается, если представить в процентах зависимость У (отношения числа временных интервалов длиннее X к общему числу интервалов) от X (длины временного интервала). Полученная функция ха-

187

Рис. 4.5. Кумулятивная крива» числа извержений вулкана Асо, от­ несенных к году извержения

Рис. 4.6. Гистограмма числа извержений вулкана Асо, произошедших в после­ довательные столетние интервалы

теризует вероятность того, что событие не произошло раньше момента времени X. На рис. 4.7 представлено процентное от­ ношение числа интервалов между извержениями, которые пре­ восходят некоторое заданное число лет. Если события происхо­ дят случайно во времени, то функция деятельности будет иметь экспоненциальную форму.

Ту же самую функцию можно изобразить в логарифмиче­ ском масштабе, используя log Y как функцию А". Логарифмиче­ ская эмпирическая функция деятельности особенно удобна для изучения отклонений от случайной величины, которые представ­ ляются на графике как уклонения от прямой линии (рис. 4.8),.

168

log %

 

 

40 лет

40 лет

Рис. 4.7. Эмпирическая функция дея­

Рис. 4.8. Логарифм эмпирической

 

тельности вулкана Асо.

функции деятельности вулкана Асо.

По

вертикальной оси

указаны проценты

Вертикальная ось рис. 4.7 здесь представ­

от

числа интервалов

между извержения­

лена в логарифмическом масштабе

ми,

имеющими продолжительность больше

 

некоторой заданной, по горизонтальной— продолжительность интервала

Рис. 4.9, Сериальная корреляция продолжительностей между после­ довательными изображениями вул­ кана Асо.

На вертикальной оси представлена продолжительность покоя перед /*м извержением, на горизонтальной оси — после /-го извержения. Треуголниками представлены скопления более чем од*

ной точки в одном и том же месте

Диаграмма рассеяния сериальной корреляции или автокор­ реляции первого порядка последовательных интервалов между. событиями представлена на рис. 4.9. Степень соответствия меж­ ду длиной некоторого интервала и длиной непосредственно пред­ шествующего интервала представлена на графике точками с координатами Xt= t;+ l— Y-t tit i - u где U— время появления события с номером г. На этом графике не удается обнаружить какой-либо закономерности в следовании одного интервала за другим при одинаковой длине. Такая диаграмма рассеяния с

189

Ю г

X

О

10

20

30

40

50

60

70

80

 

 

 

в р е м я и л и р а с с т о я н и е

 

 

•Рис. 4.10. Последовательности событий, которые происходят «мгновенно» в

пространственном или временном континууме.

Шкала времени или расстояния разделено на 10 отрезков, каждому из которых постав­ лено в соответствие число событий. Изображенная вверху линия есть прямая регрессия числа событий на отрезок по отношению к серединам отрезков

■большой дисперсией и относительно высокой концентрацией дочек вблизи осей типична для рядов случайных событий.

В большинстве исследований последовательностей событий рассчитывают на то, что удастся описать основные черты рас­ сматриваемого явления так, чтобы был вскрыт физический ме­ ханизм пространственного или временного расположения собы­ тий. Сначала мы должны рассмотреть возможность проявления дренда в исходных данных, что можно сделать двумя спо­ собами.

Последовательность можно разделить на некоторое число участков равной длины, так что каждый из них содержит не­ сколько наблюдений. Число событий в пределах каждого участ­ ка ставится в соответствие средней точке рассматриваемого ■участка. Выбирая в качестве зависимой переменной У{ значения координат центров участков, а числа событий в пределах сег­ мента в качестве значений аргумента X;, можно построить ли­ нию регрессии. Ее угловой коэффициент может быть проверен на основе критерия ANOVA, приведенного в табл. 4.12 с целью определения, значимо ли он отличается от нуля. Этот процесс проиллюстрирован на рис. 4.10. К сожалению, этот критерий не очень эффективен, так как при разделении последовательно­ сти на отрезки теряется некоторое число степеней свободы.

Имеются критерии, специально предназначенные для обна­ ружения тренда в скорости осуществления событий, в которых используется метод сравнения средней точки последовательно­ сти с ее центроидом. Если последовательность относительно однородна, эти ряды будут очень похожи, но если имеется тренд, то центроид будет смещаться в направлении увеличения

190

скорости появления событий. Если U— время или расстояние от начала ряда до i-ro события и N — общее число событий, то> мы можем вычислить центроид 5 по формуле

■V

(4.3)

Эту статистику в свою очередь можно использовать в кри­ терии (4.4):

(4.4)

где Т — общая длина последовательности; Z — стандартизиро­ ванная нормальная случайная величина. Значимость критерия' может быть установлена по таблице нормального распределе­ ния, аналогичной табл. 2.10.

Этот критерий очень чувствителен к изменению скорости по­ явления событий. Например, если появление событий можно описать формулой

(4.5)

то нулевую гипотезу можно записать как равенство ^= 0. Если в результате проверки мы устанавливаем, что модель экспонен­ циальная и что [} отлично от нуля, то скорость появления собы­ тий Vt изменяется с изменением L Именно реализацию этойвозможности мы и проверяем.

Если в скорости появления событий тренд не обнаружен, то. можно сделать вывод, что последовательности событий можнорассматривать как стационарные. Следующее, что следует про­

верить,— это предположение о

независимости последователь­

ных событий. Это можно сделать

с помощью вычисления авто­

корреляционной функции для длин интервалов между события­ ми. Иными словами, надо рассматривать интервалы между событиями как переменную Xi, принимающую значение в точ­ ках с равномерным расположением в пространстве. Если ин­ тервалы не являются независимыми, то должна обнаружиться тенденция к тому, чтобы большие значения X (длинные интер­ валы между событиями) следовали за большими значениями. Аналогично должна быть и тенденция к тому, чтобы малые значения X (короткие интервалы) следовали за другими малы­ ми значениями. Мы можем вычислить автокорреляцию для по­ следовательных значений лага и проверить их значимость. Обычно только первые несколько значений лага представляют интерес. Если изложенные выше методы позволяют установить, что значения автокорреляционной функции несущественно от­ личаются от нуля, то мы можем заключить, что события проис­ ходили независимо во времени или пространстве.

191

Соседние файлы в папке книги