Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

на, что позволяет использовать регрессионную модель. Иными словами, геолог должен проверить гипотезу, заключающуюся в том, что коэффициент регрессии Ь, значимо отличается от нуля.

После того как описанным выше методом получено уравне­ ние регрессии У,-= Ь0 + Ь\Х-„ можно оценить дисперсию относи­ тельно линии регрессии, используя величину M S о- Последнюю в свою очередь можно использовать для вычисления ^-статн- стики:

t =

- - - Ь=-

(4.35)

 

)'A 1 S 0 /S S X

 

Среднее значение квадратов, связанное

с отклонением (MSo),

равно S S D, деленному на

п —2 степеней

свободы, как это ука­

зано в табл. 4.12. Исправленная сумма квадратов S S x

находит­

ся по формуле

 

И

 

SSx ==И Л 7 ~ ^ " (2Хг'2'

(4,36)

(=1

 

Эта величина используется для проверки одной из гипотез:

1)Но : fr = О,

2)Но : [и < О,

3)Н 0 : р-, > О

прогпв соответствующих альтернатив:

Н1: щ ф О,

Н\ : fr > О,

Hr.fr < 0.

Проверка перво,' нулевой гипотезы требует двустороннего кри­ терия. так как и положительный, и отрицательный наклоны приводят к ее отклонению. jJna других критерия являются од­ носторонними. 1соло!' заинтересован в получении ответа насле­ дующий вопрос; увеличивается ли мощность слоя, т. е, поло­ жителен ли наклон линии регрессии между мощностью отдель­ ного слоя и суммарной мощностью? Поэтому для наших целен подходит первая гипотеза. Критерий будет односторонним с критической областью, расположенной справа.

Мы можем быстро вычислить необходимые для критерия

. елнчншы. Некоторые значения, используемые в этом критерии, приведены ниже.

Уразиеизе регрессии:

У--4,25+0,020 X

SS-—7.30 94

SSR—425,18

SSD= 305.76

S S V=1 041 250.00

R2= 0,58

R=0,76

222

Исходные данные содержат 50 наблюдений, поэтому вели­

чина

S S D соответствует

48

степеням свободы. При 5%-ном

уровне значимости (а = 0,05)

одностороннее критическое значе­

ние

^-статистики при

v = 46

степенях свободы равно 1,68, Зна­

чение ^ = статистики равно

 

 

t -

— ■= 8,09.

 

 

у

6,37/1041250,00

Полученное число лежит в критической области, и поэтому мы должны отклонить гипотезу о том, что наклон прямой регрес­ сии отрицателен или равен нулю. Последовательности присуща небольшая, но вполне определенная тенденция увеличения мощности отдельных слоев.

Приведенный только что критерий является частным случа­

ем критерия

 

t ~ — ~ = =

(4.37)

\ / M S DlSSx

 

для проверки гипотезы, заключающейся

в том, что наклон ли­

нии

регрессии имеет некоторое заранее

заданное значение

3

рассмотренном случае (критерии 4.35) значение f>( равно

нулю. Этот критерий, точнее, некоторая его разновидность, име­ ет важное применение в анализе временных рядов. Методы анализа временных рядов основаны на предположении об отcyici вин тренда в изучаемых данных, т. с. что наклон линии регрессии но отношению к временной оси (или оси расстояний) равен нулю. Если тренд существует, то его нужно устранить, иначе анализ временных рядов теряет свою силу. Ряды, не имеющие значительного линейного тренда, называются стацио­ нарными. Если в данных имеется устойчивый пли направлен­ ный тренд, то ряд называется шолюциенным. пли нестацио­ нарным.

Одним из предположений в теории лике ион регрессии яв­ ляемся предположение о том, что и потери, и относительно ли­ нии регрессии постоянна. Это можно пре пенить с помощью ис­ следования остатков между данными и п,\ оценками. Если дис­ персия постоянна, то остатки образуют более или менее ранно-

мс'/Ную полосу около линии регресса;!. ЕеЛ!

кс

имеется осте-

nc.:псе изменение шнршш полосы

о; клонен.:л

;о дисперсия не

может быть постоянной. Эти два

условия даже

обучили свои

несколько устрашающие названия: гомоседнетпчиости для но­ етониной дисперсии и гетериоедастнчностм дли изменяющейся дисперсии. Быстрый и не вполне точный способ определения под: изменения дисперсии относительно линии регрессии состо­ ит в построении линейной регрессии для абсолютных значений отклонении. Изменение дисперсии в последовательности будет проявляться как значительный наклон.

Другое допущение регрессионного анализа состоит в том, что отклонения от линии регрессии не коррелируются между собой. Под автокорреляцией в данном случае подразумевается стремление остатков к образованию групп близких отклонений в одну и ту же сторону по отношению к линии регрессии. При­ сутствие ряда последовательностей автокоррелированных ос­ татков может указывать на то, что регрессионная модель не соответствует исходным данным. Может также случиться, что автокоррелированиые отклонения свидетельствуют о существо­ вании явлений, представляющих геологический интерес. Эти вопросы будут рассмотрены подробнее в главе о тренд-анализе, где автокоррелированиые положительные остатки выбираются в качестве показателей экономического потенциала запасов нефти и других полезных ископаемых. Проверка наличия авто­ корреляции проводится с помощью критерия скачков, приме­ няемого к последовательности знаков отклонений от линии ре­ грессии, пли одного из методов, рассмотренных в разделе об автокорреляции.

Интересна зависимость дисперсии и автокорреляции остат­ ков, выявленная при изучении горных разработок в северном Квебеке. На месторождении золота бульдозером была проде­ лана длинная траншея. Вдоль нее с некоторым интервалом были

 

 

 

 

 

Т а б л и ц а 4.19

Содержания золота

в пробах из

Проспект Трене, Северный Квебек

тоянис, футы

Значение содержа*

 

Расстояние, ф>ты

Значение содержа

ннй

(п*1.555 г/т)

 

нин (n*1.555 г/т)

(Северный

м.кеи траншеи)

 

 

 

3,0

 

0,9

 

66,0

9,0

9,2

 

1,2

 

67,0

12,0

13,0

 

0,5

 

68,1

10,4

18,9

 

1,7

 

71,1

5,2

22,3

 

1,4

 

73,0

1.4

23,1

 

1.3

 

74,1

1,2

22,5

 

1,0

 

76,0

1,1

28,6

 

1,1

 

76,1

1,0

30,1

 

12,0

 

80,4

6,5

30,9

 

9,1

 

82,2

11,9

33,0

 

4,9

 

84.0

15,6

36,4

 

1 ,9

 

86,6

6,9

39,3

 

1,1

 

87,6

1,1

42,9

 

1,9

 

90,5

М

46,0

 

1,4

 

92,5

15,9

50,1

 

1,7

 

93,9

9,9

53,9

 

2,2

 

94,4

3,8

55,8

 

0,9

 

96,3

1,6

60,0

 

1,3

 

98,7

2,7

64,9

 

1,3

|

100,1

0,8

(Южный конец траншеи)

224

отобраны пробы, в которых определялось содержание золота. Тренд полученных значений был очевидным, а на одном конце траншеи были отмечены значительные отклонения от линии регрессии. Обычно это предвещает богатое месторождение зо­ лота. Именно такие месторождения часто обладают крайне низ­ кими значениями содержаний золота в большей части минера­ лизованной зоны, но наряду с этим попадаются и богатые жилы. Кроме того, в них группами или скачками встречаются большие положительные отклонения, которые также указыва­ ют на то, что траншея пересекает зону минерализованных жил. По данным табл. 4.19 проверьте наличие тренда в значениях содержаний золота и исследуйте поведение дисперсии вдоль профиля.

Используя критерий знаков, ответьте на вопросы, можно ли

.'читать, что отклонения распределены случайно относительно линии регрессии? Вытекает ли из результатов анализа, что траншея пересекла участки минерализации? Можно ли полу­ ченные сведения об отклонениях от линии регрессии нспользовагь для разумной экстраполяции содержаний золота вне пре­ делов траншеи?

Ортогональная полиномиальная регрессия

Подгонка полиномиальной кривой высокой степени к дан­ ным методом наименьших квадратов требует решении большого количества совместных уравнений, что до появления ЭВМ представляло собой обременительное занятие. Как след­ ствие этого, на более ранних этапах исследователи избегали пользоваться общими методами регрессионного анализа и, ког­ да это только было возможно, пользовались более прости'м в вычислительном плане методом, называемым ортогональной по­ линомиальной регрессией. Для применения этого метода данные должны быть собраны с равными интервалами приращений по X. Необходимо отметить, что к упрощению вычислений при­ водит то, что коэффициенты ортогональных многочленоз явля­ ются независимыми. Это означает, что добавление нового чле­ на к строящемуся уравнению не изменяет уже вычисленных членов.

Ортогональные полиномы вперзые появились в работах П. Л. Чебышева в девятнадцатом столетии, хотя современные процедуры их вычисления принадлежат Р. Фишеру (1925 г.).

Подробное изложение теории ортогональных

полиномов дано

в книгах Р. Фишера [18], Дрейпера и Смита

[17] и Моррисо­

на [37], а также в других изданиях. Хотя появление ЭВМ сде­ лало использование ортогональных многочленов не столь обя­ зательным, они могут оказать существенную помощь в анали­ зе данных, собираемых с регулярным интервалом. Мы рас-

15—201

225

 

 

 

 

 

 

 

 

 

 

Т а б л и ц а 4.2G«

 

Ортогональные полиномиальные члены степеней от 1

до 4

 

 

 

и для числа наблюдений от 3 до 12

 

 

 

 

 

Члены

первой степени

(линейные)

 

 

3

4

5

6

 

 

7

8

9

10

1 1

12

— 1

—3

—2

—5

 

 

—3

—7

—4

—9

—5

— и

0

— 1

— 1

—3

 

 

—2

—5

—3

—7

—4

—9

1

1

0

— 1

 

— 1

—3

—2

—5

—3

—7

 

3

1

1

 

0 — 1 — 1 —3 —2

—5

 

 

2

3

 

 

1

1

0

— 1

— 1

—3

 

 

 

5

 

 

2

3

1

1

0

— 1

 

 

 

 

 

 

3

5

2

3

1

1

 

 

 

 

 

 

 

7

3

5

2

3

 

 

 

 

 

 

 

 

4

7

3

5

 

 

 

 

 

 

 

 

 

9

4

7

 

 

 

 

 

 

 

 

 

 

5

9

 

 

 

 

 

 

 

 

 

 

 

11

 

 

 

Члены второй степеь-. (квадратичные)

 

 

3

4

5

6

 

 

7

8

9

10

И

12

1

1

2

5

 

 

5

7

28

6

15

55

—2

— 1

1

— 1

 

 

0

1

7

2

6

25

1

— 1

—2

—4

 

 

—3

—3

—8

1

1

1

 

1

—1

—4

 

 

—4

—5

— 17

—3

—6

— 17

 

 

2

1

 

 

—3

—5

—20

—4

—9

—29

 

 

 

5

 

 

0

—3

— 17

—4

— 10

—35

 

 

 

 

 

 

5

1

—8

—3

—9

—35

 

 

 

 

 

 

 

7

7

1

—6

—29

 

 

 

 

 

 

 

 

28

2

1

— 17

 

 

 

 

 

 

 

 

 

6

6

1

 

 

 

 

 

 

 

 

 

 

15

25

 

 

 

 

 

 

 

 

 

 

 

55

 

 

 

Члены третьей

степени

(кубичные)

 

 

3

4

5

6

7

8

9

 

10

11

12

 

— 1

— 1

— 5

 

— 1

—7 — 14

— 42

— 30

— 33

 

3

2

7

 

 

1

5

7

14

6

3

 

— 3

0

4

 

 

1

7

13

35

22

21

 

1

— 2

— 4

 

 

0

3

9

31

23

25

 

 

1

—7

 

— 1

— 3

0

12

14

19

 

 

 

5

 

— 1

—7

9

— 12

0

7

 

 

 

 

 

 

1

— 5

— 13

— 31

— 14

—7

 

 

 

 

 

 

 

7

—7

— 35

— 23

— 19

 

 

 

 

 

 

 

14

— 14

— 22

— 25

-2 1

 

 

 

 

 

 

 

 

 

42

—6

 

 

 

 

 

 

 

 

 

 

30

— 3

 

 

 

 

 

 

 

 

 

 

 

33-

226

П р о д о л ж е н и е табл. 4,20

 

 

Члены четвертой степени (квартики)

 

 

 

3 4

5

6

7

8

9

Ю

I 1

12

 

1

1

3

7

14

18

6

33

 

—4

—3

—7

— 13

— 31

—22

—6

—27

 

6

2

1

—3

— 11

— 17

—6

—33

 

—4

2

6

9

9

3

— 1

— 13

 

1

—3

1

9

18

18

4

12

 

 

1

—7

—3

9

18

6

28

 

 

 

3

13

— 11

3

4

28

 

 

 

 

7

— 21

— 17

— 1

12

 

 

 

 

 

14

—22

— 6

— 13

 

 

 

 

 

 

18

—6

—33

 

 

 

 

 

 

 

6

— 27

 

 

 

 

 

 

 

 

33

смотрим некоторые из этих приложений в разделе, посвящен­ ном фильтрации временных рядов.

Обычное уравнение полиномиальной регрессии

Уi — jio +

+

^2Х{2 +

. . . +

$nXtn +

E

(4.38)

может быть представлено в виде

 

 

 

 

Yi = ао + а ^ и

+

+

• • • +

+

е,

(4,39)

где \,п— члены ортогональных многочленов, а а — коэффици­ енты метода наименьших квадратов. Численные значения пе­ ременных \ т могут быть определены из последовательности наблюдений X н из степени искомого уравнения регрессии. Обычно, однако, члены ортогональных многочленов находятся попросту из таблиц, аналогичных табл. 4.20. Полиномиальные ;лсны всегда целые и для каждого наблюдения в подгоняемой юслсдовательности требуется один член. Это наводит на мысль о необходимости решения важной задачи: если последователь­ ность состоит из многих наблюдений, должна быть построена

очень большая таблица полиномиальных членов.

(Таблица для

наблюдений приводится Фишером и Ейтсом [19]).

Коэффициенты а находятся из следующих уравнении:

ап = -! -2 '/г = У,

(4.40)

 

(4.41)

Измерения влажности в некоторых пробах, приведенные в

.абл. 4.11, очень подходят для исследования с применением ортогональных многочленов, так как наблюдения расположены с равным интервалом в пространстве ниже керна. Измерения, вместе с членами gi ортогональных многочленов для линейно-

15'

227

го приближения по восьми наблюдениям, взятым из табл. 4.20, приведены ниже. Указаны также произведения У и 51-

Yt

■=

124

78

54

35

30

21

22

18

h

=

—7

—5

—3

— 1

1 3

5

7

Yil i

=

 

—868

—390

— 162

—35

30

63

ПО

126

Коэффициент <хо аппроксимирующей прямой есть попросту сред­ нее значение У,-: а 0= 382/8=47,75.

Коэффициент а, находится умножением каждого наблюде­ ния У; на соответствующий полиномиальный член, суммирова­ нием затем делением на сумму квадратов членов:

«1 = SK ^/S l!2 = — 1126/168 = — 6,70.

Уравнение линейной регрессии содержания влаги на глубине поэтому есть

У, = 47,75— 6,70£1(.

Используя обычную регрессию, мы получим соотношение

У, = 94,67 — 2,68а",.

Эти два уравнения отличаются потому, что ортогональные мно­ гочлены выражены через %и, а не через А;. Однако если мы воспользуемся этими двумя уравнениями, то они оба дадут одну и ту же оценку для У,-. Например, предположим, что мы вычислили гипотетическое содержание влаги в керне на глуби­ не 9 м, соответствующей семнадцатому измерению в последо­ вательности. Член ортогонального многочлена, соответствую­ щий семнадцатому измерению, есть +5, так что два альтерна­ тивных уравнения будут иметь вид

У = 94,67 —2,68 (30) = 14,27

и

У = 47,75 — 6,70(5) = 14,25.

С точностью до ошибок округления эти уравнения эквива­ лентны.

Другое преимущество ортогональных многочленов станет очевидным, если мы захотим построить аппроксимацию с по­ мощью уравнения более высокой степени. Для этого требуется повторить все вычислительные процедуры, только подставляя соответствующие полиномиальные члены более высокой степе­ ни. Уже найденные коэффициенты остаются неизменными. На­ пример, для получения уравнения регрессии для содержаний влаги на глубине с точностью до членов второго порядка, мы.

228

выберем члены второй степени для

 

восьми наблюдений из

табл. 4.20:

 

 

 

 

 

 

 

 

 

 

К

=

124

78

54

 

35

 

30

21

22

18

12

=

7

1

—3

— 5

— 5

—3

1

7

Y,U

=

868

78

—162

175

150

—63

22

126

Сумма

произведений

равна

27^2 = 544,

так

что

коэффициент

при квадратичном

члене равен

а 2 = 544: 168= 3,24. Регрессия

второго порядка влажности на глубине поэтому есть

 

 

 

 

=

4 7 ,7 5 -6 ,7 0 ^ +

3,246,,.

 

 

 

Аналогично можно аппроксимировать данные последовательно полиномами более высоких степеней, вплоть до кривой семнад­ цатой степени, которая должна пройти в точности через каж­ дое значение. Коэффициенты ортогональной регрессии а могут быть преобразованы в коэффициенты обычной регрессии р простой подстановкой в уравнение, которое используется для определения членов ортогональной регрессии. Детали см. в книгах Дрейпера и Смита [17] и Остла и Менсинга [39], ко­ торые также приводят уравнения для прямого определения различных сумм квадратов, необходимых при дисперсионном анализе и при проверке значимости полиномиальной регрессии высших степеней.

Приведенная главная ось

Рассмотренные выше регрессионные методы позволяют потроить линейную аппроксимацию для совокупности двумерных наблюдений, так что квадрат отклонений одной из переменных от прямой минимален. Если отклонения в направлении У ми­ нимизированы, то получается одно множество коэффициентов линейной регрессии, но если отклонения минимизируются в на­ правлении X, то получается другое множество коэффициентов. Если эти две прямые_изобразить на графике (рис. 4.21), то они пересекутся в точке X, Y. Косинус угла между этими прямыми прямо связан с коэффициентом корреляции между X и У.

Бывает так, что физические условия диктуют нам необходи­ мость считать одну переменную функцией другой, или же цель выполняемого исследования указывает, какая из двух перемен­ ных должна быть зависимой в уравнении регрессии. Однако иногда оказывается невозможно из разумных соображений ре­ шить, какая переменная должна быть X, а какая У. Это случа­ ется, например, в биометрии, где бывает полезно знать соотно­ шение между двумя множествами измерений, таких, как длина и ширина раковин, однако совершенно неясно, какое множество измерений должно быть функцией от других. Аналогичные об-

229

Рис. 4.21.

Д и а г р а м м а р а с с е я н и ядвумерных

данных,

взятых из таблиц 6— 19.

Изображены

также линии регрессии

У на X

и

X

на Y,

ггрнзедснная главная ось

 

(ПРО)

и гласная

ось

(ГО)

 

стошельства возникают в петрофизике, где общая проблема состоит в том, чтобы связать два (сделанных различными мето­ дами) ряда измерений, такие, как времена звуковых переходов и измерения плотности нейтронов. Оба типа измерений подвер­ жены ошибкам, п никакое из них не может рассматриваться как функция другого; в этих случая:: как раз очень полезно представить графически оба ряда переменных, выразив некото­ рым образом их взаимную связь.

Первое решение, которое приходит в голову,—это подбор прямой, которая минимизирует отклонения наблюдений от этой прямой как в направлении оси X, так и в направлении оси У одновременно. Такая линия должна расщеплять разность меж­ ду линиями регрессии X по У и У по X, что соответствует ви­ зуальному впечатлению от тренда в наблюдениях. Поэтому было бы целесообразно приписать это расщепление рассеянию данных точек по обеим переменным, а не отклонениям единст­ венной переменной от подбираемой прямой.

Имеется два метода определения такой прямой. Один ме­ тод состоит в минимизации квадратов отклонений от прямой

230

/

Рис. 4.22. Критерии аппроксимации ПГО и ГО:

а — приведения главная ось минимизирует произведение отклонений X .Y1 и У—У1 от подбираемой прямой; эта процедура эквивалентна минимизации площадей заштрихован­ ных треугольников; б — главная ось минимизирует сумму квадратов отклонений (.V— ЛГ1)2 и (У—У1)2, з результате минимизируются квадраты отклонений по перпендикуляру d 2

как в направлении X, так и в направлении Y одновременно. В силу теоремы Пифагора это эквивалентно минимизации квад­ ратов перпендикуляров отклонений ог подбираемой прямой (рис. 4.22). Такая прямая называется главной осью н может быть найдена как главный собственный вектор матрицы дис­ персий и ковариаций X и Y. Процедуру вычисления главной оси мы обсудим в гл. 6 в разделе, посвященном методу главных компонент.

Другой метод состоит в минимизации произведения откло­ нений в направлениях X и Y. В действительности этот метод приводит к минимизации суммы площадей треугольников, об­ разованных наблюдениями и подбираемой прямой (см. рис. 4.22), что приводит к прямой, называемой обычно приве­

денной главной осью (прямой ПГО).

Большинство

статей на

эту тему было опубликовано в журналах «Biometrics» и

«Bio-

m e t r i k a » ,что отражает популярность

этого метода

среди

уче-

пш, занимающихся вопросами роста организмов. Хотя свойст­ ва приведенной главной оси мало интересовали статистиков, все

же они были исследованы Кермаком и Халденом

[31] и Крас-

клом [33].

Тиллом

[52],

Резюме этих исследований для геологов дается

а более подробное изложение имеется у Миллера и Кана

[36].

Приведенная главная ось определяется с помощью обычно­ го линейного уравнения, имеющего два коэффициента: один, представляющий начальную точку, другой— наклон:

Y = Ьо + Ь\Х.

231

Соседние файлы в папке книги