Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 2

.pdf
Скачиваний:
0
Добавлен:
12.11.2023
Размер:
19.38 Mб
Скачать

Рис. 5.82. Расположение основных нефтегазоносных полей в центральном Канзасе

только при выполнении определенных условии по отношению к выборочным данным. Если эти предположения сделаны обосно­ ванно, то мы можем рассматривать коэффициенты найденные с помощью метода наименьших квадратов, как оценки истинных значении коэффициентов регрессии р,, и проверить сформулиро­ ванные относительно них гипотезы. Мы должны допустить, что случайная величина, рассматриваемая в качестве функции, рас­ пределена нормально с математическим ожиданием, равным ис­ тинному значению регрессии, и что дисперсия функции не изме­ няется с изменением аргумента. Кроме того, отбор проб из ге­ неральной совокупности должен быть беспристрастным. По­ следнее условие обычно трудно выполнимо, особенно в струк­ турном анализе, базирующемся на данных скважин, так как их положение, как правило, не является случайным. Проверка ста­ тистических гипотез о характере поверхности тренда будет наи­ более простой в случае, когда данные представляют собой ре­ зультаты химического анализа проб, собранных по заданному плану.

Значимость поверхности тренда, или уравнения регрессии, можно проверить с помощью дисперсионного анализа, который основан на разделении общей дисперсии набора наблюдений на компоненты, соответствующие определенным источникам измен­ чивости. Конечно, именно это и делается при разделении общей изменчивости величины Y на тренд (или регрессию) и остаток (или отклонение). Число степеней свободы, соответствующее общей изменчивости в тренд-анализе, равно п — 1, где п — чис­ ло наблюдений. Число степеней свободы, соответствующее урав­ нению регрессии, равно числу членов полинома, используемого для построения этого уравнения. Число степенен свободы, со­ ответствующее отклонениям, равно разности между числами

152

Т а б л и ц а 5.19

Общий ANOVA для проверки значимости полиномиальной регрессии тренд-поверхности к-й степени (п — число наблюдений;

т — число членов полинома, не считая Ь0)

 

С у м м а

Ч и с л о с т е ­

С р е д н е е

 

П с ю ч н и к и з м е н ч и в о с т и

п е н е н с в о ­

F - к р н т е р и й

к в а д р а т о в

к в а д р а т о в

 

б о д ы

 

 

 

 

 

Регрессионный полином

 

т

 

AIS fi/AiS о

Опслоненпе от полинома

 

пт —1

M SD

 

Общая изменчивость

 

п— 1

 

 

степеней свободы для упомянутых двух типов изменчивости, т. е. \ D = \ T\'R. Формальная процедура дисперсионного анали­ за показана в табл. 5.19.

Значения средних квадратов вычисляются путем деления со­ ответствующих сумм квадратов на определенное число степенен свободы. Средние квадраты в свою очередь являются оценками дисперсий, и при их сравнении можно воспользоваться С-рас- пределенпем Фишера. Так, MSn — оценка дисперсии, возникаю­ щей как следствие отклонений отдельных наблюдений от по­ верхности регрессии, a A1SR— оценка дисперсии самой поверх­ ности регрессии. Если регрессия играет существенную роль, то дисперсия отклонений от поверхности регрессии будет мала по сравнению с дисперсией самого уравнения регрессии.

При общей проверке предположения о наличии или отсутст­ вии тренда рассматривается частное от деления оценки диспер­ сии уравнения регрессии на оценку дисперсии отклонений. Зна­ чение F дает вероятный ответ на вопрос: можно ли рассматри­ вать две упомянутые оценки, дисперсий как несущественно отли­ чающиеся одна от другой, т. е. регрессия не дает какого-либо эффекта по сравнению со случайными отклонениями. Утвердиicльнып ответ на этот вопрос можно интерпретировать так, что

распределение случайной

величины не зависит

от

значений

Л'

Хт пли величина

У

частично

зависит

от

X

а

математическая

модель для

описания

этой зависимости вы­

брана неверно.

вариантов

формальной постановки

задачи о

 

В большинстве

пригодности уравнения регрессии для описания зависимости ис­ пользуются следующая проверяемая гипотеза (Н0) и соответ­ ствующее ей множество альтернатив (Hi):

Н о ' ^ 1 = ^ 2 = ■ ■ ■ = р т = О,

(5.89)

PI, р2, • • ■, $тФ0.

 

153

Проверяемая гипотеза заключается в том, что все коэффи­ циенты регрессии равны нулю, или, иными словами, что регрес­ сии нет. Если вычисленное значение F превысит допустимое, со­ ответствующее заданному уровню значимости п числу степенен свободы, то проверяемая гипотеза отвергается как противоре­ чащая выборочным данным и принимается альтернатива Н\.

Некоторые исследователи, применяя полиномы в тренд-ана­ лизе, последовательно увеличивают их степень, чю приводит к постепенному увеличению числа слагаемых. В подобной ситуа­ ции дисперсионный анализ можно распространить на изучение тех вкладов в изменчивость, которые дают добавляемые регрес­ сионные компоненты, что позволит ввести меру эффективное! и увеличения порядка уравнения. Такой критерии строится как разность между суммами квадратов уравнений регрессии выс­ шего и предшествующего порядков. Разделив эту разность на разность соответствующих чисел степеней свободы, получим средний квадрат регрессии, обусловленный увеличением степе­ ни полинома. Частное от деления полученного среднего квадра­ та на средний квадрат отклонения от регрессионной поверхнос­ ти более высокой степени будет иметь Ё-распределение. Если вычисленное значение отношения F превысит допустимое при заданном уровне значимости и соответствующем числе степеней свободы, то из этого следует, что увеличение степени полинома дает эффект. Если значение отношения F незначимо, то делаем вывод, что увеличение степени многочлена не дает эффекта. Об­ щая схема проверки значимости полиномиального тренда более высокой степени приведена в табл. 5.20.

Таким образом проводится проверка следующей гипотезы:

Из ■^/t+i = Р*+2= • • • = [+ = 0

(5.90)

при альтернативе

 

 

 

: (К-н, Р*+2, •••, ?.п+0.

 

Согласно нулевой гипотезе, все коэффициенты регрессии, на­

чиная с номера k+\,

равны нулю, поэтому введение в

уравне­

ние регрессии членов

с номерами, превышающими k,

не дает

никакого эффекта (не следует забывать, что полиному степени р соответствует k коэффициентов регрессии, а полиному степени (/0+1)—■т коэффициентов). Если вычисленное значение Епре-

вышает табличное, то гипотеза отклоняется.

Проверочная про­

цедура для нелинейного случая подробно

описана в работе

Ли [50].

 

В ряде геологических задач возникает потребность оценить эффект, обусловленный одним коэффициентом регрессии в урав­ нении, описывающем поверхность тренда. Такую оценку можно провести путем простого устранения данного члена полинома с последующим повторным вычислением сумм квадратов для per-

Т а б л и ц а 5.20

Общая схема проверки эффективности увеличения степени полинома в уравнении регрессии

Источник изменчивости

У д

ппещге

р егре сси и

с т е ­

ч е м

{р-'-г 1)

 

 

 

О г м о н е н п я

от у ра вн ен ия

р е

десег.и степени

( / > + "

У р ".внеине

регрессии

с т е ­

ке м л

р

 

 

 

 

(Ог

, т о м тмя

от

у р а в н е ­

ния

 

регрессии с т е п е н и

р

У в е л и ч е н и е

степени

у р а в ­

нения р е г р е с с и и

от

р д о

1 Г - 1 )

 

 

 

 

С у м м а

Ч и с л о

сте -

Срцднеу

 

г

К3.1Д|) ,тов

 

квадратов

боды

/ -КШПЧ РПЙ

 

 

 

 

 

 

 

 

SSr,^,

m

 

 

 

 

 

 

 

 

 

A I S / ^ P + I *

SSor+]

n m1

I'U LS C P + I

1

 

SS,C

h

 

 

M S M

 

SS0 n

n — ':—

1

MSnr

l \ l S D P

 

ss*,=

m —

к

 

MS RI

 

SSppp.-,----

 

 

 

 

 

-SSs-

M S R!* * *

 

 

M S D P +1

 

и зменчивость

SSr

n — 1

 

f

'-г-ск ш

i.onepxnu*.,;« :n\ ;а

D 1 . .к'МЧ

П'чмн-ьма значимости поверхности тренда р-стспеш:,

от ;> дз p-f-I

Ьр^вцжа эффективности увеличении 0 1 епени

полинома

, , с п и

и отклонения. Вклад исключенного члена является раз­

ностью двух сумм

квадратов. Значимость

этого члена можно

проверить с помощью вычисления отношения среднего квадрата дЛ/1 уI лвнення с исключенным членом и среднего квадрата для то'о!цел о уравнения регрессии. Д-отношение имеет числа степе­ ней свободы, равные 1 и (пт—1). В табл. 5.21 приведена схе-

,.i;, дисперсионного анализа (ANOVA)

для проверки

значимое*

и одного исключенного коэффициента.

 

 

Ирл добавлении новых переменных к каждому член)' урав­

нения регрессии можно применить тот же критерии,

вычисляя

приращение S S R. Однако этот прием не рекомендуется приме­

ни ;ь, гак как имеется тенденция после

появления нескольких

последовательных незначащих коэффициентов считать все сле­ ду ющпе члены незначащими, хотя это не всегда так. В анали­ зе поверхностей тренда после прибавления полного набора чле­ нов более высокого порядка для их исключения требуется инди-

155

 

Т а б л и ц а 5.21

Дисперсионный анализ. Проверка значимости одного исключенного

коэффициента; полное

уравнение полиномиальной регрессии содержит

т — коэффициентов, не

считая члена Ь0\ после исключения коэффициента

с номером к уравнение регрессии содержит т — 1 коэффициентов; число наблюдении равно п

 

 

 

 

 

Сумна квад­

Число

сте­

Средне*.'

Источник

изменчивости

 

пенен

сво­

 

ратов

кьадрттов

 

 

 

 

 

 

боды

 

Р е г р е с с ия

всех

членов

 

S S *

т

 

M S ,

О т кл о н е ни е

 

 

j

S S 3

11171— 1

M S a

Р е г р ес с и я

п ос ле

и с ­

 

S S , _ ,

т — 1

М 5 , _ ,

к люче ни я

А’-го

члена

 

 

 

 

 

От кл он ен ие

 

 

 

S S o - i

п т — 2

M S 0 _ ,

Р е гр е с с и я

т о л ьк о

6*го

 

S S P i = S S R—

1

 

M S * *

чл ена

 

 

 

 

— S S , - i

 

 

 

С у м м а

 

 

 

J

S S /

п ~ 1

 

 

 

'

 

 

1

 

 

 

 

' К р и т е р и й з н а ч и м о с т и т р е н д - п о в е р х н о с т и р - й с т е п е н и .

**

К р и т е р и й

з и п ч т т с -Hi т р с н е - п о в е р х н о с т и р - й с т е п е н и б е з ft- г о ч л е н а .

* ' * К р и т е р и й

з н а ч и м о с т и о д н о г о ft- г о к о э ф ф и ц и е н т а .

/'-критерий

M S R*

M S D

M S R- , * *

M S D- ,

M S r k ***

M S D

видуальная проверка каждого из них. Сокращенные совокупно­ сти членов высокого порядка нельзя приписать слепо, если на то нет особых оснований. В одном примере из-за ограничении, связанных с машиной, для данных по нефти была построена «гиперповерхность» третьего порядка, уравнение которой не содержало членов третьей степени с разными переменными. Это уравнение сильно отличалось от уравнения, полученного по тем же данным на более мощной ЭВМ с использованием программы построения полного кубического уравнения. Более того, если коэффициенты корреляции членов низкого порядка малы, то добавленные члены имеют тенденцию быть значимыми.

Два вышеприведенных множества данных (см. табл. 5.15 и 5.18) характерны для задач структурного тренд-аналнза. Цель обоих исследований состоит в нахождении площадей, на кото­ рых структурные поверхности можно представить полиномиаль­ ными уравнениями. В этих задачах распределение ошибки та­ ково, что пригодность критериев значимости для коэффициентов

156

Рис. 5.83. (а) Расположение точек анализа в кристалле сфалерита (анализ выполнен под электронным микроскопом); (б) изолинии, характеризующие содержание железа

уравнения регрессии вызывает подозрение. Однако в следую­ щем примере условии сбора данных и проведения эксперимента, ло-вндимому, хорошо согласованы с условиями применимости регрессионных критериев.

На рис. 5.83 изображена плоская проекция одного кристалла сфалерита, найденного в шахте на севере Мексики. Исследова­ теля интересовало содержание железа в кристалле. Кристалл Гыл осторожно расколот по центру, а поверхность отполирова­ на. С помощью электронного микроаналнзатора определялось содержание железа на участках размером в 1 нм в поперечнике через интервал в 1 мм. Сеть точек анализа изображена на рис. 5.83, а\ изолиния полученных значений представлены на рис. 5.83, б; соответствующие данные приведены в табл. 5.22. Хотя использование данных о содержании железа в сфалерите в ка­ честве температурного индикатора и подвергалось критике из-за возможного существования неравновесных условий во время кристаллизации, вес же многие исследователи считают, что рас­ тущая грань кристалла все время находится в равновесии с ру­ лообразующим раствором. Поэтому средний состав кристалла может лишь неадекватно служить температурным указателем, но состав последовательных срезов кристалла позволяет опре­ делить кривую температурного изменения. Простейшая модель распределения железа в кристалле отражает постепенное сим­ метричное изменение (увеличение или уменьшение) его содер­ жания при удалении от центра. Построение квадратичной по­ линомиальной регрессии значений содержания железа по ко­ ординатам точек опробования является хорошим методом про­ верки этой модели. Используя данные табл. 5.22, постройте ряд поверхностей тренда для содержания железа. Вычислив необ­ ходимые суммы квадратов, примените аналогичную приведен­ ной в табл. 5.20 схему ANOVA для проверки значимости урав­ нении полиномиальной регрессии.

157

Содержание

железа

(в %) в участках диаметром

 

Т а б л и ц а

5,22

1 им, расположенных

по сетке 1X ! мм на плоскости кристалла сфалерита

 

Xi

А'2

г

'

А’А

Л'а

 

 

 

 

 

 

 

 

 

2 , 0

1,0

3 , 1

1

2 , 0

4 , 0

6,4

3 , 0

1 , 0

4 , 6

!

3 , 0

4 , 0

14,6

4 , 0

1 ,0

5,8

1

4 , 0

4 , 0

17.6

5 , 0

1 , 0

7 . 2

!

5 , 0

4 , 0

21,2

6 , 0

1 , 0

8 . 4

1

6 , 0

4 , 0

21,0

7 , 0

1 , 0

6 . 3

!

7 . 0

4 , 0

13,4

8 , 0

1, 0

2 , 4

;

8,о

4 , 0

7,5

1 , 0

2 , 0

2 , 5

1

9 . 0

4 , 0

0,4

2 , 0

2 , 0

1 0 , 2

I

2 , 0

5 , 0

3,1

3 , 0

2 . 0

1 2 , 8

1

3 , 0

5 , 0

8,6

4 , 0

2 , 0

16,1

 

4 . 0

5 , 0

15,0

5 , 0

2 , 0

1 4 , 2

 

5 , 0

5 , 0

16,2

6 , 0

2 , 0

15, 1

 

6 , 0

5 , 0

14,8

7 , 0

2 , 0

1 2 . 8

1

7 , 0

5 , 0

9,8

8 , 0

2 , 0

9 , 0

1

8 . 0

5 , 0

ЗД

9 . 0

2 , 0

5 , 3

;

з,о

6 , 0

5.0

1 , 0

3 , 0

4 , 3

 

4 , 0

6 , 0

7.2

2 , 0

3 , 0

14, 1

 

5 , 0

6 , 0

12.3

3 , 0

3 , 0

1 5 , 6

;

6 , 0

6 . 0

10,6

4 , 0

3 , 0

2 0 , 2

7.о

6 , 0

4 5

5 , 0

3 . 0

2 0 , 6

'

5 , 0

7.0

0

6

6 , 0

3 , 0

! 8 . г-

 

4 , 0

7,0

2.4

7 , 0

3 , 0

16 2

;

5 , 0

7,0

3,5

8 , 0

3 , 0

1 0 . 2

6 , 0

7,0

4,7

9 , 0

3 , 0

4 . 6

'

 

 

 

 

 

 

 

 

 

 

 

Две модели поверх*-. -.стен тренда

Читатель, вероятно, отметил, что выше было рассмотрено цва в корне различных типа геологических задач, решаемых с использованием методов тренд-анализа, С одной стороны, целью построения поверхностей тренда по структурным данным явля­ ется выявление «локальных структур». Эмпирически было дока­ зано, что в бассейне осадконакопления эти отклонения от по­ верхности тренда могут быть структурно или гидродинамически ассоциированы с нефтяными ловушками. С другой стороны, рег­ рессионные поверхности использовались для определения регио­ нального тренда по петрологическим и геохимическим данным. В этих двух приложениях различны как задачи, так и основные допущения, но метод по-прежнему остается общим.

Поверхности тренда, подбираемые к структурным данным, можно представить уравнением

= |3o+ P l^l +

-Г ?|';^2Р+ (у, + е,),

(5.91)

158

которое показывает, что данное наблюдение (абсолютная от­ метка кровли изучаемого слоя) равно сумме постоянного чле­ на, связанного со средними значениями географических коорди­ нат, плюс полиномиальное разложение степени р этих коорди­ нат, плюс локальная компонента, плюс случайная компонента, Обычно последние два члена совмещаются и исследуются в со­ вокупности.

Наоборот, поверхность тренда, подбираемая для петрогра­ фических или подобных данных, обычно описывается следующей простой моделью, называемой уравнением поверхности отклика

Yi = ?<,+ pi*. + Р А + .. - + РтХ? + si,

(5.92)

которое во всех отношениях похоже на уравнение поверхности тренда, но в нем отсутствует локальная компонента у-. В этом случае представляет интерес исследование природы тренда, т. а. получение оценок для коэффициентов р, полинома.

Петрографические и геохимические переменные обычно ха­ рактеризуются высокой дисперсией между повторениями. Эта изменчивость возникает в силу неоднородности в пределах ана­ лизируемых выборок, локальной или мелкомасштабной измен­ чивости в составе (в масштабе, большем, чем проба, но меньшем, чем интервал между пробами), а также из-за наличия аналити­ ческих или инструментальных ошибок. Обычно последние со­ вмещаются, а это в свою очередь приводит к тому, что ошибку наблюдения можно рассматривать как нормально распределен­ ную случайную величину. Хотя каждый источник изменчивости можно изолировать и измерения провести повторно, этого обыч­ но не делается из соображений экономии, а также по ряду дру­ гих причин.

Поверхность тренда или регрессии, построенная по геогра­ фическим переменным, хорошо подходит к таким данным, если выполнены основные допущения. В последние входят требова­ ния, чтобы случайные компоненты е были нормально распреде­ лены относительно регрессии и имели нулевое среднее и посто­ янную дисперсию. В свою очередь это означает, что компоненты ь независимы друг от друга. Если эти условия выполнены, то можно проверить значимость регрессии и затем сделать выво­ ды относительно тренда. Подходящие для этих целей статисти­ ческие критерии представлены в таблицах 5.19—5.21. Имеется также множество других статистических критериев, которые широко используются в сельском хозяйстве и инженерной хи­ мии: введение в эти методы дано Менденхоллом [56]. Кох и Линк [45 ] рассматривают вопрос о применимости одного тез э'их критериев в геологии. Важное свойство таких выводов со­ стоит в том, что они применимы к тренду. Это изображено на рис. 5.84, где показано, что наблюдаемые значения К попада-

Рис. 5.84. Распределение случайной компоненты относительно линии регрессии в полиномиальной модели.

Наблюдения, указанные пунктиром, предполагаются лежащими внутри обла­ сти отклонений относительно линии регрессии

Рис. 5.85. Распределение случайной компоненты относительно наблюдаемой поверхности, соответствующей структурной модели поверхности тренда.

Отклонения в повторениях точек концентрируются около средних значений, - а не около линии, определенной полиномиальной моделью

ют внутрь интервала значений отклонений относительно рег­ рессии.

При подборе поверхностей тренда к структурным данным наблюдения (обычно это абсолютная отметка кровли пласта) не повторяются. Действительно, если пробурена одна скважина, то обычно вблизи нее нецелесообразно бурить другую, так как последняя даст те же результаты. Повторные измерения в сква­ жине могут колебаться в зависимости от глубины и общей про­ тяженности скважины, но этот источник экспериментальной ошибки будет на один (или более) порядок меньше, чем откло­ нения в анализе поверхностей тренда. Отсутствие повторных наблюдений означает, что локальную изменчивость нельзя учесть. Однако необходимо отметить, что этот источник ошибки будет также немаловажен, так как бурение скважины нельзя считать выборкой из совокупности поверхностей. Существует тоаько одна поверхность кровли, слоя, и возникает только одна дисперсия, связанная со столь малыми значениями ошибки, что сю можно пренебречь. Таким образом, дисперсию остатка в анализе поверхностей тренда можно объяснить недостаточным приближением.

160

В терминах нашей модели эквивалентное высказывание за­ ключается в том, что Ег пренебрежнмо мало по сравнению с Хотя случайная компонента е( имеет нулевое среднее значение

и является независимой для

всех значений У;, ее нельзя отде­

лить, так

как мы не делаем

повторных

измерений. Совмещен­

ный член

также имеет нулевое среднее, однако в общем

случае не является независимым для всех значений Y,. На са­

мом деле

цель анализа заключается в

определении областей

данного размера по АТ и Х2, над которыми член (^Н-ег) корре­ лирован. На рис. 5.85 указано теоретическое распределение ве­ личии Ei относительно структурной поверхности. В большинстве случаев отклонение поверхности от полиномиальной модели от­ ражает не величину ошибки, а поведение локальной компонен­ ты У;.

Различие между этими двумя уравнениями для поверхностей тренда отражено в методе, с помощью которого изучается авто­ корреляция между остатками. В полиномиальном регрессион­ ном анализе автокорреляция рассматривается как усиление ограничений, принятых в модели, и вводится для обоснования (н,тн серьезного ослабления) выводов, полученных в результате анализа. Такое положение характерно для петрографических и геохимических данных, так как повторения приводят к тому, что ошибки распределены нормально при сравнительно простом уравнении регрессии. Хотя отсутствие согласования заставляет предположить наличие более сложных уравнений регрессии, все же ошибка достаточно велика для того, чтобы можно было счи­ тать, что все отклонения учтены.

В противоположность этому геологи, используя тренд-анализ структурных данных, находят области автокоррелированных остатков. Как было установлено выше, почти все структурные отклонения можно охарактеризовать отсутствиедг согласования, а наличие автокоррелированных остатков указывает на некото­ рую область, более широкую, чем интервал опробования, в ко­ тором поверхность отклоняется от полиномиальной модели в требуемом направлении. Как большие площади автокоррелнровапных остатков, так и одиночные точки со значительными от­ клонениями представляют интерес при разведке нефти, потому что указывают области, где локальные структуры (71) имеют большое влияние. Отклонения не являются случайными вели­

чинами, поэтому обычные

критерии значимости регрессии в

этом случае неприменимы.

 

Особенности тренд-анализа

Теперь представляется целесообразным указать факторы, коюрые могут значительно испортить результаты тренд-анали­ за, т. е. любой тип анализа карт [ 10J.

11 —Ч 5

161