Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ данных в геологии. Кн. 1

.pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
14.63 Mб
Скачать

черпнуть в руководствах по непараметрическим статистическим методам Брэдли [8], Коновера [10], Зигеля [50]. Примеры ис­ пользования критерия скачков в геологии имеются в книге Мил­ лера и Кана [36]. Некоторые из этих авторов считают длину самого большого скачка показателем неслучайности, другие ис­ пользуют число точек инверсии, т. е. точек, в которых знаки последовательных наблюдений меняются. В некоторых случаях эти критерии могут оказаться более подходящими, чем про­ цедуры, описанные выше. Вообще говоря, процедура исследова­ ния скачков вверх и вниз считается наиболее мощным приемом из критериев скачков, так как она использует изменение вели­ чины в каждой точке по отношению к прилегающим точкам. Другие дихотомические схемы отражают только изменения по отношению к одному значению, например к медиане или сред­ нему значению.

Критерии скачков целесообразно применять в тех случаях, когда требуется выяснить причину нарушения случайности. На­ личие слишком большого или слишком малого числа скачков позволяет выявить места нарушения случайности и не отож­ дествлять их с трендом. Необходимо отметить, что сам по себе факт случайности не может быть доказан, так как условие случайности содержится в нулевой гипотезе. Мы можем только утверждать при некотором заданном уровне значимости, что нулевая гипотеза неверна и что по этой причине последователь­ ность не является случайной. Иными словами, если наши по­ пытки проверить неслучайность окончились провалом, то нам ничего не остается больше, кроме принятия нулевой гипотезы. В дальнейшем мы рассмотрим пронедуры обнаружения тренда или систематических изменений среднего значения. Мы будем иметь возможность убедиться в том, что критерии скачков в со­ четании с этими методами оказываются весьма полезными.

МЕТОД НАИМЕНЬШИХ КВАДРАТОВ И РЕГРЕССИОННЫЙ АНАЛИЗ

Во многих задачах нас могут интересовать не только имею­ щиеся в последовательности изменения, но также те точки, в ко­ торых эти изменения происходят. Для решения этих задач нужно иметь набор измерений изучаемой переменной, а также знать расположение точек этих измерений. Как измеряемая пе­ ременная, так и шкала, в которой в соответствующих единицах выражены элементы последовательности, должны иметь опреде­ ленный размах. Оказывается, нам недостаточно простой инфор­ мации о порядке следования точек. В большинстве примеров, которые мы сейчас рассмотрим, нас будет интересовать общий характер изменения данных. Информация об этом будет ис­ пользована при интерполяции между данными точками для экстраполяции значений, расположенных за пределами данной

202

 

 

 

Т а б л и ц а

4.11

 

 

Влажность современных илов в пробах керна, взятых

 

на побережье Мексиканского залива, Луизиана

ГлубЕгна,

футы

Влажность

(грамм ч

Глубина, футы

Влажность (граммы

воды/100

г сухого

воды/ГОО г сухого

 

 

осадке)

 

осадка)

0

 

124

20

30

5

 

78

25

21

10

 

54

30

22

15

 

35

35

18

последовательности, для получения выводов о влиянии тренда или для получения оценок характеристик, которые могут быть инюресны геологам. Если относительно распределения сово­ купности, из которой взяты выборки, можно сделать некоторые обоснованные предположения, то к ним можно применить стагнсгнческшТ метод, называемый регрессионным анализом.

Данные табл. 4.11 представляют значения влажности в про­ бах керна современных морских илов побережья Мексикан­ ского залива в Восточной Луизиане. Измерения получены вре- п'ль■ате сравнения массы проб немедленно после взятия их из пробоотборника и после тщательного высушивания. Если мы сопоставим сделанные измерения и соответствующие им глу­ бины, как ?лю сдельно на рис. 4.13, то увидим, что содержание влага быстро пад-.ы с глубиной в верхних частях слоя ила и медленно убывает, почш стабилизируясь, в осадке вблизи се­ тования слоя. Рассмотрим теперь различные способы исследо- ' ■; н.я и записи неявных соотношений между этими наблюде-

дначенне.

47,75, указанное на рис. 4.13, — среднее содержа­

нке влаги в

пробах— представляет собой точку, относительно

которой дисперсия минимальна, т. е. минимальна сумма квад­ ратов отклонений содержаний влаги относительно этой точки. Читатель должен помнить (см. гл. 2), что если некоторые про­ бы вызывают сомнение, то их можно заменить несмещенной п эффективной оценкой выборочного среднего, являющегося наи­

лучшим

предсказанием

для

дополнительных проб, которые мо­

гут быть

извлечены,

из

топ же совокупности. Однако ясно, что

>•роднее

значение не

может

адекватно представлять данные

рас. 4.13. Пробы отбирались последовательно, я потому они не являются независимыми. Еще более, чем точечная оценка, нам подошла бы прямая линия, которая выразила бы связь между содержанием влаги и глубиной на всем множестве изменения значений переменных. Интуитивные соображения подсказыва­ ют нам, что в качестве такой линии можно было бы выбрать прямую, отклонения которой от данных значений можно свести

208

В л а ж н о с т ь , г

Х = 47.75

Рис. 4.13. Зависимость влажности осадка от глубины (в граммах воды на 100 г сухого осадка).

Данные собраны в скважине, пробуренной в современных илах на побережье Мексиканского залива. Отметим, что ориентация графика не соответствует ориентации, обыч­ но используемой в математике

Рис. 4.14. Различные варианты кри­ териев минимизации отклонений от линии аппроксимации:

<4— минимизация отклонения влажности;

В— минимизация обобщенных отклонений;

С— минимизация отклонений глубины

до минимума. Если рассуждать по аналогии со средним, то один из способов состоит в минимизации суммы квадратов от­ клонений от прямой. (Среднее — это значение, относительно которого дисперсия и, следовательно, сумма квадратов откло­ нений, является наименьшей). Мы можем построить единст­ венную прямую, относительно которой дисперсия минимальна. Если значения этой линейной функции в данных точках вы­ честь из соответствующих наблюдаемых значений, то получен­ ное в результате множество чисел будет иметь среднее значе­ ние, равное нулю, и меньшую дисперсию, чем набор отклонений от любой другой прямой, построенной по данным точкам.

Имеется, однако, несколько способов определения и измере­ ния отклонений от подбираемой линии. Например, мы можем рассмотреть отклонения значений влажности, отклонения глу­ бин или некоторую их комбинацию. На рис. 4.14 отрезок А изображает отклонение содержаний влажности от подобранной прямой, а отрезок С — отклонение значения глубины от той же прямой. Отклонение В измерено по перпендикуляру к ней. Можно было бы построить прямые, используя любой из этих

204

способов измерения отклонений, но мы ограничимся лишь за­ мечаниями по поводу каждого из этих способов. Если наша за­ дача будет заключаться в минимизации отклонений содержа­ ний влаги, то мы получим прямую, представляющую наилуч­ шую оценку влажности при заданных глубинах. Наоборот, если задача будет состоять в минимизации отклонений глубин, то мы получим наилучшую оценку зависимости глубины от содержа­ ний влаги. Третья альтернатива позволяет выразить связь меж­ ду двумя переменными. В специальном наборе задач, рассмат­ риваемых в этой главе, временные или пространственные ин­ тервалы считаются известными, а вторая переменная имеет не­ прерывное распределение. Поэтому первая альтернатива ка­ жется наиболее подходящей для наших целей. Иными словами, содержание влаги Y рассматривается как случайная перемен­ ная, а глубина X фиксируется. Поэтому задача состоит в пред­ сказании значений Y по значениям X. Другие случаи будут рас­ смотрены в следующих главах этой книги.

После того как мы условились о характеристиках прямой тренда, которую мы хотим построить, определим некоторые термины. Изучаемая переменная является зависимой (т. е. функцией) или регрессионной и обозначается Yt. Отклонения Yi от прямой линии должны быть минимальными. Другая перемен­ ная является независимой (или аргументом) и обозначается X,-. Пусть аппроксимирующая прямая пересекает ось Y в точке Ь0 и имеет угловой коэффициент Ь\. Тогда ее уравнение имеет вид

 

Yi —

ЬгХ ь

(4.11)

где Yi — оценка для Уг при данном

значении X,. Рассматривае­

мое отклонение равно

Уг—Yiy и наша задача сводится к нахож­

дению такой прямой,

для

которой

сумма

квадратов откло­

нений

 

 

 

 

П

 

 

 

 

Л (Е г—Кр2 = минимум.

(4.12)

1 = 1

 

 

 

 

Получение окончательного результата требует применения дифференциального исчисления, поэтому мы не будем рассмат­ ривать доказательство, а ограничимся тем, что приведем так называемые нормальные уравнения, позволяющие найти значе­ ния Ьо и Ь\ для аппроксимирующей прямой. Они имеют вид

П

 

 

П

 

i-l

= М

+

2 * « ;

(4ЛЗ)

 

 

/=1

 

п

 

п

п

 

=

+

2 * Л

(4Л4)

i = i

/ = 1

i = i

 

205

Решая систему уравнений, получим

(4.15)

и

2 ^ .

2

x i

 

/«1

А :=i

Y ЬуХ.

(4.16)

Мы могли бы использовать эти формулы для получения коэф­ фициентов прямой, однако легко заметить, что уравнения (4.13) н (4.14) представляют собой систему уравнении, кото­ рую можно решить, используя методы, описанные в гл. 3.

Оба эти уравнения можно записать в матричной форме.

/ п

SAr \

('

b0 \

( SK \

 

\Z X

SA'2)

\

I

\SAT ; ‘

14‘17'

Хотя в этом простом случае использование матричного метода едва ли даег какие-либо преимущества, в более сложных си­ туациях его применение оправданно. Полому мы приведем решение задачи о зависимости содержания влаги от глубины

методами матричной алгебры

п будем использовать этот

метод

л далее ь настоящей главе.

Элементы

матриц

таковы:

п = 8,

SA*= 140, ХУ= 382,

ХЛ'У- 3870

н SA'2 = 35GU. Сисщма в

матрич­

ной форме имеет вид

 

 

 

 

 

 

I

8

140 \

/ ba \ _

I 382 .

 

 

 

\

140

3500

) ' б, !

1У«70 ''

 

 

 

Решив ее, получаем 60 = 94,67 и Ь] = —2,68. Мы

дожем

псшоль-

зовать полученные значения для вычисления одинок содержа­ ний влаги в осадке на различных глубинах. Полученные оценки опробования в точках позволяют измерить, насколько прямая, построенная по методу наименьших квадратов, соотнес твует исходным выборочным данным. Если бы достроенная тогда:?

проходила в точности через каждую выборочную точку, то У, и Y; совпадали бы и сумма квадратов отклонении от прямой была бы рдзна^нулю. Конечно, в приведенном примере эго не

так. Значения У; и У; изображены на рис. 4.15.

Мы можем определить три характеристики, которые вписы­ вают изменение зависимой переменной. Первая из них — эхе

Рис. 4.15.

Наблюдаемые значения

Влажность, г

влажности

и их

оценки,

полученные

 

из линейного уравнения регрессии, по*

 

строенного

по

методу

наименьших

 

 

квадратов

 

 

общая сумма квадратов (SSr) переменной У:

 

S S T =

 

 

 

(4.18)

Разделив это уравнение на (п—1), получим дисперсию пе­

ременной

У:

 

 

 

 

S'

 

1

 

2

(4.19)

п(п — 1)

 

 

 

 

 

 

Вторая характеристика изменчивости зависимой перемен­

ной— это

сумма квадратов

отклонений

оцененных значений У,-

от среднего значения У:

 

, 2

 

 

 

п

п

п

 

 

 

 

 

 

(4.20)

Как следует из правой части этого равенства, оценки име­ ют то же среднее значение, что и исходные данные. Сумма

квадратов этих оценок У; характеризует меру изменчивости ли­

нии регрессии относительно среднего значения. Если У,- и У,- совпадают для всех наблюдений, то суммы квадратов, вычис­ ленные по формулам (4.18) и (4.20), будут одинаковыми. На­ оборот, если сумма квадратов (4.20) будет меньше, то разность

SSD = S S T — SSr,

(4.21)

207

называемая остаточной суммой квадратов, будет отличаться от нуля. Как легко убедиться, величину S S D можно также вычис­ лить по формуле

SS0 =

(4.22)

1=1

где S S D является мерой отклонения прямой, построенной по ме­ тоду наименьших квадратов, от результатов наблюдений. Ка­ чество приближения прямой характеризуется отношением

*2 = - S r -

(4-23)

Если для имеющихся данных прямая хорошо подобрана, то это отношение будет близко к единице; ниже мы рассмотрим критерии, позволяющие судить о том, насколько хорошо это отношение характеризует качество оценки. Величину R2 неред­ ко выражают в процентах. Та же терминология принята в тренд-анализе, который, как мы увидим, является прямым обоб­ щением этого метода. Необходимо отметить, что квадратный корень из R 2 равен множественному коэффициенту корреля­ ции R:

R = |/Ж = | SSBISSJ .

(4.24)

Алгебраический эквивалент этого соотношения определен в гл. 2 как коэффициент корреляции

SSX!!

(4.25)

у щ щ

Таким образом, при нахождении уравнения прямой, харак­ теризующей зависимость влажности осадка от глубины, по ме­ тоду наименьших квадратов мы вычислили различные величи­ ны, необходимые при определении сумм квадратов, качества приближения и коэффициента корреляции. Вычислите величи­ ны S S T, SSr, S S d, R2 и R для данных табл. 4.11,

Совершенно очевидно, что прямая линия не всегда хорошо аппроксимирует данные даже в случаях высокой корреляции. Плохое приближение возникает как следствие ряда причин, среди которых следует отметить высокую дисперсию зависимой переменной (чрезмерный разброс данных), а также выбор не­ подходящей модели. В этом примере мы склонны подозревать последнее, так как расположение исходных данных наводит на мысль, что для аппроксимации более пригодна кривая, а не прямая линия. Ниже мы рассмотрим нелинейную аппроксима­ цию. Однако прежде нам придется изучить статистические кри­

2 0 8

терии, применяемые для проверки предположения, что данные подчиняются некоторым заданным требованиям.

Если У,-— случайная переменная, которой соответствует не­ который интервал изменения переменной Х„ то мы можем предположить, что имеющиеся данные подчиняются следующей теоретической модели:

Yi = Ро +

+ 6;,

(4.26)

где i — номера последовательных

наблюдений.

Величина е яв­

ляется случайной нормально распределенной величиной с нуле­ вым средним и неизвестной дисперсией о2, не зависящей от ве­ личин Иными словами, предполагается, что наблюдаемые значения У,- являются суммами постоянной величины, связанной со средним значением (если X,- и У,- отсчитываются от своих средних значений, то р0 равно нулю), линейной функции от Xi и случайной компоненты е. Это соотношение изображено на рис. 4.16. Предполагается, что для каждой точки линии регрес­ сии существует нормальное распределение частот возможных значений переменной У;. Применяя метод наименьших квадра­ тов и используя выборочные коэффициенты регрессии, вычис­ ленные исходя из модели (4.17), мы можем оценить параметры регрессии [т. е. параметры р в формуле (4.26)] по выборочным

коэффициентам регрессии [параметры b в

модели (4.17)].

Если сделанные нами ограничения выполнены,

то метод наи­

меньших квадратов даст нам оценки максимального правдопо­ добия параметров регрессии bi и Ь0, и построенная нами линия регрессии будет ближе к истинной прямой регрессии, чем любая другая прямая. Если построенное линейное уравнение являет­ ся удачной регрессионной моделью, то дисперсия случайной компоненты равна дисперсии относительно линии регрессии.

Рис. 4.16. Компоненты регрессионной модели Yi= Po+Pi^+ei.

Предполагается, что случайная компонента 8, нормально распределена относительно ли­ нии регрессии

14— 201

209

Т а б л и ц а 4.12

Дисперсионный анализ для случая простой линейной регрессии

Источник

изменчивости

Сумма квад'

Число степе­

Средние

Значение

/ратов

ней свободы

квадраты

/'-критерии

Линейная

регрессия

•SS*

1

MSn

M S RIMSo

Отклонение

S S D

/г—2

MSo

 

Обшая дисперсия

S S T

п— 1

 

 

Наоборот, если модель выбрана неудачно, то дисперсия отно­ сительной прямой регрессии будет больше, чем дисперсия ве­ личины 8.

Можно использовать полученные суммы квадратов для вы­ числения оценок дисперсий, которые в свою очередь необходи­ мы при проверке двух альтернатив. В частности, S S D исполь­ зуется как оценка дисперсии относительно линии регрессии. Мы можем получить адекватную оценку для о2 только в том слу­ чае, если проведем измерения К,- в каждой точке А',-, так как это единственный путь, который позволяет оценить значение дис­ персии У независимо от дисперсии X. Однако значение S S R дает оценку дисперсии о2 в том случае, если наша модель пра­ вильна; если же наша модель неправильна, это значение пре­ восходит а2 на некоторое положительное число, называемое смещением. Используя S S R, можно провести дисперсионный анализ, приводящий к отклонению нулевой гипотезы в любом из двух случаев, либо когда изменчивость наблюдений слиш­ ком велика для того, чтобы сделать надежные выводы, либо если постулированная нами модель неверна. В табл. 4.12 при­ ведена схема дисперсионного анализа.

Как указано в гл. 2, средние квадратов дают дисперсии, оценки которых получаются в результате деления соответст­ вующих сумм квадратов на отвечающие им числа степеней сво­ боды. Величине M SR отвечает одна степень свободы, так как ее значение получено на основе двух «наблюдений» значении ко­ эффициентов Ь0 и bj. Общая дисперсия имеет п—1 степеней сво­ боды. Поэтому величина M SDдолжна иметь число степеней сво­ боды, равное разности между двумя указанными, т. е. (п—1)— —1 = я —2. Мы можем применить ANOVA к рассмотренной выше задаче, как это сделано в табл. 4.13. При этом проверяет­ ся следующая гипотеза:

Н0 : р, = О

210

Т а б л и ц а 4.13

Результаты дисперсионного анализа, проведенного дли определения

значимости регрессии,

характеризующей зависимость содержания воды

 

в осадке

от глубины

 

 

Источник изменчивости

Сумма квад.

Число степе­

Средние

Значение

раюз

ней свободы

квадраты

F-критерия

Линейная регрессия

7546,88

1

7546,88

23,071*

Отклонение

1962,62

6

327,10

 

Суммарная дисперсия

9509,50

7

!

 

г Гипотеза о равенстве дисперсий отклоняется при 5%-ном уровне значимости (а=

-О,Сё;.

при альтернативе

Я, : fr Ф 0.

Линия регрессии подчинена условию: ежа проходит через сред­ ние значения X и '/. Если угловой коэффициент б-, незнд шмо отличается от нуля, то зю эквивалентно следующему утверж­ дению: рассеяние значений У относительно^ огипп регрессии не меньше, чем их рассеяние относительно У. Б-Л-ерсм 5%-ный уровень значимости (а=0,05). Если Но верна, го проверяемая ста,истина подчиняется ^-распределению с vi—1 и vg—6 л. еленями свободы, и поэтому критическая облает с о с т о и тиз з н а ­ чении, превышающих .F=5,99. Вычисленное значение критерия иопедаег в критическую область, поэтому мы должны откло­ нить гипотезу о том, что дисперсия стноапел? по линии регрес­ сии не отличается от дисперсии, коду ченщ.б до наблюдениям. Однако даже несмотря на го, что существует значительный ли­ нейный тренд, графическое представление дсктых позволяет предположить, что мы в состоянии провести анализ точнее.

В 15 м от первой скважины в илистых обложениях устья реки била пробурена вторая скважина. Содержания веды в гробах из этой скважины образуют последовательность измере­ ний VI, позволяющих оценить о2. В результате мы можем опре­ делить, является ли слабая корреляция между содержанием соды в осадке и глубиной следствием сильного разброса дан­ ных или результатом непригодности уравнения, выбранного в качестве модели. Данные по второй скважине приведены в табл. 4,14. Нанесите эти точки на график и сравните получен­ ное распределение е распределением, соответствующим дан­ ным табл. 4.11.

14

гп

Соседние файлы в папке книги