книги / Статистический анализ данных в геологии. Кн. 1
.pdfТ а б л и ц а 4.21 Суммы квадратов и другие статистики для данных табл. 6 19 (см. кн. 2)
rtx= 25 |
i i y = 2 5 |
2X = 272 |
SK = 267 |
Z = 10,88 |
У = 10,68 |
sr> = 20,3 |
Sy2 = 24,l |
Sx=4,51 |
S y=4,91 |
SS.Y=487,2 |
|
|
соVxy= 15,6 |
|
S P xy= 374,4 |
|
/-=0,71 |
Наклон определяется как отношение стандартных отклонен Pi двух переменных X и У, или
|
b { = |
S Y/ S x . |
(4.42) |
Так как подно |
и то же для |
обоих стандартныхотклонена", |
|
Ь\ может быть найдено с помощью эквивалентного уравнения |
|||
|
— ^SSy/SSx. |
( 4. 431 |
|
Коэффициент bo приведенной главной оси дается формулой |
|||
|
Ьо=У~— Ь Х |
(4.44) |
|
Вычисление приведенной главной оси продемонстрируем ка |
|||
данных табл. 6.9 |
(см. книгу |
2), представленных |
на рис. 4.21. |
С помощью данных табл. 6.9 будут также проиллюстрированы вычисления метода главных компонент (или, используя терми нологию настоящего параграфа, метода нахождения главны': осей). Суммы, суммы квадратов и попарные произведения, средние, дисперсии п ковариации приведены в табл. 4.21. Ис
пользуя их, мы можем |
сначала вычислитьобычную регрес |
|
сию У на X и X на У. Для регрессии Y на X |
|
|
Ьх = SPXY/SSX = 374,4/487,2 = |
0,77, |
|
b 0 = 7 — b j t |
=* 10,68 — 0,77(10,88) |
= 2,43. |
Таким образом, уравнение регрессии есть У=2,46+0,77Х Для регрессии X на У
bi |
SPXY |
374.4 |
0,65, |
|
SSy |
578.4 |
|||
|
|
b0 = X — b\Y = 10,88 — 0,65(10,68) = 3,97,
232
что дает уравнение регрессии |
Х=3,97 + 0,б5 У. Для приведен |
|||
ной главной оси |
|
|
|
|
s |
s Y |
|
578,4 = 1,09, |
|
у ~ |
s s l |
I' |
||
487,2 |
||||
bo = У — b\X = 10,68— 1,09(10,88) = — 1,18 |
||||
Уравнение прямой ПГО имеет |
вид |
7 = —1,18+1,09 X. Сравне |
ние дает следующее: первый собственный вектор ковариацион ной матрицы X и Y есть
Это означает, что собственный вектор имеет наклон, характе
ризуемый длиной 0,75 единиц по оси |
Y и 0,66 единиц по оси X, |
|||
п о |
эквивалентно равенству 1,14 коэффициента Ь\. |
Коэффици |
||
ент |
Ь0 |
равен Г —ft,Х = 10,08—1,14(10,88)= —1,72. |
Уравнение |
|
главной |
оси может быть записано |
в виде У= —1,72+1,14 X. |
На рис. 4.2 изображены две линии регрессии, главная ось и при веденная главная ось. Заметим, что приведенная главная ось и главная ось очень похожи друг на друга. Приведенная глав ная ось делит пополам угол между линией регрессии У на X и линией регрессии X на У; главная ось соответствует несколько большей дисперсии У, что соответствует повороту на чуть более крутой угол.
Стандартные ошибки коэффициентов обеих приведенных : лавиых осей могут быть легко вычислены, затем можно сфор мулировать приближенные критерии значимости. Однако не существует эквивалентов хорошо обоснованного дисперсионного анализа тому анализу, который следует выполнить в условной регрессии. Стандартная ошибка наклона ПГО равна
"*.45)
Эквивалентность угловых коэффициентов Ь\ и &2 двух приве ченных главных осей можно проверить с помощью критерия
; |
хлором легко узнать вариант одного из элементарных крн- |
'• |
дез, обсужденных в гл. 2. Проверяемая статистика Z рас- |
|
•делена приблизительно нормально и ее значимость мо»л |
с-!:;ь определена из таблицы стандартною нормального s’; - пределения.
Стандартная ошибка определения коэффициента Ь0 равна
(4.47)
Равенство (4.47) можно использовать для построения прибли женных доверительных интервалов для вычисленного значе ния Ь0. Аналогично стандартная ошибка в определении углово го коэффициента может быть использована для определения приблизительного доверительного интервала вокруг Ь\. В сущ ности, вообще было неправомерно использовать критерии про верки значимости коэффициентов приведенной главной оси. Из-за отсутствия теоретического обоснования этих процедур приведенная главная ось может быть использована для целей описания, а не для проверки статистической значимости.
СПЛАЙНЫ
Некоторые данные удобно представлять себе как струны в пространстве пар координат, т. е. наблюдения состоят из изме рений двух свойств, совокупность которых может рассматри ваться как последовательность точек в двумерном пространст ве. Для целей наглядного представления желательно связать эти точки гладкой непрерывной линией. Мы сделаем это с по мощью сплайн-функции.
Сплайны есть один из широких классов кусочно-определен ных функций, которые могут быть использованы для представ ления кривых в двумерных или в трехмерных пространствах. Математический сплайн получил свое имя благодаря физиче скому двойнику, гибкому чертежному инструменту, сделанному из узкой полоски дерева или пластика, который может деформи роваться, принимая любую форму в соответствии с каким-либо объектом неправильной формы. Чертежный инструмент закреп лен свинцовыми гирями, называемыми «утками», которые фик сируют положение инструмента в точках привязки. Между «утками» инструмент изгибается так, чтобы получилась глад кая непрерывная кривая. Аналогично математический сплайн ограничен определенными точками, но между ними он изгиба ется так, чтобы в результате получилась гладко изменяющаяся линия.
Сплайны не являются ни аналитическими функциями, ни статистическими моделями, такими, например, как полиноми альная регрессия, описанная ранее, Скорее они являются со вершенно произвольными объектами, лишенными какого-либо теоретического обоснования, исключая то, что они определяют
234
характеристики самой линии. Однако они очень полезны для интерполяции и важны в обеспечении мягкой структуры дис плеев ЭВМ. Интерактивные вычислительно-графические систе мы получили более широкое распространение при построении геологических и геофизических моделей. Подбор кривых с по мощью сплайнов играет важную роль в этих системах.
Сплайны кусочно являются многочленами, подчиненными условию непрерывности производной в общих точках соседних кусков или сегментов. Наиболее общий сплайн состоит из куби ческих многочленов, которые являются функциями вида
У = р, + р2Х + Рз*2 + М 3.
Кривая, определенная кубическим многочленом, должна про ходить ровно через четыре точки, но для аппроксимации более тинной последовательности необходимо использовать последо вательность полиномиальных сегментов. Чтобы убедиться в том, ".го нет разрывов при изменении наклона или кривизны между соседними сегментами, полиномиальная функция подгоняется не по четырем точкам, а только по двум. Это позволяет нам ис пользовать дополнительные ограничения, которые обеспечат
непрерывность первых производных |
результирующего |
сплайна |
в точках сочленения (наклон линии |
одинаков по обе |
стороны |
сочленения). Сплайн степени пг будет иметь непрерывные про изводные в точках сочленения вплоть до порядка т—1.
Изложение теории построения уравнений сплайнов потребо вало бы использовать дифференциальное исчисление, владение которым не считается обязательным для читателя этой книги, Поэтому мы просто укажем необходимые уравнения в форме, добной для вычислений, и остановимся на их приложениях, лггересующихся теорией сплайнов мы отсылаем к отличному водному курсу Роджерса и Адамса [45], посвященному про блемам графического изображения с помощью ЭВМ, и к монорафии Типпера [53], касающейся геологических приложена:', ’етодов построения аппроксимирующих поверхностей.
Математические обозначения, используемые в теории сила,, оз, несколько неожиданны, они поясняются с помок: ью ас, 4.23, на котором представлено множество четырех наб,ио ний, связанных кусочно-определенной силайп-фупкцнои, Наб- ; рения представлены точками, обозначенными Pit причем под-
уменяется, что Р,- з действительности является вектором в де
картовой системе координат, т. |
е, Р ;~ [/:, |
Интервалы |
меж- |
||
г последовательными точками |
можно измерить |
хордой |
(или |
||
прямолинейным отрезком, |
соединяющим |
две точки), которой |
|||
можно приписать число tit |
где i — номер второй |
точки. Кубиче- |
кая спл.айн-функция строится по паре точек; па рисунке указа ть; три последовательных сплайна, один из точки Рх в точку Р2; ногой из Р2 в Рз и третий из Р3 в Р4.
Рис. 4.23. Четыре точки, связанные функцией кубического сплайна.
Исходные наблюдения обозначены через Р(. Расстояния по хордам между точками рав ны f(. Касательная к сплайну во внутренней точке Р 2 обозначена через Р /
В общем виде уравнение сплайна может быть записано в
форме многочлена третьей степени от параметра t\ |
|
|
Я; = РХ+ |
1У-ЫУ2 + |У3 |
(4.48) |
— это представление в виде |
кубического многочлена |
коорди |
нат сплайна на некотором расстоянии t вдоль интервала меж ду двумя точками. Для определения коэффициентов этого урав нения требуется знать координаты точек, определяющих концы сплайна, и наклоны касательных прямых в этих точках. В до бавление к этому мы можем указать граничные условия, опре деляющие поведение аппроксимирующей линии на первом и последнем участках. Конечно, заданы координаты точек. По этим данным требуется определить наклоны касательных векторов. Граничные условия могут быть выбранными по-раз ному в зависимости от вида линии в ее узловых точках. Мы рассмотрим только граничные условия, называемые релак сационными, или натуральными; они не требуют задания каса тельных векторов в концевых точках.
Для нахождения касательных векторов во внутренних точ
ках (Р? и Рз на рис. 4.23) мы должны |
решить ряд совместных |
уравнений вида |
|
[М ][Р'] = [В], |
(4.49) |
где неизвестный вектор коэффициентов Р' определяет искомые касательные. Матрица в левой части уравнения является тридиагональной, т. е. в ней все элементы являются нулевыми, ис
236
ключая диагональные элементы и элементы, стоящие непосред ственно выше и ниже диагонали. Для обращения таких матриц известен специальный метод. При релаксационных граничных условиях матрица \М\ имеет размер пХ п и выглядит так
“ 1,0 |
0,5 |
0 |
0 |
0 |
. . . |
0 |
" |
|
|
|
2 (IAU) |
|
0 |
0 |
... |
0 |
|
|
0 |
f |
2 (/,-К ) |
7 |
0 |
|
|
|
|
' 4 |
. . . |
0 |
|
||||
|
0 |
С* |
1ъ |
2 (7-R,) |
|
. . . |
0 |
|
|
0 |
') |
О |
/ |
2 (*.+*.) |
. . . |
0 |
|
|
|
|
|
•fi |
|
|
|
|
|
|
|
|
• |
|
. . . |
0 |
|
|
|
|
|
|
|
|
||
_ |
0 |
0 |
0 |
6 |
0 |
2 |
4 _ |
(4.50)
Вектор правой части [В] имеет вид
!т г ‘,'(Р,— Р^ + и'(Р,— Р0
*‘ 2*3
\ |
J L t / (Р, — Р3)+ |
(Р, — Р,) |
|||
|
liih |
|
|
(4.51) |
|
[Б]= I |
7 |
7 |
+ |
||
|
|||||
| |
Uh |
|
|
|
|
j 77- № |
|
- я 3) - и у я 5- я 4) |
|||
j |
*5*6 |
|
|
|
_ -~ -{P n- P n - l )
Матричное уравнение решается обращением матрицы \М1 и затем умножением этой обратной матрицы на матрицу [В]. Заметим, что так как координаты точек Я,- определяются зна
чениями X и У, то матрица |
[В] имеет порядок пХ2, где п — |
■.исло точек, по которым |
строится сплайн-аппроксимация. |
В (4.51) указан вид членов матрицы [В]. Первый столбец мат рицы ГВ] находится подстановкой вместо длин хорд значе ний lk и значений координат X наблюдений. Второй столбец
строится аналогично, |
только подставляются координаты У. |
|
Матрица решений |
Р' также |
имеет размеры п Х 2. Каждая |
с т р о к а Р' характеризует наклон |
касательной к сплайну в точке |
шблюдення, заданной координатами X и У.
237
Рис, 4.24. Четыре точки, по кото рым строится кубический сплайн.
Указаны длины хорд между точками
Для нахождения четырех коэффициентов |
определяющих |
'.'-ый сплайн (т. е. линию, связывающую точки |
/Д и Pt+-), мь: |
имеем |
|
^1 —Р к\
р2 = Р'к\
|
О |
3 {P k |
|
1 -----P k ) |
|
|
|
|
|
|
|
|
|
|
2 |
1У-г 1 |
t k n |
|
|
|
|
||
|
|
|
* / ; + 1 |
|
|
|
|
||||
|
|
|
|
|
|
|
|
|
|
||
|
|i — |
|
|
|
_ | - J L . - 1 - |
P ' |
|
|
|
|
|
|
|
|
|
Ч - Г / - |
|
|
|
||||
|
1 1 |
, 2 |
|
|
.9 |
|
|
|
|
|
|
|
|
|
'■k фI |
|
|
|
|
|
|||
|
|
' |
S |
3-1 |
|
|
|
|
|
|
|
|
если |
четыре |
коэффии.лента p Is Я Д С Н г * ! |
|
•го .>не- |
||||||
на, можно определить |
точки |
вспль |
зветк |
кривой |
|
|
|||||
этого интервала. Длина |
хорды |
.между той; |
дМИ |
/Г |
h . |
,:.ил*ж- |
|||||
ii< . к |
|||||||||||
на оьг; |
р а з д е л е н а |
н а с о с п з с '1 С ‘ ч у ю г ц е е ч и с л о |
чял |
ей |
ЛП |
;,0- |
|||||
следсьлельные расстояния должна |
о:»пд |
подставл; |
т |
\/1*•>. |
|||||||
сю t в уравнение (4.48). Это огчыпечнт нам иг.ожщ : .4* |
|
||||||||||
л„рно расположенных и |
|
простцгн.тгвгточек, евясапш |
МСЖ' |
||||||||
сойок гак, чго получается кривая еилайн-апироксиу, . |
.п Э’и |
||||||||||
процесс |
повторяется для |
|
каждого сегмента |
кусочно определен- |
1.м о сплайна, причем используются к>.. к углевые коэффициенты, гак н длины хорд, связывающих внутренние точки, а также ко ординаты точек с целью нахождения нового множества коэф фициентов для каждого участка сплайна.
Проиллюстрируем этот метод на примере кубического щщай на, при з'!ом будем использовать четыре точки, указанные не рис. 4,24, координаты которых имеют вид
Г 11 |
Г1 |
о t |
|
! 4 |
4 |
L3 |
1 |
2 3 8
Длины хорд равны t2 = 2,0; /З=3,0 и /4 = 2,236. Это все, что тре буется для построения матрицы [М] определенной по форму ле (4.50).
~ |
1,0 |
0,5 |
0 |
0 |
“ |
|
3,0 |
10,0 |
2,0 |
0 |
|
|
0 |
2,236 |
10,472 |
3,0 |
|
_ |
0 |
0 |
2,0 |
4,0 - |
|
к ней, равна |
|
|
||
|
1 75 |
_-) 0.39.5 |
0,0139 |
- 0,0104 |
|
|
1 —• |
||||
М\ |
,5749 |
|
—0,0279 |
0,0209 |
|
,0934 |
— 0,0311 |
0,1134 |
-0,0885 |
||
|
|||||
|
,0467 |
0,0155 |
— 0,0592 |
0,2944 |
:V\u должны также определить матрицу правой части [В]. Не обходимая информация для нахождения элементов [В] состонт п.ч длин хорд и координат точек. Так как каждая точка име ет две координаты, то вектор [В] имеет два столбца, первый для X, второй —для У
2-2 |
■1 — 1) |
|
2-2 |
(3— 1) |
|
|
|
||
3 |
[22;'4— 1)+ 32(1 |
DJ |
3 |
22(3— 3) + З2 (3— 1) |
2-3 |
|
|
2-3 |
|
__ 3 |
; j32(3—4)+2,2362(4— 1)] |
3 |
[32(1—3)+2,2362(3—3)1 |
|
3-2,2363 |
|
3-2,236 |
||
6 ( 3 - 4 ) |
|
2,236 |
(1 — 3, |
|
2,23т |
|
|
|
о
9
-8,050 -5,367
■множая ГВ] на (А’]" 1, получаем
|
-0,3097 |
1,2026 |
! Р\ = |
0,6187 |
0,6750 |
0,3723 |
—0,6160 |
|
|
-0,8552 |
— 1,0328 j |
Теперь мы имеем все, что необходимо для вычисления коэффи циентов сплайна для каждого звена в нашем примере. Для по-
23 9
лучения уравнения первого из них надо подставить соответст вующие значения t, Р и Р' в уравнение (4.52). Получим
для координаты X
|
|
|
|
Pi = |
1; |
|
|
|
|
|
|
р2 = — 0,3097. |
|
||
о |
3 ( 1 - 1 ) |
|
2( — 0,3097) |
0,6187 |
„ О п г .П ф |
||
Рз |
' |
22 |
|
2 |
|
2 |
’ |
В |
= |
-Ш п Д |
+ |
1 = 0 ’J097)_ + |
0,6187 = 0 (,773 |
||
Р4 |
|
2а |
‘ |
22 |
' |
22 |
|
для координаты Y |
|
|
|
|
|
||
|
|
|
|
Pi = |
1; |
|
|
|
|
|
|
р2 = 1,2026; |
|
|
|
R |
= |
3 ( 3 — 1) |
__ |
2(1,2020) |
_ 0.6750 = |
— 0,0401; |
|
Рз |
|
2* |
|
2 |
|
2 |
|
|
R |
_ 2(1 — 3) |
_ L 1,2026 |
0,6750 = — 0,0306, |
|||
или |
|
23 |
|
22 |
|
22 |
|
|
|
|
|
|
|
|
|
|
|
|
|
1 |
|
|
|
|
|
т - |
— 0,3097 |
|
1,2026 |
||
|
|
|
0,0004 |
- |
0,0401 |
||
|
|
|
|
0,0773 |
- |
0,0306 J |
Аналогичным образом мы можем определить коэффициенты сплайна для второго и третьего звена. Они равны
1 |
3 |
4 |
3 |
|
0,6187 |
0,6750 |
0,3723 |
— 0,6160 |
|
0,4634 |
— 0,2447 |
— 0,5506 |
—0,1872 |
|
— 0,1121 |
0,0066 _ |
0,0823 |
0,0280 |
_ |
Наконец, коэффициенты звеньев сплайна можно использо вать для определения координат промежуточных точек на сплай не между каждой парой наблюдений. Если мы вычислим коор динаты большого числа таких точек и свяжем их затем прямы ми линиями, визуально мы получим непрерывную гладкую кри вую. Это как раз тот метод, на основе которого графическая система ЭВМ вычисляет и вычерчивает гладкие искривленные линии. Пля иллюстрации мы ограничимся рассмотрениемтр^х промежуточных точек каждого гплэпня
Л ля нахождения промежуточных точек мы сначала разде лим каждую хорду на четыре части; расстояния в tkj4, 2/*/4 и
240
Рис. 4.25. Гладкая сплайн-фуик- ция, состоящая из 30 сегментов между каждой точкой рис. 4.24.
Три промежуточных точки каждого гплinia, вычисленные как указано з тексте, изображены маленькими
точками
3^/4 определяют значения t, которые должны быть подставле ны в уравнение сплайна. Для первого сплайна эти расстояния равны 0,5; 1,0 и 1,5.
Вставляя их в уравнение (4.48), сначала для X, |
а потом для |
|
Y, получаем |
|
|
Рьх = |
1 — 0,3097 (0,5) + 0,0004 (0,52/ + 0,0773 (0,53) |
= 0,8549; . |
P5i = |
1+ 1,202 (0,5) — 0,0401 )0,52) — 0,0306 (0,53)'=_1,5874. |
Ат,логично мы можем вычислить координаты первого сплайна па расстоянии / = 1,0 и /= 1,5. Они равны
для о,о [0,7679 2,1319], для 0,5 [0,7969 2,6104].
Этот процесс повторяется для второго и третьего сплайнов, а е результате получаем следующее множество координат
|
|
|
[1,6774 |
3,3714] |
для |
сплайна |
2 |
[2,5924 |
3,4841] |
|
|
|
[3,1312 |
3,3548] |
|
|
|
[4,050 |
2,6020] |
для |
сплайна |
3 |
[3,8431 |
2,1163] |
|
|
|
[3,3442 |
1,5722] |
Эти результаты представлены на рис. 4.25. Также показан глад кий сплайн, порожденный вычислением 30 промежуточных то чек между каждой парой узлов. Хотя процедура вычисления коэффициентов сплайна запутанная, овладение его п о з в о л я й » относительно просто получать столько точек на кривой, сколь ко потребуется.