книги / Математические методы моделирования в геологии
..pdfп х п; [/| - матрица порядка их п, состоящая только из единиц; т - число строк исходной матрицы. Полученная матрица [L\ имеет по
рядок п х п: [Л]7^ ? ] - |
= [/,]. |
Путем умножения матрицы [L] на величину — -— получается ( т - 1)
ковариационная матрица [С], диагональные элементы которой яв ляются дисперсиями, а внедиагональные - ковариациями:
С = -
т - 1
L i V l
Если вычислить ковариационную матрицу для стандартизиро ванных переменных (то есть) умножить ее на величину l/SjSJ), по лучится корреляционная матрица [/?], в которой по диагонали рас
положены единицы, а неадиагональные элементы представляют собой парные коэффициенты корреляции между соответствующими признаками.
* 1 * 2 |
Г |
х \ х т |
|
1 |
|
м=
|
1 |
LГЧяЧГ х>«х2 |
1 J |
Для изучения взаимосвязей нескольких случайных величин вычисляют соответствующие парные и частные корреляционные коэффициенты, а для оценки зависимости одной случайной величи ны от других - множественный коэффициент корреляции, выра жающий меру линейности такой зависимости (или выборочное кор реляционное отношение, выражающее меру нелинейности связи).
Частный коэффициент корреляции оценивает меру линейной зависимости между двумя случайными величинами х, и х} при усло вии, что влияние всех остальных случайных величин устранено. В отличие от частного коэффициента, парный коэффициент корре ляции двух случайных величин служит мерой их линейной зависи мости. Оценка частного коэффициента обозначается как rijq, где q - набор индексов 1, 2, 3,..., т без / иj. В данном случае этот коэффи циент корреляции оценивает линейную связь двух признаков, ука занных слева от точки в индексе при г, а влияние всех остальных признаков, номера которых расположены справа от точки, устране но. Расчет частного коэффициента производится по формуле
Например, для корреляций двух величин при исключении третьей
В матричной записи rijq - |
где Су - алгебраическое |
дополнение к соответствующему элементу Лу в определителе корре ляционной матрицы.
Множественный коэффициент корреляции позволяет оценить меру линейной зависимости одной случайной величины xt от сово купности других случайных JCWI_I величин. Выборочный множест
венный |
коэффициент корреляции оценивается |
|
|
в е |
к - |
набор т-1 индексов; С" - диагональный элемент матрицы |
|
[/?] |
1 |
I |
W |
, обратной корреляционной матрице [/?]), или R = 11 |
-----г-Ч- |
V Риг I
определитель ковариационной матрицы; Рц -первый член ковариа
ционной матрицы; |Z/| - определитель ковариационной матрицы без
первого столбца и первой строки.
Методы многомерного корреляционного анализа используются в геологии для изучения зависимостей между случайными величи нами, чаще всего между признаками, зависящими от совокупного влияния факторов неясной физической природы. Если выборки зна чений изучаемых признаков согласуются с m-мерным нормальным распределением, достоверности парных, частных и множественных коэффициентов корреляции могут быть оценены путем проверки различных статистических гипотез с определением вероятных дове рительных областей. Когда о функциональных видах распределений случайных величин ничего не известно (или они характеризуются различными функциями статистических распределений), могут ис пользоваться ранговые коэффициенты парной, частной и множест венной корреляций, а также коэффициенты конкордации (согласо ванности) ранжированных рядов, не имеющие своего параметриче ского аналога.
Методы проверки статистической значимости ранговых коэф фициентов частной, множественной корреляции и конкордации по ка что не разработаны. Помимо оценок частных и множественных коэффициентов корреляции, корреляционный анализ включает в себя различные статистические методы выделения и группирова ния ассоциаций химических элементов.
3.3. Статистические методы выделения ассоциаций химических элементов
Методы выделения парагенетических химических элементов сводятся к разделению исходных совокупностей на несколько клас сов по степени сходства составляющих их объектов. При этом предполагается, что степень сходства объектов, объединяемых в один класс, должна быть существенно больше степени сходства между объектами из разных классов.
Основой классификации исходных совокупностей химических элементов служат корреляционные матрицы их содержаний в изу
чаемых объемах (минералах, породах или рудах), а мерой сходст ва - оценки парных коэффициентов их корреляции. Выделение парагенетических ассоциаций элементов сводится к выявлению внут ри корреляционной матрицы [R] однородных блоков (подматриц типа [/?,], соответствующих таким совокупностям элементов, со держания которых связаны линейной положительной зависимо стью.
Строгое математическое решение задачи классификации ис ходных совокупностей по корреляционным характеристикам прак тически невозможно, поскольку коэффициенты парной корреляции элементов имеют стохастическую природу, в связи с чем во многих конкретных случаях возникают возможности многовариантного группирования объектов.
В геологической практике предложены различные методы ис следования структур корреляционных матриц, среди которых Б. И. Смирнов выделяет шесть групп:
1) анализ корреляционной матрицы с позиций теории графов;
2 ) иерархическое группирование (кластер-анализ) с помощью денд-рограмм;
3)методы, опирающиеся на понятия компактности;
4)метод корреляционных профилей; 5) коническая корреляция; 6 ) методы, использующие идеи и приемы факторного анализа. Ниже рассматриваются возможности использования методов
первой и второй групп, а в разделе «метод главных компонент» - методы шестой группы.
Анализ корреляционной матрицы с позиций теории графов от личается наиболее простыми приемами классификации. Графом G(A) называется геометрическая схема, включающая две и более точки конечного множества А = {аи Да, ..., а\ ..., ар}, соединен ные линиями, если между ними установлены линейные корреляци онные связи. Каждая из точек (кружков) обозначает один из хими ческих элементов. Элементы множества А называют вершинами, а линии, их соединяющие, - ребрами. Вершины, соединяемые реб рами, называются смежными, а несоединяемые - изолированными. Если все вершины графа смежны, причем, реализованы все воз можные для них соединения, граф называется полным (рис. 11 ).
Рис. 12. Графы при изменяющемся пороговом значении: а - г = 0,2; б - г = 0,3; в - г - 0,4; г - г = 0,5
Две вершины ак и а/ (к Ф1) называются связными, если суще ствует цепь, концы которой находятся в вершинах ак и а/. Граф на зывается связным, если любая пара его вершин связана. На рис. 11,6, в показано два частичных подграфа (компоненты связности), обла дающих свойством связности G(Ar) = {аь а2, 0 3 ) и G(A") = {а4,а5}. Граф называется взвешенным, если каждому его ребру поставлено в связь некоторое число.
При решении многих геологических задач результаты вычис ления корреляционных матриц часто изображаются в виде графов без дополнительной математической обработки данных. С этой це лью весь диапазон значений коэффициентов парной корреляции условно разбивается на несколько интервалов (например, высокие - более 0,75, средние - 0,5-0,75, низкие - 0,3-0,5 и незначимые - ме нее 0 ,3 ), а длины ребер между смежными вершинами выбираются обратно пропорционально значениям соответствующих парных ко эффициентов. Для высоких значений они показываются толстыми линиями, для средних - тонкими сплошными, а для низких - пре рывистыми. Несмотря на возможность субъективных решений, ил люстрация многомерных линейных связей элементов с помощью подобных графов весьма наглядна, а число возможных вариантов их группирования заметно снижается с повышением пороговых значений коэффициентов парной корреляции (см. рис. 11, а-г).
Для получения более строгих решений описание графов вы полняется на основе матриц смежности, по алгоритмам нахождения максимально полных подграфов (максимально обособленных групп), методами «ветвящихся связей» или «максимального корре ляционного пути», описанными в [2 1 ].
3.4. Кластер-анализ (дендрограммы и дендрографы)
Методы иерархической группировки (численной таксономии) исходных множеств получили название кластер-анализа, то есть анализа групп. Первоначально они применялись в биологии и палео нтологии, а в настоящее время широко используются в различных отраслях геолого-минералогических наук, в частности, при класси фикации парагенетических ассоциаций элементов земной коры.
Задача кластер-анализа сводится к разбиению множества эле ментов корреляционной матрицы признаков [/?] на группы таким образом, чтобы в них объединялись объекты с наивысшими значе ниями характеристик сходства, а разобщенные группы оставались бы при этом максимально изолированными по данному признаку. В качестве меры сходства могут использоваться непосредственно парные коэффициенты корреляции, m-мерное эквлидово расстояние или другие дистанционные коэффициенты.
Первый шаг анализа групп методом попарного объединения элементов матрицы состоит в выявлении наивысших коэффициен тов корреляции между отдельными парами, которые объединяются и принимаются за центры групп. Число таких центров может изме няться от одного до трех (редко более).
Далее матрица вычисляется снова, причем сгруппированные элементы считаются за один, а коэффициенты их корреляции с дру гими группами вычисляются заново с помощью различных методов осреднения. По результатам вычисления составляется новая матри ца меньшей размерности, в которой изменяются лишь значения ко эффициентов, связанные с членами объединенных групп. Сокра щенная и пересчитанная матрица вновь подвергается сокращению путем выявления и объединения пар с максимальными значениями признаков сходства и последующим осреднением новых групповых коэффициентов. Операция последовательного сокращения и пере счета коэффициентов матрицы повторяется до тех пор, пока значе ния групповых коэффициентов сходства не достигнут порогового значения или размерность матрицы не станет минимальной. В пер вом случае процедура последовательного группирования прекраща ется на том ее шаге, которому соответствует принятое пороговое значение признака.
Для целей корреляционного анализа парагенетических ассо циаций элементов рекомендуется использовать дистанционный
коэффициент dr, который может быть рассчитан как арккосинус коэффициента парной корреляции и обладает свойствами метрики. С этой целью исходная матрица [/?] трансформируется с помощью тригонометрических таблиц в матрицу дистанционных коэффици ентов [DT], которая и подвергается процедуре последовательного группирования.
Результаты кластер-анализа изображаются в виде древовидного графа - дендрограммы, в которой по оси абсцисс располагаются символические обозначения объектов исследования (векторов мат рицы), а по оси ординат - минимальные значения дистанционных коэффициентов, соответствующих каждому шагу классифицирую щей процедуры. Таким образом, ось ординат используется для мас штабного представления иерархических уровней группирования.
Наглядность и содержательная ценность древовидных графов существенно повышаются, если в них отражена информация не только о тесноте внутригрупповых связей, но и о межгрупповых расстояниях.
С этой целью по матрицам [Dr]» [DV], [D ^] и другим последо вательно вычисляются значения А, А" и т. д., которые затем выно сятся на ось абсцисс. Такой дендровидный граф, учитывающий не только внутригрупповые расстояния, но и средние между группами, называется дендрографом.
Пример. Рудные тела редкометалльного месторождения при урочены к зонам натровых метасоматитов (альбититов). В ре зультате детального изучения минерального состава метасома титов было установлено, что на месторождении развиты альбититы двух типов. Причем редкометалльное оруденение характерно лишь для одного из них. По химическому составу руд ные и безрудные альбититы весьма близки, поэтому различить их по содержанию отдельных химических элементов не удается. Од нако некоторые различия в минеральном составе проявляются е особенностях корреляционных связей между элементами. На глядно эти различия отражаются на графах (рис. 12, а, б) и денд рограммах (рис. 12, в, г). В качестве меры близости элементов при построении дендрограмм в данном случае используются непосред ственно парные коэффициенты корреляции, рассчитанные по 50 пробам, отобранным из рудных и безрудных альбититов, тип которых однозначно определен минералогическими исследованиями. Предельное значение коэффициента корреляции для доверительной
вероятности 0,95 при объеме выборок в 50 проб равен 0,28. По этому с целью классификации целесообразно сравнивать лишь те группы, для которых коэффициенты корреляции, отражающие тесноту внутригрупповой связи, превышают эту величину.
Рис. 12. Характеристики корреляционных связей между содержаниями химических элементов в альбититах: а - граф по безрудным альбититам; б - граф по рудным альбититам; в -дендограмма по безрудным альбититам; г - дендограмма по рудным альбититам
Для обеих дендрограмм характерна группа, объединяющая фосфор и редкоземельные элементы, что, по-виднмому, обусловле но присутствием в альбититах обоих типов апатита, в составе которого отмечены повышенные концентрации этих элементов.
Основной отличительной особенностью безрудных альбититов является тесная ассоциация сидерофильных элементов (Ni- Cr-Ti-Co), которая в рудных альбититах распадается.
Для рудных альбититов характерна ассоциация халькофильных элементов (Pb-Zn), в то время как в безрудных альбититах корреляционная связь между этими элементами отрицательная. Таким образом, кластер-анализ позволяет оперативно и доста точно надежно определить тип альбититов по результатам спектральных анализов, не прибегая к детальному изучению шли фов.
3.5. Множественная регрессия и ее использование
для предсказания свойств геологических объектов
В отличие от двумерной регрессии в методах множественной регрессии зависимая переменная Крассматривается как функция не одной, а нескольких независимых переменных Хи Хг, Хт.
Уравнение множественной регрессии зависимой переменной Y относительно т независимых переменных X\t2...записывается как линеаризированная функция вида
т
У = Ро+РЛ +Р2*2 + - + Рш*ш=Ро + ЕРЛ .
1= 1
где Po>Pi>P2’•••>?//! - коэффициенты регрессионной модели.
Это уравнение наилучшим образом (то есть с использованием наименьших квадратов) описывает тенденцию расположения точек
вm-мерном пространстве и позволяет оценить совместное влияние всех изучаемых параметров на зависимую переменную.
Множественная регрессия строится на основе учета всех воз можных взаимодействий между переменными и их сочетаниями. В ее задачи входит оценка общего вклада всех переменных (Л2)
визменчивость Y, а также определение относительного влияния
каждой из них с помощью коэффициентов р ,. Таким образом, мно жественный регрессионный анализ сводится к вычислению значе ний коэффициентов регрессионной модели Р0 ,Р1эр2 ,-..,Рт по со
вокупности п наблюдений над переменными Х\, Х2, Хти Y, оцен ке влияния каждой переменной и их общего вклада в оценку зави симой переменной К В матричной форме приведенное выше урав нение записывается как
[ Х ¥ ] = [ 1 Х Ш
где [I Y] - вектор-столбец, состоящий из сумм квадратов и смешан ных произведений переменной Y с переменными Х\, Х2, ..., Хт\ [IX]
-матрица сумм квадратов и смешанных произведений Х и Х2,..., Хт;
[Р]- вектор-столбец неизвестных коэффициентов регрессии. Коэф фициенты регрессии р, рассчитываются как частные коэффициен ты регрессии, характеризующие изменения данной независимой переменной при условии, что влияние всех остальных переменных устранено. Приведенное уравнение может быть решено путем об
ращения матрицы [IX], однако в процессе обращения матрицы воз никают вычислительные трудности, связанные с резким возраста нием числа цифр в суммах квадратов, что приводит к потерям зна чащих цифр при их округлении. Поэтому для решения уравнений обычно используются корреляционные матрицы зависимой и неза
висимой переменных [/?] со стандартизованными частными коэф-
$
фициентами регрессии типа Вк = Ьк— , где *S* - оценка стандартно- s y
го отклонения переменной Хт; Sy- оценка стандартного отклонения переменной Y. В матричной форме уравнение записывается как [Л] [fi] = [r,v], где {гху\ - вектор коэффициентов корреляции между пе
ременными Y и X \t2...т, а его решение с обращением матрицы [л]-1 - как
Рассчитанные коэффициенты В переводятся в Р по формуле bk - ЯаСЗД), а постоянный член Ьо рассчитывается по формуле