Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математические методы моделирования в геологии

..pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
8.18 Mб
Скачать

п х п; [/| - матрица порядка их п, состоящая только из единиц; т - число строк исходной матрицы. Полученная матрица [L\ имеет по­

рядок п х п: [Л]7^ ? ] -

= [/,].

Путем умножения матрицы [L] на величину — -— получается ( т - 1)

ковариационная матрица [С], диагональные элементы которой яв­ ляются дисперсиями, а внедиагональные - ковариациями:

С = -

т - 1

L i V l

Если вычислить ковариационную матрицу для стандартизиро­ ванных переменных (то есть) умножить ее на величину l/SjSJ), по­ лучится корреляционная матрица [/?], в которой по диагонали рас­

положены единицы, а неадиагональные элементы представляют собой парные коэффициенты корреляции между соответствующими признаками.

* 1 * 2

Г

х \ х т

1

 

м=

 

1

LГЧяЧГ х>«х2

1 J

Для изучения взаимосвязей нескольких случайных величин вычисляют соответствующие парные и частные корреляционные коэффициенты, а для оценки зависимости одной случайной величи­ ны от других - множественный коэффициент корреляции, выра­ жающий меру линейности такой зависимости (или выборочное кор­ реляционное отношение, выражающее меру нелинейности связи).

Частный коэффициент корреляции оценивает меру линейной зависимости между двумя случайными величинами х, и х} при усло­ вии, что влияние всех остальных случайных величин устранено. В отличие от частного коэффициента, парный коэффициент корре­ ляции двух случайных величин служит мерой их линейной зависи­ мости. Оценка частного коэффициента обозначается как rijq, где q - набор индексов 1, 2, 3,..., т без / иj. В данном случае этот коэффи­ циент корреляции оценивает линейную связь двух признаков, ука­ занных слева от точки в индексе при г, а влияние всех остальных признаков, номера которых расположены справа от точки, устране­ но. Расчет частного коэффициента производится по формуле

Например, для корреляций двух величин при исключении третьей

В матричной записи rijq -

где Су - алгебраическое

дополнение к соответствующему элементу Лу в определителе корре­ ляционной матрицы.

Множественный коэффициент корреляции позволяет оценить меру линейной зависимости одной случайной величины xt от сово­ купности других случайных JCWI_I величин. Выборочный множест­

венный

коэффициент корреляции оценивается

 

в е

к -

набор т-1 индексов; С" - диагональный элемент матрицы

[/?]

1

I

W

, обратной корреляционной матрице [/?]), или R = 11

-----г-Ч-

V Риг I

определитель ковариационной матрицы; Рц -первый член ковариа­

ционной матрицы; |Z/| - определитель ковариационной матрицы без

первого столбца и первой строки.

Методы многомерного корреляционного анализа используются в геологии для изучения зависимостей между случайными величи­ нами, чаще всего между признаками, зависящими от совокупного влияния факторов неясной физической природы. Если выборки зна­ чений изучаемых признаков согласуются с m-мерным нормальным распределением, достоверности парных, частных и множественных коэффициентов корреляции могут быть оценены путем проверки различных статистических гипотез с определением вероятных дове­ рительных областей. Когда о функциональных видах распределений случайных величин ничего не известно (или они характеризуются различными функциями статистических распределений), могут ис­ пользоваться ранговые коэффициенты парной, частной и множест­ венной корреляций, а также коэффициенты конкордации (согласо­ ванности) ранжированных рядов, не имеющие своего параметриче­ ского аналога.

Методы проверки статистической значимости ранговых коэф­ фициентов частной, множественной корреляции и конкордации по­ ка что не разработаны. Помимо оценок частных и множественных коэффициентов корреляции, корреляционный анализ включает в себя различные статистические методы выделения и группирова­ ния ассоциаций химических элементов.

3.3. Статистические методы выделения ассоциаций химических элементов

Методы выделения парагенетических химических элементов сводятся к разделению исходных совокупностей на несколько клас­ сов по степени сходства составляющих их объектов. При этом предполагается, что степень сходства объектов, объединяемых в один класс, должна быть существенно больше степени сходства между объектами из разных классов.

Основой классификации исходных совокупностей химических элементов служат корреляционные матрицы их содержаний в изу­

чаемых объемах (минералах, породах или рудах), а мерой сходст­ ва - оценки парных коэффициентов их корреляции. Выделение парагенетических ассоциаций элементов сводится к выявлению внут­ ри корреляционной матрицы [R] однородных блоков (подматриц типа [/?,], соответствующих таким совокупностям элементов, со­ держания которых связаны линейной положительной зависимо­ стью.

Строгое математическое решение задачи классификации ис­ ходных совокупностей по корреляционным характеристикам прак­ тически невозможно, поскольку коэффициенты парной корреляции элементов имеют стохастическую природу, в связи с чем во многих конкретных случаях возникают возможности многовариантного группирования объектов.

В геологической практике предложены различные методы ис­ следования структур корреляционных матриц, среди которых Б. И. Смирнов выделяет шесть групп:

1) анализ корреляционной матрицы с позиций теории графов;

2 ) иерархическое группирование (кластер-анализ) с помощью денд-рограмм;

3)методы, опирающиеся на понятия компактности;

4)метод корреляционных профилей; 5) коническая корреляция; 6 ) методы, использующие идеи и приемы факторного анализа. Ниже рассматриваются возможности использования методов

первой и второй групп, а в разделе «метод главных компонент» - методы шестой группы.

Анализ корреляционной матрицы с позиций теории графов от­ личается наиболее простыми приемами классификации. Графом G(A) называется геометрическая схема, включающая две и более точки конечного множества А = {аи Да, ..., а\ ..., ар}, соединен­ ные линиями, если между ними установлены линейные корреляци­ онные связи. Каждая из точек (кружков) обозначает один из хими­ ческих элементов. Элементы множества А называют вершинами, а линии, их соединяющие, - ребрами. Вершины, соединяемые реб­ рами, называются смежными, а несоединяемые - изолированными. Если все вершины графа смежны, причем, реализованы все воз­ можные для них соединения, граф называется полным (рис. 11 ).

Рис. 12. Графы при изменяющемся пороговом значении: а - г = 0,2; б - г = 0,3; в - г - 0,4; г - г = 0,5

Две вершины ак и а/ (к Ф1) называются связными, если суще­ ствует цепь, концы которой находятся в вершинах ак и а/. Граф на­ зывается связным, если любая пара его вершин связана. На рис. 11,6, в показано два частичных подграфа (компоненты связности), обла­ дающих свойством связности G(Ar) = {аь а2, 0 3 ) и G(A") = {а4,а5}. Граф называется взвешенным, если каждому его ребру поставлено в связь некоторое число.

При решении многих геологических задач результаты вычис­ ления корреляционных матриц часто изображаются в виде графов без дополнительной математической обработки данных. С этой це­ лью весь диапазон значений коэффициентов парной корреляции условно разбивается на несколько интервалов (например, высокие - более 0,75, средние - 0,5-0,75, низкие - 0,3-0,5 и незначимые - ме­ нее 0 ,3 ), а длины ребер между смежными вершинами выбираются обратно пропорционально значениям соответствующих парных ко­ эффициентов. Для высоких значений они показываются толстыми линиями, для средних - тонкими сплошными, а для низких - пре­ рывистыми. Несмотря на возможность субъективных решений, ил­ люстрация многомерных линейных связей элементов с помощью подобных графов весьма наглядна, а число возможных вариантов их группирования заметно снижается с повышением пороговых значений коэффициентов парной корреляции (см. рис. 11, а-г).

Для получения более строгих решений описание графов вы­ полняется на основе матриц смежности, по алгоритмам нахождения максимально полных подграфов (максимально обособленных групп), методами «ветвящихся связей» или «максимального корре­ ляционного пути», описанными в [2 1 ].

3.4. Кластер-анализ (дендрограммы и дендрографы)

Методы иерархической группировки (численной таксономии) исходных множеств получили название кластер-анализа, то есть анализа групп. Первоначально они применялись в биологии и палео­ нтологии, а в настоящее время широко используются в различных отраслях геолого-минералогических наук, в частности, при класси­ фикации парагенетических ассоциаций элементов земной коры.

Задача кластер-анализа сводится к разбиению множества эле­ ментов корреляционной матрицы признаков [/?] на группы таким образом, чтобы в них объединялись объекты с наивысшими значе­ ниями характеристик сходства, а разобщенные группы оставались бы при этом максимально изолированными по данному признаку. В качестве меры сходства могут использоваться непосредственно парные коэффициенты корреляции, m-мерное эквлидово расстояние или другие дистанционные коэффициенты.

Первый шаг анализа групп методом попарного объединения элементов матрицы состоит в выявлении наивысших коэффициен­ тов корреляции между отдельными парами, которые объединяются и принимаются за центры групп. Число таких центров может изме­ няться от одного до трех (редко более).

Далее матрица вычисляется снова, причем сгруппированные элементы считаются за один, а коэффициенты их корреляции с дру­ гими группами вычисляются заново с помощью различных методов осреднения. По результатам вычисления составляется новая матри­ ца меньшей размерности, в которой изменяются лишь значения ко­ эффициентов, связанные с членами объединенных групп. Сокра­ щенная и пересчитанная матрица вновь подвергается сокращению путем выявления и объединения пар с максимальными значениями признаков сходства и последующим осреднением новых групповых коэффициентов. Операция последовательного сокращения и пере­ счета коэффициентов матрицы повторяется до тех пор, пока значе­ ния групповых коэффициентов сходства не достигнут порогового значения или размерность матрицы не станет минимальной. В пер­ вом случае процедура последовательного группирования прекраща­ ется на том ее шаге, которому соответствует принятое пороговое значение признака.

Для целей корреляционного анализа парагенетических ассо­ циаций элементов рекомендуется использовать дистанционный

коэффициент dr, который может быть рассчитан как арккосинус коэффициента парной корреляции и обладает свойствами метрики. С этой целью исходная матрица [/?] трансформируется с помощью тригонометрических таблиц в матрицу дистанционных коэффици­ ентов [DT], которая и подвергается процедуре последовательного группирования.

Результаты кластер-анализа изображаются в виде древовидного графа - дендрограммы, в которой по оси абсцисс располагаются символические обозначения объектов исследования (векторов мат­ рицы), а по оси ординат - минимальные значения дистанционных коэффициентов, соответствующих каждому шагу классифицирую­ щей процедуры. Таким образом, ось ординат используется для мас­ штабного представления иерархических уровней группирования.

Наглядность и содержательная ценность древовидных графов существенно повышаются, если в них отражена информация не только о тесноте внутригрупповых связей, но и о межгрупповых расстояниях.

С этой целью по матрицам [Dr]» [DV], [D ^] и другим последо­ вательно вычисляются значения А, А" и т. д., которые затем выно­ сятся на ось абсцисс. Такой дендровидный граф, учитывающий не только внутригрупповые расстояния, но и средние между группами, называется дендрографом.

Пример. Рудные тела редкометалльного месторождения при­ урочены к зонам натровых метасоматитов (альбититов). В ре­ зультате детального изучения минерального состава метасома­ титов было установлено, что на месторождении развиты альбититы двух типов. Причем редкометалльное оруденение характерно лишь для одного из них. По химическому составу руд­ ные и безрудные альбититы весьма близки, поэтому различить их по содержанию отдельных химических элементов не удается. Од­ нако некоторые различия в минеральном составе проявляются е особенностях корреляционных связей между элементами. На­ глядно эти различия отражаются на графах (рис. 12, а, б) и денд­ рограммах (рис. 12, в, г). В качестве меры близости элементов при построении дендрограмм в данном случае используются непосред­ ственно парные коэффициенты корреляции, рассчитанные по 50 пробам, отобранным из рудных и безрудных альбититов, тип которых однозначно определен минералогическими исследованиями. Предельное значение коэффициента корреляции для доверительной

вероятности 0,95 при объеме выборок в 50 проб равен 0,28. По­ этому с целью классификации целесообразно сравнивать лишь те группы, для которых коэффициенты корреляции, отражающие тесноту внутригрупповой связи, превышают эту величину.

Рис. 12. Характеристики корреляционных связей между содержаниями химических элементов в альбититах: а - граф по безрудным альбититам; б - граф по рудным альбититам; в -дендограмма по безрудным альбититам; г - дендограмма по рудным альбититам

Для обеих дендрограмм характерна группа, объединяющая фосфор и редкоземельные элементы, что, по-виднмому, обусловле­ но присутствием в альбититах обоих типов апатита, в составе которого отмечены повышенные концентрации этих элементов.

Основной отличительной особенностью безрудных альбититов является тесная ассоциация сидерофильных элементов (Ni- Cr-Ti-Co), которая в рудных альбититах распадается.

Для рудных альбититов характерна ассоциация халькофильных элементов (Pb-Zn), в то время как в безрудных альбититах корреляционная связь между этими элементами отрицательная. Таким образом, кластер-анализ позволяет оперативно и доста­ точно надежно определить тип альбититов по результатам спектральных анализов, не прибегая к детальному изучению шли­ фов.

3.5. Множественная регрессия и ее использование

для предсказания свойств геологических объектов

В отличие от двумерной регрессии в методах множественной регрессии зависимая переменная Крассматривается как функция не одной, а нескольких независимых переменных Хи Хг, Хт.

Уравнение множественной регрессии зависимой переменной Y относительно т независимых переменных X\t2...записывается как линеаризированная функция вида

т

У = Ро+РЛ +Р2*2 + - + Рш*ш=Ро + ЕРЛ .

1= 1

где Po>Pi>P2’•••>?//! - коэффициенты регрессионной модели.

Это уравнение наилучшим образом (то есть с использованием наименьших квадратов) описывает тенденцию расположения точек

вm-мерном пространстве и позволяет оценить совместное влияние всех изучаемых параметров на зависимую переменную.

Множественная регрессия строится на основе учета всех воз­ можных взаимодействий между переменными и их сочетаниями. В ее задачи входит оценка общего вклада всех переменных (Л2)

визменчивость Y, а также определение относительного влияния

каждой из них с помощью коэффициентов р ,. Таким образом, мно­ жественный регрессионный анализ сводится к вычислению значе­ ний коэффициентов регрессионной модели Р0 1эр2 ,-..,Рт по со­

вокупности п наблюдений над переменными Х\, Х2, Хти Y, оцен­ ке влияния каждой переменной и их общего вклада в оценку зави­ симой переменной К В матричной форме приведенное выше урав­ нение записывается как

[ Х ¥ ] = [ 1 Х Ш

где [I Y] - вектор-столбец, состоящий из сумм квадратов и смешан­ ных произведений переменной Y с переменными Х\, Х2, ..., Хт\ [IX]

-матрица сумм квадратов и смешанных произведений Х и Х2,..., Хт;

[Р]- вектор-столбец неизвестных коэффициентов регрессии. Коэф­ фициенты регрессии р, рассчитываются как частные коэффициен­ ты регрессии, характеризующие изменения данной независимой переменной при условии, что влияние всех остальных переменных устранено. Приведенное уравнение может быть решено путем об­

ращения матрицы [IX], однако в процессе обращения матрицы воз­ никают вычислительные трудности, связанные с резким возраста­ нием числа цифр в суммах квадратов, что приводит к потерям зна­ чащих цифр при их округлении. Поэтому для решения уравнений обычно используются корреляционные матрицы зависимой и неза­

висимой переменных [/?] со стандартизованными частными коэф-

$

фициентами регрессии типа Вк = Ьк— , где *S* - оценка стандартно- s y

го отклонения переменной Хт; Sy- оценка стандартного отклонения переменной Y. В матричной форме уравнение записывается как [Л] [fi] = [r,v], где {гху\ - вектор коэффициентов корреляции между пе­

ременными Y и X \t2...т, а его решение с обращением матрицы [л]-1 - как

Рассчитанные коэффициенты В переводятся в Р по формуле bk - ЯаСЗД), а постоянный член Ьо рассчитывается по формуле

Соседние файлы в папке книги