Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

В приведенном примере специалистов будет интересовать мера степени тесноты связи между двумя совокупностями выбранных переменных. Для выполнения такого анализа и предназначена процедура канонического анализа. В процессе выполнения канонического анализа вычисляются канонические корреляции.

Первым важным свойством канонического анализа является возможность нахождения значимых статистических связей между двумя совокупностями отобранных переменных. В данном случае теснота связи вычисляется не между имеющимися аргументами, а между новыми переменными, которые именуются каноническими переменными3.

Для поиска связи между совокупностями переменных в системе Statistica предназначен программный модуль «Канонический корреляционный анализ». В процессе подготовки анализа формируется первое множество переменных, которое объединяет, к примеру, химические компоненты: KСl, MgСl2, NaCl. Во второе множество входят пространственные переменные X, Y, Z, m. В каждом множестве из переменных составляются по определённым принципам линейные комбинации (в виде уравнений, в которых зависимыми являются новые переменные d11 и d12). Эти новые интегральные переменные именуются каноническими переменными. Например, d11 = f1(KСl, MgСl2, NaCl), d12 = f2(X, Y, Z, m). Иными словами, для каждой новой переменной d11 и d12 подбираются в виде некоторой функции взвешенные суммы аргументов из каждого множества. В дальнейшем, используя уже известный нам коэффициент корреляции Пирсона, можно найти степень тесноты связи между двумя интегральными переменными d11 и d12, получаемыми из выражений (3.2).

3Канонический – твердо установленный, принятый за образец.

Встатистике это процесс преобразования данных, имеющих более одного возможного представления в «стандартное» каноническое представление.

51

Канонический анализ имеет одно принципиальное свойство, которое даёт исследователю возможность проведения горногеологических исследований в пространстве. Он обладает способностью выявлять и описывать основные направления межгрупповой изменчивости наборов горно-геологических и иных признаков, имеющих геопространственную привязку. Коэффициенты исходных признаков у канонических переменных дают исследователю основание для интерпретации морфологического смысла изучаемых переменных и позволяют выяснять, какие совокупности значений исходных признаков характерны для тех или иных групп выборок.

Ещё одним крайне полезным свойством канонического анализа, которое позволяет его расценивать как метод решения задач систематизации, является возможность наглядно представлять размещение центральных точек выборок в координатах канонических переменных, которые формируют новое пространство.

Третьим важным свойством канонического анализа является возможность выделения набора самых лучших информативных переменных, выявляющих различия данной совокупности выборок наиболее отчетливо.

Сформировать интегральный показатель из множества имеющихся признаков можно разными способами. На первый взгляд, самый простой – просуммировать по строкам все значения в группе. Если обратить внимание на величины цифр в исходной таблице, в которой координаты могут иметь пять значащих цифр перед запятой, а мощность – одну цифру, то становится понятно, что численное значение мощности просто «потеряется» среди координат. Для выполнения требований о нулевом среднем и единичной дисперсии требуется стандартизировать переменные (относительно среднего по дисперсии). Но даже в этом случае некоторые значения переменных будут отрицательными, а сумма по некоторым строкам станет близка к нулю, что также исказит результат. Нельзя забывать, что пере-

52

менные в составе группы могут иметь разный вес, а некоторые из них могут вообще не оказывать никакого влияния на степень тесноты связи со второй интегральной переменной. Скорее всего, простым построчным суммированием значений не будет достигнут ожидаемый результат. К тому же при вычислении коэффициента корреляции между переменными d11 и d12 необходимо будет вводить новые или убирать незначимые аргументы в группе, а также каждому из них вычислять свой вес для того, чтобы добиться максимальных связей между этими группами. В простом построчном суммировании эти моменты невозможно учесть.

Не вдаваясь в детали вычислений, коэффициенты при аргументах этих линейных уравнений определяются в процессе решения задачи на собственные значения корреляционной матрицы. Собственные значения представляют собою величину дисперсии, которую снимает корреляция между соответствующими каноническими переменными. По сути, это коэффициенты детерминации D = R2, которые вычисляются в порядке убывания значений. Извлекая корень квадратный из детерминации, мы получаем канонические корни, число которых равно числу переменных в наименьшем множестве. Корни представляют коэффициенты корреляции между каноническими переменными. Поэтому они и называются каноническими корреляциями, или каноническими корнями. Обычно в программах вычисляются несколько пар переменных d11 и d12 (формулы (3.2)), каждая пара из которых имеет свою каноническую корреляцию. Корреляция в числовом виде объясняет свою уникальную долю изменчивости между двумя совокупностями исследуемых данных.

Таким образом, у квадратной матрицы размером n × n существует n собственных значений.

В процессе выполнения анализа новые собственные значения вычисляются по этапам. Сначала подсчитываются веса aij и bij выражений (3.2) таким образом, чтобы линейная зависимость между переменными d11 и d12 была максимальной. В по-

53

следующем определяется соответствующее вычисленным весам значение первого корня. На каждом следующем этапе подбирается следующая пара канонических переменных с максимальной корреляцией между ними и не коррелированная с предыдущими парами, вычисляется соответствующее ей значение канонического корня. Как правило, первые несколько пар канонических переменных обычно снимают наибольшую часть различия между двумя совокупностями входных переменных.

Вычисленные корреляции ранжируются, их значения убывают с расчётом каждой следующей пары переменных. В программах на экран выводится отчет о коррелированности между переменными d11 и d12. Обычно это будет результат первого этапа расчёта, поскольку он и будет максимальным. Необходимо отметить, что и следующие пары канонических переменных также могут иметь тесные связи, они могут давать исследователю повод для достаточно осмысленного толкования. Невысокие значения канонических корреляций (например, R < 0,4) могут быть значимы только при наличии больших размеров выборки.

В процессе выполнения анализа получить достоверные и непротиворечивые результаты можно при соблюдении следующих условий:

Использование критерия значимости в процессе анализа базируется на гипотезе о том, что входные переменные подчиняются многомерному нормальному распределению. Результаты нарушения этой гипотезы исследованы недостаточно. При значительных объёмах исходных данных результаты анализа канонической корреляции достаточно устойчивы.

Присутствие грубых наблюдений может исказить корректность вычисления значений парных корреляций. Чем больше наблюдений используется в анализе, тем в меньшей степени одиночные выбросы оказывают негативное влияние.

В перечне переменных в анализируемых совокупностях не должны присутствовать взаимозависимые.

54

Например, если включить две связанные функциональной зависимостью переменные (отметка кровли и почвы пласта при его постоянной мощности) или одну и ту же переменную дважды в одно из множеств, то окажется непонятным, какие им следует придать веса.

Такая избыточность приводит к ошибкам вычислительного характера. При наличии высоких корреляционных связей между наблюдаемыми переменными (r 1,0) корреляционная матрица становится вырожденной. В этом случае вычисления, необходимые для анализа канонической корреляции, не могут быть выполнены. Матрицы с наличием мультиколлинеарности рассматривались в первой книге авторов [33, гл. 6] и именовались плохо обусловленными. В корреляционном анализе также рассматривалось явление мультиколлинеарности, которое является следствием плохо обусловленных матриц. Приводились и методы устранения его влияния.

3.2. Этапы выполнения канонического анализа

Процедура проведения канонического анализа может проводиться поэтапно и может включать следующие пункты [11; 46]:

1.Выбор совокупности исходных данных и их анализ. Проверка и устранение выбросов, проверка на нормальность распределения, при необходимости – преобразование данных.

2.Определение зависимостей между отобранными переменными.

3.Расчет параметров, отображающих степень тесноты

связи.

4.Формирование канонических корреляций и оценка качества канонических корней на основе критерия Бартлетта (χ2).

5.Интерпретация результатов расчётов, выявление и отбраковка факторов, не оказывающих существенного влияния на результаты анализа. Эта работа может выполняться многократно.

6.Анализ результатов и формирование выводов.

55

3.3. Формирование множеств, инструменты анализа

3.3.1. Отбор множеств

Пусть имеется многомерный случайный вектор Х порядка k с дисперсиями переменных, равными единице, математическим ожиданием, равным нулю, и положительно определенной, невырожденной корреляционной матрицей R.

Втабл. 3.1 по скважинам одного из рудников, отрабатывающих ВКМКС, выведены характеристики пространственного положения скважин (координаты X, Y, высотные отметки кровли пласта Z_KR, земной поверхности ZP, M – мощность пласта КР-2)

ихимический состав пласта КР-24. Компонентный состав представлен нерастворимым остатком NO, хлористым калием KCl и

хлористым магнием MgCl2. Следует отметить, что в нашем примере всего в анализе участвуют 389 скважин. Требуется определить, связано ли изменение химического состава проб на представленном участке c местоположением скважин в пространстве.

Таким образом, имеется k-мерный случайный вектор нормированных переменных X, где k – число переменных, k = 8.

Взакладке программного средства Statistica – «Анализ» «Многомерный разведочный анализ» выберем инструмент «Канонический анализ». В появившемся окне выберем переменные для канонического анализа (рис. 3.1) и поставим галочку в строке «Отображать описательные статистики и корреляционную матрицу». После нажатия на кнопку «ОК» откроется окно (рис. 3.2), в котором можно посмотреть описательные статисти-

ки (рис. 3.3).

Большая часть статистик рассмотрена в предыдущих разделах, поэтому покажем самые важные из них. В закладке «Быстрый» (рис. 3.3, а) отображаются средние значения и стандарты. Для нормированных переменных средние равны нулю, а стандарты равны единице. При нажатии кнопки «Корреляции» будет сформирована матрица парных коэффициентов корреляций. Но её лучше просмотреть в закладке «Матрица», там она

4 КР-2 – красный пласт-2, в программе обозначается Z_KR.

56

будет дополнена средними значениями, стандартом и количеством наблюдений.

Рис. 3.1. Окно выбора переменных для анализа

Таблица 3.1 Исходные данные (стандартизированные)

В закладке «Дополнительно» (рис. 3.3, б), помимо рассмотренных статистик, можно просмотреть матричные графики. Внимательный анализ этих графиков позволит определить наличие выбросов и нелинейностей и принять меры к их устранению.

57

Рис. 3.2. Окно предварительного просмотра описательных статистик

Диаграммы размаха для стандартизированных переменных будут одинаковыми и дополнительной информации не дадут. Матрица ковариаций для стандартизированных переменных не будет отличаться от матрицы корреляций. Эти статистики будут полезны, если исходные данные не стандартизированы.

а б

Рис. 3.3. Содержимое закладок: а – «Быстрый» и б – «Дополнительно»

Из закладки «Матрица» откроем матрицу парных коэффициентов корреляций (табл. 3.2).

Таблица 3.2 Матрица парных коэффициентов корреляций

58

В матрице обращает на себя внимание высокая зависимость отметки земной поверхности от координаты по оси Y (r = 0,73). Она может повлиять на результаты расчёта, но решение об удалении какой-либо из этих переменных примем после первого расчёта.

После предварительного анализа нажимаем на кнопку «ОК» и в закладке «Быстрый» (рис. 3.4) переходим в окно отнесения переменных по группам. В закладке описательных статистик (рис. 3.5) имеется возможность ещё раз их просмотреть. Для обсуждаемого примера, в общем множестве переменных выделим переменные (условно) первого подмножества X1 для химического состава размерности m = 3, и подмножества переменных пространственного положения X2 размерности p = 5 (рис. 3.4). При этом должны соблюдаться условия:

m + p = k, 3 + 5 = 8; m p, 3 < 5.

(3.1)

 

 

 

 

Рис. 3.4. Разнесение переменных по группам

59

Рис. 3.5. Команды закладки «Описательные»

3.3.2. Обзор инструментов канонического анализа

Нажав в окне на рис. 3.4 кнопку «ОК», переходим в окно просмотра результатов выполнения канонического анализа для рассматриваемого примера (рис. 3.6). Наиболее значимые результаты приведены в верхней части окна.

Рис. 3.6. Главное окно результатов канонического анализа

Остальные статистики сгруппированы в закладках «Быстрый», «Канонические факторы», «Факторная структура» и «Канонические значения». Они потребуют детального рассмотрения и дополнительных теоретических пояснений и будут рассмотрены далее.

60

Соседние файлы в папке книги