Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

Рис. 3.7. Закладка «Канонические значения» в программе «Канонический анализ»

Рис. 3.8. Значения весов левого и правого множества aij и bij

В линейных комбинациях выражений (3.2) рассчитываются веса левого и правого множества aij и bij. Их значения можно посмотреть в закладке «Канонические значения» (рис. 3.7), вкладка «Канонические веса, левое и правое множество» (рис. 3.8). Веса нам понадобятся для оценки влияния каждого аргумента на каноническую переменную и для «ручного» вычисления значений канонических переменных по формулам (3.2).

3.3.3. Канонические переменные

Итак, имеется k-мерный случайный вектор X. Каждая переменная вектора нормирована так, что математическое ожидание переменной равно нулю, их дисперсии равны единице. Матрица корреляций R положительно определена. Вся совокупность

61

данных разбивается на два подвектора X1 и X2, их размерность m и p соответственно. При этом m + p = k и m ≤ p. Совокупности X1 и X2 образуют две группы показателей. Можно записать:

d1 wa KCl,MgCl2 ,NaCl ,

d2 wb X ,Y ,Z,m ,

где wa, wb весовые функции ai и bj в равенствах (3.2), i = 1, m; j = 1, p.

Первое подмножество (левое) не должно быть больше второго. На рис. 3.4 видно, что химические компоненты находятся в конце таблицы исходных данных. Несмотря на это, объединим их в переменные первой группы, получим новую интегральную переменную d1. Вторую группу переменных, отвечающих за пространственную составляющую, объединим во вторую интегральную (каноническую) переменную d2. При вычислении коэффициента корреляции между переменными d1 и d2 необходимо добиваться его максимально большой величины. Для этого потребуется вычислять веса ai для каждой переменной первого множества и bj для каждой переменной второго множества, чтобы добиться максимальных связей между этими каноническими переменными. Возможно, состав канонических переменных d1 и d2 будет не оптимальным, тогда придётся вводить или убирать какие-либо переменные в группах. Так, из высотных отметок кровли и почвы пласта оставлена одна Z_KR. Таким образом, в процессе вычислений весов в каждой совокупности данных рассматриваются такие их линейные комбинации, у которых корреляция больше, чем между любыми другими линейными комбинациями, не коррелированными с первыми линейными комбинациями.

Впоследствии формируется вторая пара переменных, которую уже запишем так: d21 и d22. В расчётах составляется только m пар канонических уравнений, причём m ≤ p. Тогда последняя пара – dm1 и dm2, где m – количество пар канонических переменных. Задача определения канонической корреляции

62

тривиально будет сводиться к вычислению коэффициента корреляции Пирсона между переменными di1 и di2, где i = 1, m. С учётом этих принципов и составляются канонические переменные d11 и d12 :

d11 a1 x11 a2 x21 ... ai xi1 ... am xm1; d12 b1 x12 b2 x22 ... bj x j 2 ... bp xp2 ,

где d11 и d12 – первая пара канонических переменных;

xi1

i-я компонента подвектора X1;

xi2

i-я компонента подвектора X2, i = 1, m;

ai и bj – коэффициенты.

Выражения (3.2) для канонических переменных переписать так:

m

Ai

Xi1 ; D2k

p

Bj

X j 2 ,

D1k i 1

j 1

(3.2)

можно

(3.3)

где Ai, Bj – веса, или коэффициенты перехода, от исходных переменных Xi1, Xj2 к каноническим.

Для нормированных исходных данных веса (коэффициенты) ai (i = 1, m) и bj (j = 1, p) определяются так, чтобы дисперсии канонических переменных di1 и di2 (i = 1, m) были равны единице, а математическое ожидание было равно нулю.

Решение задачи предполагает найти такие нормированные линейные комбинации весов уравнений (3.2), чтобы корреляция между ними была максимальной:

R1 cor d11, d12 max.

3.3.4. Собственные значения

Для приведенного примера выведем матрицу корреляций (рис. 3.9). На рисунке выделены матрицы корреляций подмножеств R11 и R22.

63

Рис. 3.9. Общая матрица корреляций с выделением подматриц

Множество Х из табл. 3.2 после удаления переменной Z_KR можно представить, как совокупность двух подмножеств:

XХ 1 .

Х 2

Тогда и общая корреляционная матрица X T X вектора X может быть представлена совокупностью подматриц:

x1

x1

T

X X T

 

 

x2

x2

 

 

R12

 

 

R11

 

,

 

 

 

R21

R

 

 

 

22

 

 

где R11 – матрица корреляций химического состава; R22 – матрица корреляций пространственных переменных; R12 и R21 – матрицы взаимных корреляций переменных двух подмножеств.

Поскольку строки R12 являются столбцами R21, можно записать R21 = RT12.

Ненулевой вектор x , который при умножении на некоторую квадратную матрицу А превращается в самого же себя с числовым коэффициентом λ, называется собственным вектором

матрицы А. Или ненулевой вектор x называется собственным вектором оператора A, если оператор A переводит x в коллине-

арный ему вектор, т.е. Ax x . Число λ называют собственным значением, или собственным числом, матрицы A порядка n. И ещё число λ называется собственным значением матрицы A

64

порядка n, если существует такой

ненулевой

вектор x , что вы-

полняется равенство Ax x .

Или, в

другой форме,

(А Е)х 0 , где Е – единичная матрица; 0 – нулевой вектор.

Собственные значения равны доле дисперсии, объясняемой корреляцией между соответствующими каноническими переменными. В регрессионном анализе мы рассматривали коэффициент детерминации, который трактовали как степень приближения выведенного уравнения к функциональной зависимости. Чем ближе эта доля к единице, тем меньше в уравнении регрессии остаётся необъяснённой дисперсии. Если извлечь квадратный корень из полученных собственных значений, получим набор чисел, который можно интерпретировать как коэффициенты корреляции.

3.3.5. Канонические корреляции и канонические корни

Ранее отмечалось, что коэффициенты корреляции между каноническими переменными показывают степень тесноты связи. Эти корреляции исчисляются между парами канонических

d11 и d12; d21 и d22 и другими парами. По этой причине их именуют каноническими корреляциями, или каноническими корнями.

Пары канонических корреляций выстраиваются по мере их уменьшения. По этой причине в отчете о коррелированности между множествами переменных приводят только первое значение, которое будет максимальной величиной. Малые по величине значения корреляции, как правило, не представляют практической ценности, поскольку им соответствует небольшая реальная изменчивость исходных данных. Если же канонические переменные, вычисленные в ходе анализа, значимо коррелированы, они также могут иметь осмысленное толкование.

Итак, канонические переменные представлены линейными комбинациями исходных переменных соответствующих совокупностей; в одном множестве входные переменные не должны иметь высоких корреляций; в состав канонических уравнений переменные подбираются с условием, чтобы соответствую-

65

щие канонические корреляции имели максимальные значения; в расчётах участвуют только m пар канонических уравнений, причём m ≤ p.

3.3.6. Значимость канонических корреляций

Проверка значимости канонических корреляций выполняется на основе статистики Пирсона χ2. Если получено m канонических корреляций ρ1, ρ2, ..., ρm, требуется проверить m нулевых гипотез о равенстве нулю коэффициентов корреляций:

H0j: ρj = 0, j = 1, ..., m.

При этом необходимо учитывать, что канонические корреляции ранжированы по величине

ρm > ρm – 1 > ...> ρ1.

В процессе проверки гипотез эмпирическое значение статистики χ2 вычисляется по выражению

2

 

 

rf

2

 

 

 

jЭМП n j 0,5

k 1

ln{ [1– rl

2

]},

 

 

 

 

 

 

 

 

 

 

где n – объем выборки; k – размерность вектора X = (X1, X2)T; rf – оценка f-го коэффициента канонической корреляции (f = 1, ... , j – 1); rl – оценка l-го коэффициента канонической корреляции (l = 1, ..., m); П – произведение l разностей.

Число степеней свободы статистики:

ν = [(p – j + 1)· (m – j + 1)].

Если величина эмпирического значения 2jЭМП больше кри-

тического значения при выбранном уровне значимости α или p-уровень меньше априори установленного значения, то данные о равенстве корреляции ρj нулю противоречат выдвинутой гипотезе и её значение отлично от нуля. Поскольку канонические корреляции ранжированы по мере их уменьшения, то при ρj = 0 и последующие m – j значений канонических корреляций будут равны нулю.

66

3.3.7. Канонические веса

Как уже отмечалось выше, после получения канонических корней требуется осмысленно интерпретировать каждый значимый корень. Оказать помощь в интерпретации смысла этих кор-

ней позволяют значения весов {akh, i = l, n} и {bkj, j = 1, m}, которые вычислены для каждого множества переменных в выра-

жениях (3.2). Эти веса именуются каноническими.

Расчет собственных векторов (А) вспомогательной матрицы R* путем решения системы уравнений вида: A R* E 0 .

Вычисление коэффициентов собственного вектора (В) для второго набора Y по формуле:

B 1 R221 R21 A.

Канонические веса можно рассматривать как аналоги частных корреляций переменных или коэффициенты факторных нагрузок. Чем выше вес исходной переменной уравнений (3.2), тем выше нагрузка на неё. В этом смысле значения весов дают возможность понять влияние исходных переменных в каждом множестве на каноническую переменную. Имеется в виду, что чем больший вес имеет исходная переменная, тем большую долю влияния она оказывает на значение канонической переменной. Считается, если входные переменные обладают значительной корреляцией с канонической переменной, тогда эти переменные имеют с канонической много общего. Следовательно, при трактовке сущности канонической переменной следует в первую очередь полагаться на реальный смысл сильно коррелированных исходных переменных. А если входная переменная с канонической имеет незначимую корреляцию, она не должна входить в состав аргументов уравнения канонической переменной.

После выбора переменных в каждой группе можно увидеть результаты выполнения канонического анализа (рис. 3.10). Наиболее значимые результаты приведены в верхней информационной части окна.

67

Рис. 3.10. Окно просмотра результатов выполнения канонического анализа

К ним относится величина канонической корреляции R = 0,727. Она свидетельствует о высокой степени тесноты связи между первой парой канонических переменных. Рассчитан-

ная величина статистики 2 весьма велика – 498,7 при степени

свободы 15 и практически нулевом уровне значимости. Критическую величину значимости рассчитываем в вероятностном

калькуляторе. Она много больше критического значения 2 при

p = 0,01, которое составит 30,6. Такое соотношение рассматриваемых статистик свидетельствует о высокой статистической значимости. Высокую значимость подтверждает и значительный объём исходных данных в рассматриваемом примере (389 наблюдений). Следовательно, такая высокая и значимая связь свидетельствует о наличии зональности распределения химического состава пласта КР-2 в пространстве.

3.3.8. Канонические веса и каноническое множество

Ранее было отмечено, что каноническим переменным требуется придать некоторый смысл. Каждый корень имеет две взвешенные суммы, по одной на каждую группу входных переменных. Тогда для интерпретации смысла каждого канонического корня можно использовать значения весов, принадлежащих каждому множеству переменных. В каноническом анализе применяются нормированные переменные с нулевым средним и единичным стандартным отклонением. В таком случае канонические веса можно уподобить коэффициентам в уравнении

68

множественной регрессии. Чем больше значение веса перед переменной, тем она нужнее в каноническом уравнении. Иными словами, анализ канонических весов позволяет понять, в какой мере исходные признаки в каждом множестве оказывают влияние на каноническую переменную. Пользователю по весам остаётся подобрать соответствующую трактовку канонической переменной.

Таблица 3.3 Результаты вычисления канонических весов для правого

илевого множеств в программе Statistica

Внашем примере для правого множества веса первого корня примерно равны (по модулю), что свидетельствует о рав-

ном влиянии переменных на каноническую переменную d12

(табл. 3.3).

Левое множество не так однородно, а хлорид магния

MgCl2 обладает слабым влиянием на каноническую переменную d11. Веса остальных корней не рассматриваем.

3.3.9.Структура фактора и канонические веса

Помочь в интерпретации канонических корней способны

иобычные корреляции между канонической переменной и переменными из соответствующего множества. Эти корреляции также называются каноническими нагрузками факторов. Для примера выведем нагрузки канонических факторов кнопкой «Факторная структура и избыточности» закладки «Факторная структура». В рабочую книгу они выводятся попарно для левого

иправого множества (табл. 3.4, 3.5).

Очевидно, переменные, имеющие высокое влияние, обусловленное корреляцией, на каноническую переменную, имеют с ней много общего. Поэтому при толковании канонической пе-

69

ременной следует исходить в основном из реального смысла этих сильно коррелированных исходных переменных.

Вприведенном примере в его левом множестве самую высокую нагрузку по модулю (для первого корня) имеет хлорид калия KCl, затем нерастворимый остаток HO. Хлорид магния

MgCl2 практически не несёт какой-либо нагрузки для первого корня. Во втором корне основную нагрузку несёт нерастворимый остаток, а в третьем – хлорид магния. Незначительное участие хлорида магния в факторной нагрузке первых двух корней может свидетельствовать о том, что рассматриваемый пласт сильвинитового, а не карналлитового состава.

Вправом множестве (табл. 3.4) высокая нагрузка первого корня отмечается по оси Х, во втором корне по второй координате Y, в третьем по мощности и координате X.

Таким образом, в примере и по нагрузками факторов, и по каноническим весам левое множество (табл. 3.5) можно обозначить как качество сильвинитового пласта, представленное содержаниями полезного и вредного компонентов. Аналогичный анализ для переменных правого множества позволяет сделать заключение о влиянии геопространства на качество сильвинитового пласта.

Вряде случаев канонические веса для переменной оказываются близкими к нулю, а соответствующие им нагрузки очень велики. Вместе с тем возможна и обратная ситуация, когда канонические веса велики, а нагрузки небольшие. И в первом и во втором случае выводы могут оказаться противоречивыми.

Таблица 3.4

Факторные нагрузки и доли извлечённой дисперсии для правого множества

70

Соседние файлы в папке книги