Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

Таблица 3.5

Факторные нагрузки и доли извлечённой дисперсии для левого множества

Можно построить график канонических корреляций. Из графика видно преимущество расчётов по первому корню

(рис. 3.11).

Рис. 3.11. Собственные значения и график матрицы корреляций

Для правого множества все нагрузки первого корня факторной структуры возведем в квадрат и сумму поделим на m (количество переменных в правой группе), получим величину извлечённой дисперсии (DIпр) для первого корня:

DIпр =

0,6732 0,3102 0,4402 0,1072

 

0,753

0,188284 .

 

4

 

4

 

71

Избыточность для него рассчитаем, как произведение извлеченной дисперсии на квадрат канонической корреляции:

Iпр = DI · R2 = 0,188284 0,725682 0,099152.

(3.4)

Просуммируем извлеченные дисперсии по правому множеству, получим 0,582637, что как раз дает 58,26 % извлечения дисперсии. По левому множеству аналогичная сумма составит 1, или 100 %. Извлеченная дисперсия второй группы приведена на рис. 3.10.

3.3.10. Практическая значимость канонических корней

Канонические корреляции не могут быть отрицательными. Большие значения канонических корреляций свидетельствуют о тесной зависимости совокупностей переменных, составляющих множества X1 и X2. Перед анализом избыточности полезно установить практическую значимость канонических корней. Результаты проверки представлены в табл. 3.6. Для рассматриваемого примера вывести результаты проверки можно командой «Хи-квадрат (χ2) для канонических корней» из закладки «Канонические факторы».

Ранее отмечалось, что канонические корреляции рассчитываются в порядке убывания. Из них оставляют для последующего анализа только те корни, которые оказались статистически значимыми. На самом деле вычисления происходят немного иначе: в программе Statistica сначала вычисляется значимость всего набора корней, затем значимость набора, остающегося после удаления первого, второго корня и т.д.

Таблица 3.6 Проверка статистической значимости канонических корней

72

Процедура проверки значимости канонических корреляций основана на знакомом критерии Пирсона χ2. Если оценено m канонических корреляций ρ1, ρ2,..., ρ1m, необходимо проверить m нулевых гипотез о равенстве корреляций нулю:

H0j: ρj = 0, j = 1, ..., m.

С учётом ранжирования канонических корреляций по величине

ρm > ρm–1 > ... > ρ1.

Эмпирическая величина статистики χ2 для проверки выдвинутой гипотезы о равенстве корреляций нулю вычисляется по формуле

2

 

 

 

0,5

 

1 (

 

f

)2

ln П 1 ( 1)2 ,

j

j

k

r

 

n

 

 

 

 

 

r

где n – объем выборки; k – размерность вектора X = (X1, X2)т; rf – оценка f-го коэффициента канонической корреляции (f = 1, ..., j – 1); rl – оценка (коэффициент множественной корреляции) первого коэффициента канонической корреляции (f = 1, ..., m).

Число степеней свободы статистики определяется из выражения

p j 1 m j 1 .

 

 

Вслучае, когда эмпирическое значение статистики превосходит критическое значение при заданном уровне значимости α, или p-value не превосходит α, то данные противоречат

гипотезе и ρj отлично от нуля. Так как значения канонических корреляций упорядочены, при ρ1 = 0, то и остальные m – j значений канонических корреляций равны нулю.

Втабл. 3.6 канонические корреляции ранжированы по уменьшению их величины. Для последнего корня с самой низ-

73

кой корреляцией число степеней свободы ν = 2, значимость примем α = 0,01, тогда критическая величина χ2 = 9,21. Таким образом, в примере даже самая малая величина канонической корреляции R = 0,3369 значима. Значимость в нашем примере достигается большими размерами выборки (в рассматриваемом примере число наблюдений 389).

Если возвести этот R = 0,3369 в квадрат (R2 = 0,11) и использовать формулу (3.4) для вычисления избыточности, становится понятно, что такие канонические корни объясняют лишь незначительную долю изменчивости переменных. У первого корня величина R2 почти в пять раз выше и равна 0,53, логичнее в расчётах использовать результаты вычислений первого корня. Окончательное решение о практической значимости канонических уравнений принимается на основании субъективной позиции исследователя.

3.3.11. Лямбда Уилкса (λ)

Ранее мы отмечали, что коэффициент детерминации (квадрат корреляции) является оценкой доли дисперсии, общей между двумя переменными. Поскольку переменные нормированы, разность 1 – D даёт нам оценку необъясненной доли общей дисперсии, равной единице. Эту долю необъяснённой дисперсии принято обозначать как лямбда. Она вычисляется по выражению «единица минус квадрат канонической корреляции», в литературе лямбда также упоминается как лямбда Уилкса [80]. Если значение лямбды равно оценке необъясненной доли дисперсии, то в табл. 3.7 минимальное значение этой статистики имеет первый корень. Поскольку программа сначала оценивает значимость всего набора корней, затем значимость набора, остающегося после удаления первого, второго корня и т.д., эта особенность накладывает отпечаток и на расчёты лямбды. В табл. 3.7 введен новый столбец, в котором построчно складываются значения R2 и λ. Единице равна сумма только последней строки. А разность между соседними построчными суммами даёт величину прироста необъясненной доли дисперсии.

74

Таблица 3.7

Вычисления сумм квадратов объяснённой и необъясненной дисперсий

Это значение используется в качестве статистики критерия значимости квадрата канонической корреляции и имеет распределение хи-квадрат:

c2 [ N –1–{0,5( p q 1)}] loge ,

где N – число наблюдений; p – число переменных справа (в правом списке); q – число переменных слева (в левом списке).

Для получения правдоподобных оценок того, насколько реальная изменчивость переменных объясняется конкретным каноническим корнем, нельзя забывать о мере избыточности, т.е. о том, насколько реальная изменчивость в одном множестве переменных объясняется другим множеством.

Однако следует помнить, что канонические веса соответствуют уникальному вкладу каждой переменной, а нагрузки канонических факторов представляют простые суммарные корреляции. Например, пусть в наших данных по руднику имеются три переменных: мощность пласта mп и высотные отметки кровли и почвы пласта Zk и Zp. Поскольку mп= Zk Zp, мы имеем зависимые переменные. Таким образом, выборка содержит излишнюю информацию.

Когда программа вычисляет веса для взвешенных сумм (канонических переменных) по каждому множеству, максимизируя их корреляцию, ей потребуется включить в сумму только одну из этих двух высотных отметок – либо Zk, либо Zp. Если при этом больший вес будет приписан первой переменной, вклад второй становится несущественным. Следовательно, она

75

получит нулевой или пренебрежительно малый вес. Тем не менее, если рассматривать обычные корреляции между соответствующими суммарными значениями и значениями двух канонических переменных (т.е. нагрузки факторов), они могут оказаться существенными у обоих факторов.

Таблица 3.8

Результаты вычисления канонических весов (без переменной Zp)

Таким образом, еще раз напомним, что канонические значения соответствуют уникальному вкладу, вносимому соответствующей переменной во взвешенную сумму или каноническую переменную. Нагрузки канонических факторов отражают полную корреляцию между соответствующей переменной и взвешенной суммой.

Полученные канонические веса целесообразно использовать для составления интегральных показателей «зависимой» и «независимой» переменных. На основании выражения (3.2) канонические переменные будут равны:

d11 = – 0,560845∙v7 – 0,844186∙v8 + 0,129151∙v9;

d12 = – 0,722031∙v2 – 0,806929∙v3 + 0,79034∙v4 – 0,779026∙v6,

где v2 v9 – нормированные значения j-го показателя по каждой группе, а коэффициенты при них – канонические веса

(табл. 3.8).

76

Рис. 3.12. Результаты вычисления значений канонических переменных для правого и левого множеств переменных

Канонические переменные удобно вычислить в новых колонках исходной таблицы данных, как показано на рис. 3.12

для d11.

Правильность вычислений канонических переменных можно проверить в регрессионном анализе. Для этого, например, объявим зависимой переменной d11, а независимыми v7, v8, v9. Выполним предварительные расчёты, при этом вычисленные коэффициенты уравнения регрессии должны совпасть с каноническими весами соответствующих групп, представленных в табл. 3.8. Поэтому считается, что каноническая корреляция является частным случаем общей линейной модели регрессии.

3.3.12. Очистка множеств

Из анализа канонических весов (см. табл. 3.8) для левого множества обращает внимание слабое влияние хлорида магния MgCl2 на величину канонической переменной d11 (вес = 0,129151). В силу этой причины удаление MgCl2 из канонического анализа не должно сказаться значительно на конечном результате.

После удаления переменной и пересчёта результаты выведены на рис. 3.13. Каноническая корреляция уменьшилась не-

77

значительно – на четыре единицы в третьем знаке после запятой, что свидетельствует о правильном решении по удалению малозначимой переменной. Уменьшилось число степеней сво-

боды, следовательно, уменьшится и критическое значение 2 .

Вместе с тем значительно (почти на 20 %) уменьшилась величина извлечённой дисперсии правого множества.

В примере рассматривается пласт АБ сильвинитового состава. Основной полезный компонент – КСl. Хлорид магния в пробах пласта присутствует, но в небольших концентрациях, в отличие от пласта В карналлитового состава, где концентрация этого компонента будет определяющей. Возможно, на рассматриваемом участке имеется зона замещения сильвинита карналлитом, об этом свидетельствует наличие в некоторых пробах высоких концентраций хлорида магния.

Рис. 3.13. Результаты канонического анализа после удаления из правого множества переменной MgCl2

По этой причине удаление хлористого магния из общего состава компонентов пласта не привело к значительному ухудшению результатов, следует вернуться к предыдущему варианту канонического анализа.

3.3.13. Извлеченная дисперсия и избыточность

Степень тесноты связи каждой пары канонических переменных d1 и d2 (формула (3.2)) передают коэффициенты канонической корреляции. Но они не отражают величину объясняемой доли дисперсии в переменных. Такое суждение можно выпол-

78

нить в процессе анализа нагрузок канонических факторов. Нагрузки можно представить, как корреляции между канонической переменной и исходными признаками в соответствующем множестве.

Если возвести эти корреляции в квадрат, получим коэффициенты детерминации. Именно они и будут отражать долю дисперсии, объясняемую каждой переменной. Для каждого корня можно вычислить значение этих долей. При этом мы получаем долю изменчивости, объясненной соответствующей канонической переменной. Таким образом, можно вычислять среднюю долю дисперсии, извлеченной каждым корнем.

Каноническая корреляция при возведении в квадрат также нам покажет долю дисперсии, общей для сумм по каждому множеству. Умножая эту долю на величину извлеченной дисперсии, можем получить меру избыточности множества переменных, её значение покажет, насколько избыточно одно множество переменных, если задано другое множество.

Отметим также, что можно вычислить избыточность первого (левого) множества переменных при заданном втором (правом) множестве и избыточность второго (правого) множества переменных при заданном первом (левом) множестве.

Поскольку последовательно извлекаемые канонические корни не коррелированны между собой, то можно просто просуммировать избыточности по всем (или только по значимым) корням, получив при этом общий коэффициент избыточности.

3.3.14. Собственные значения

При вычислении канонических корней в программе Statistica вычисляются собственные значения матрицы корреляций (табл. 3.9). Для нашего примера эти значения можно вывести соответствующей кнопкой из закладки «Канонические факторы» (см. рис. 3.7). Помимо их, можно вывести и график изменения собственных значений (рис. 3.14)

79

Таблица 3.9 Собственные значения матрицы корреляций

Рис. 3.14. График собственных значений

Если извлечь квадратный корень из полученных собственных значений, получим набор чисел, который можно интерпретировать как коэффициенты канонической корреляции. В нашем примере корень квадратный из первого собственного значения будет равен 0,725678 (см. рис. 3.10). Это и будет коэффициент канонической корреляции первой пары канонических уравнений. В регрессионном анализе квадрат коэффициента корреляции есть коэффициент детерминации. Численное значение последнего показывает степень приближения связи к функциональной. Собственные значения имеют аналогичную трактовку при использовании стандартизированных данных.

80

Соседние файлы в папке книги