Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

2.Упрощенные методы ФА, обычно это методы, которые появились раньше, в первой половине двадцатого столетия, во время появления и формирования базисных теоретических разработок ФА. Эти методы отличаются, с одной стороны, сравнительно простыми вычислительными процедурами, а с другой – ограниченными возможностями в выделении латентных факторов и аппроксимации факторных решений. В данную группу входят методы:

– однофакторная модель Ч. Спирмена, позволяет выделять только один латентный фактор;

– бифакторная модель Г. Хользингера, ориентирована на выделение двух латентных факторов;

– центроидный метод Л. Тэрстоуна – множество корреляций между переменными рассматривается как пучок векторов, латентный фактор в этом пучке появляется как некий уравновешивающий вектор, проходящий через его центр.

3.Современные аппроксимирующие методы ФА – методы,

имеющие, по сравнению с предыдущей группой, более гибкую модель выделения латентных факторов (искусственно не ограничивающую их число), а также позволяющую оптимизировать полученные решения. В этой группе наиболее представительными являются:

метод главных факторов Г. Томсона, используется на практике особенно часто, наиболее близок методу главных компонентов;

групповой метод Л. Гуттмана и П. Хорста, основывается на исследовании не простого набора данных, а на предварительно отобранных группах анализируемых признаков (наблюдаемых объектов).

4.Методы с повышенными аппроксимирующими свойст-

вами – современные методы, позволяющие получать и последовательно улучшать аналитические результаты. Эти методы отличаются сложностью алгоритмов и высокой трудоемкостью вычислительных процедур, практически нереализуемы без технических средств. К этой группе относятся методы:

– максимального правдоподобия Д. Лоули и Д. Максвелла;

121

минимальных остатков Г. Хармана;

двухфакторного анализа Г. Кайзера и И. Кэффри;

канонического факторного анализа К. Рао.

Несмотря на различия, многочисленные методы факторного анализа имеют общую схему реализации.

Основная идея факторного анализа – представить исходные переменные в виде линейных комбинаций меньшего числа новых факторов. В этом случае можно рассуждать и подругому. В этом случае переменная может быть представлена как сумма факторов, умноженных на некоторые коэффициенты, которые определяются из матрицы корреляций. Будем искать такую переменную (фактор), когда при исключении ее влияния частные коэффициенты корреляции между данными переменными будут равны нулю: rij, f1, f2 = 0. Если же они не все оказались равными нулю, ищем вторую переменную-фактор, чтобы при исключении действия этих двух факторов частные коэффициенты между данными переменными были бы равными нулю (rij, f1, f2 = 0), и т.д. Процесс обрывается, например, на q-факторе, если при учете этих q-факторов все частные коэффициенты между переменными будут равны нулю.

5.3. Условия проведения факторного анализа

Поскольку через новые общие факторы мы хотим линейно объяснить все измеримые переменные, будем требовать от этих факторов (вернее, их значений) выполнения определённых условий, с проверки которых и начинается факторный анализ. Проверяются следующие условия [35; 41; 80]:

все исходные переменные должны быть количественными, а не придуманными абстрактными величинами;

выборка входных переменных должна быть представительной. Некоторые авторы не рекомендуют использовать факторный анализ, когда число наблюдений меньше 100. Они считают, что стандартные ошибки корреляции при таком объёме наблюдений будут иметь большие значения. По мнению многих

122

специалистов, число наблюдений должно быть хотя бы в два раза (а то и в 4–5 раз) больше числа переменных;

выборка должна быть однородна;

распределение исходных переменных должно приближаться к нормальному. Сами переменные должны быть независимыми. Выбросы рекомендуется исключать из анализа. Для исправления исходных данных при необходимости можно выполнить их преобразование;

факторный анализ осуществляется по коррелирующим переменным. В рассчитанной корреляционной матрице обязательно должны быть корреляции со значением по модулю выше 0,3. Иначе будет сложно выделить из матрицы какие-либо латентные переменные. Исходные переменные должны иметь линейные связи, явно криволинейный характер потребует выполнения соответствующих преобразований.

5.4.Формулировка задачи

5.4.1. Линейная факторная модель

Задачу факторного анализа можно сформулировать следующим образом: определить минимальное число k таких факторов F1, …, Fk , после учета которых исходная корреляционная матрица обнулится – недиагональные элементы ее станут близкими к нулю. Другими словами, это значит, что после учета k факторов все остаточные корреляции между исходными признаками должны стать незначимыми.

Возникает вопрос, как методами статистического анализа данных измерений выделить эти скрытые общие факторы, а также объяснить ими наблюдаемые исходные переменные. Кроме того, желательно иметь весьма ограниченный набор таких общих факторов, который бы объяснял наблюдения с достаточной точностью.

Если модель факторного анализа можно описать линейными уравнениями, в которые входят в виде суммы произведения i-го коэффициента на i-й аргумент, то такая модель именуется линейной. В реальности в уравнениях, помимо суммирования,

123

может использоваться несколько алгебраических операций или их комбинаций.

В дальнейшем мы будем рассматривать линейную факторную модель, которая считается наиболее простой и популярной.

Исходными данными нам послужит знакомая по предыдущим разделам таблица наблюдений по бороздовым пробам Xi,j. В столбцах выборки представлены значения геопространственных переменных по пробам, вероятность появления газодинамических явлений и результаты химического анализа проб, измеренные в количественной шкале (j = 1, 2, …, m). Строки содержат описания проб на проектном участке пласта (i = 1, 2, …, n).

Целью наших исследований служит поиск такого линейного преобразования исходной матрицы Xi,j, которое бы послужило основой для сжатого представления входных данных в виде матрицы Fk, где k = 1, 2, ..., p, с меньшим числом переменных p, (причём p < m), но без существенной потери содержательной информации об исследуемых объектах.

Предполагается, что исходные данные нормированы в отклонениях от среднего и отнесены к стандарту, т.е. средняя и дисперсия нормированных переменных соответственно равны нулю и единице. В этом случае для переменных n можно построить ковариационную (корреляционную) матрицу C [1:n, 1:n], коэффициенты корреляций между переменными образуют квадратную симметричную матрицу порядка n (рис. 5.1).

Ранее отмечалось, что основой каждого метода факторного анализа служит математическая модель, которая устанавливает взаимосвязь между исходными переменными и латентными факторами. Принципы анализа будем излагать на примере центроидного метода. Последний предполагает, что каждая входная переменная Xi, j (где i = 1, 2, …, n – строки исходной таблицы, j = 1, 2, …, m – её столбцы) может быть представлена как линейная функция некоторого числа общих факторов F1, F2, …, Fp и характерного фактора Uj (формула (5.1)).

124

X1 = a11F1 + a12F2 + ...

+ a1kFk + d1U1;

 

X2 = a21F1 + a22F2 + ...

+ a2kFk + d2U2;

(5.1)

.............................................................

 

Xm = am1F1 + am2F2 +...+ amkFk + dmUm,

где amk – нормированный коэффициент множественной регрессии переменной i по общему фактору j, их ещё называют факторными нагрузками; Fi – общий фактор; di нормированный коэффициент регрессии переменной i по характерному фактору Ui; Ui – характерный фактор для переменной i.

В ходе проведения регрессионного анализа [33] мы рассматривали остатки. Если выводимое уравнение не является функциональным с R2 = 1, как бы мы ни подбирали коэффициенты регрессии, уравнение точно не сможет свести к нулю разность фактических и теоретически рассчитанных значений. Эта разность даёт ошибку приближения, или остаток, и обозначает-

ся вектором ei . Как и в факторном анализе, уравнения вида (5.1) без остатка редко могут получиться. Обычно значительная часть вариации исходной переменной объясняется влиянием факторов, а остальная часть вариации обусловлена ошибкой em (фор-

мула (5.2)):

Xm = am1F1 + am2F2 + ... + amkFk + dmUm + em,

(5.2)

где em величина ошибки. Иногда остаток em отдельно не прописывают, тогда он входит в состав dmUm.

Ожидается, что каждый фактор имеет весомое влияние на все исходные переменных, т.е. фактор Fj – общий для всех исходных переменных X1, X2, ..., Xm. Вместе с тем предполагается, что изменчивость характерного фактора Uj оказывает влияние только на значения соответствующего признака Xj. Например, из матрицы корреляций видно, что на вероятность газодинамических проявлений высокое влияние оказывают значения нерастворимого остатка НО. Влияние остальных переменных на вероятность проявления ГДЯ невелика, наибольшая величина корреляции составляет r = 0,25 с сульфатом кальция CaSO4. Вес

125

переменной нерастворимого остатка для всех общих факторов будет небольшим. Но при расчётах признака ГДЯ высокое влияние нерастворимого остатка будет учтено характерным фактором Uj. Предполагается, что характерный фактор должен передать ту индивидуальность переменной Xj, которая не может быть объяснена через общие факторы.

Корреляции переменных, связанных с высотной отметкой проб (Z, LOW_BORD, UP_BORD), с другими признаками являются существенными (исключая НО) и будут учтены весами в составе общих факторов. Анализ матрицы свидетельствует о тесных связях переменных, связанных с высотной отметкой (Z, LOW_BORD, UP_BORD), которая может привести к мультиколлинеарности.

Наблюдается значимая величина положительной корреляции высотных отметок пласта по мере увеличения значений координаты Х. В табл. 5.1 прослеживаются и средние по величине связи между исходными переменными. Из выражений (5.1) и (5.2) через рассчитанные факторы можно получить значения исходных переменных Xi. В свою очередь, и общие факторы Fj можно выразить линейными комбинациями наблюдаемых переменных:

Fj = cj1X1 + cj2X2 + cj3X3 +...+ cjmXm ,

(5.3)

где cjm – весовые коэффициенты исходных переменных. Поскольку через вводимые общие факторы мы будем ли-

нейно объяснять все измеримые факторы, то будем требовать от этих факторов (точнее, от их значений) выполнения определённых условий:

1.M (Uk) 0 несмещѐнность специфических факторов;

2.cov(Ui, Uj) = 0 некоррелируемость специфических факторов,

3.cov(Ui, Ui) = σk2 const – отсутствие гетероскедастичности специфических факторов;

4.Ui = N(0, σ) – нормальность специфических факторов;

5.cov(fi, fj) = 0 – некоррелируемость общих факторов;

126

6. cov(fi, εj) = 0 – некоррелируемость общих и специфических факторов между собой;

7. cov(fi, fi) = Di при условии D1 > D2 > D3 > ... > Dp.

Последнее требование позволяет назвать первый фактор главным, так как именно он определяет наибольшую долю факторной вариации D1 / Di, i = 1, ..., m. Чем больше первые факторные дисперсии и чем меньше последние, тем выше качество факторной модели. Количество общих факторов p должно быть небольшим, по крайней мере p < m, это позволит провести уменьшение размерности задачи анализа измеренных величин.

Веса подбираются таким образом, чтобы первый коэффициент значения фактора объяснял наибольшую долю дисперсии, после чего второй набор весов подбирается так, чтобы второй фактор объяснял наибольшую долю остаточной дисперсии с условием отсутствия корреляции с первым фактором. Таким образом, общие факторы можно оценить способом, при котором они между собой коррелировать не будут.

Требованиями к ФА установлено, что латентных переменных F1, …, Fm в уравнениях (5.1) должно быть меньше, чем число исходных данных. Предполагается, что они независимые стандартизованные переменные, имеющие нормальное распределение. Характерные факторы U1, …, Um рассматривают как некоррелированные стандартизованные показатели, не зависящие от общих факторов; неизвестные aij – факторные нагрузки, а числа dj оценивают степень влияния характерного фактора Uj на переменную Xj. Исходные признаки должны быть стандартизованными переменными с нормальным распределением.

5.4.2. Вычисление собственных значений

Отберём переменные для анализа, для этого выбираем из меню «Факторный анализ» (см. рис. 5.1). Всего используем 10 переменных, из них имеются компоненты химического состава проб, а остальные – геопространственные данные. Анализируемые данные включают 522 наблюдения и 10 исходных переменных. Для избежания мультиколлинеарности из высотных отметок оставляем только отметку почвы пласта UP_BORDER.

127

Рис. 5.1. Меню выбора «Факторный анализ» в программе Statistica

Необходимо выбрать максимальное количество основных факторов. Вместе с тем число факторов должно быть меньше числа переменных. Безусловно, если факторов окажется столько же, сколько исходных переменных, выполнять факторный анализ не имеет смысла. На первом этапе ограничимся созданием пяти факторных переменных (рис. 5.2).

Рис. 5.2. Количество основных факторов

Вразделе «Дополнительно» выбираем метод выделения «Главные компоненты» (рис. 5.3).

Втеории выполнения факторного анализа наработаны некоторые общие рекомендации, использование которых на прак-

128

тике дает наилучшие результаты. В том числе имеются рекомендации по количеству латентных факторов. К ним относится критерий, рекомендованный к использованию Кайзером (Kaiser, 1960), он используется чаще всего.

Рис. 5.3. Окно выбора закладки «Главные компоненты»

Дисперсия любой нормированной переменной равна единице. Поэтому на первом этапе отображаются только те основные факторы, у которых собственные значения больше единицы. Другими словами, если фактор не объясняет дисперсию, равнозначную хотя бы дисперсии одной исходной переменной, то в его наличии нет необходимости. И по этой причине по умолчанию минимальное собственное значение оставляем равным единице.

Рис. 5.4. Окно с результатами анализа матрицы корреляций

129

Впродолжение анализа (кнопка ОК) выводится основное окно с результатами расчётов (рис. 5.4).

Вверхней части окна приведена первичная информация проводимого анализа: число переменных, участвующих в расчётах, определитель корреляционной матрицы, количество факторов и собственные значения. Первая закладка – «Быстрый» позволяет вывести собственные значения, факторные нагрузки, выполнить вращение факторов разными методами для улучшения результатов и построить графики нагрузок. Перейдём в закладку «Объяснённая дисперсия» и продолжим факторный ана-

лиз (рис. 5.5).

а

б

Рис. 5.5. Функционал закладки «Объяснённая дисперсия»: а – общий; б – вкладка «Значения»

Выведем результаты вычисления собственных значений факторов для нашего примера (табл. 5.2).

130

Соседние файлы в папке книги