Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

Рис. 2.6. График каменистой осыпи

На последнем шаге все объекты объединяются вместе. Когда данные имеют ясную «структуру» в терминах кластеров объектов, сходных между собой, тогда эта структура, скорее всего, должна быть отражена в иерархическом дереве различными ветвями. В результате успешного анализа методом объединения появляется возможность обнаружить кластеры (ветви) и интерпретировать их. Количество кластеров определяет по дендрограмме сам исследователь. В рассмотренном примере, судя по дендрограмме, можно выделить два крупных кластера. Первый из них составлен скважинами с 8-й по 12-ю. Во второй кластер входят скважины с 1-й по 7-ю. На плане расположения скважин (см. рис. 2.4) для примера с двумя переменными эти кластеры также хорошо выделяются.

Как видно из примера, кластерный анализ – это комбинаторная процедура, имеющая простой и наглядный результат. Широта возможного применения кластерного анализа очевидна настолько же, насколько очевиден и его смысл. Классифицирование или разделение исходного множества объектов на различающиеся группы всегда является первым шагом в любом анализе исследователя.

41

2.4.2.Процедуры эталонного типа (метод k-средних)

2.4.2.1.Сущность метода k-средних

Помимо иерархических методов выделения групп, существует и используется значительное число итеративных методов кластерного анализа, именуемых методом k-средних. Для выполнения процедуры разделения в них требуется задать некоторые входные параметры, среди которых ожидаемое число кластеров, порог завершения процесса классификации и др. В отличие от ранее рассмотренных этот метод не использует меры сходств или различий между объектами. Требуется на первом этапе задать ожидаемое количество кластеров k. Каждый кластер имеет текущий центр тяжести. В процессе вычисления добавляется новый объект. Между каждым объектом и центром тяжести кластера вычисляется расстояние. Принято считать, что такие процедуры удобны в использовании и быстродействующие в конечных программных продуктах. Следует отметить, что

вэтом случае особое значение имеет выбор начальных условий, которые влияют как на продолжительность процесса разгруппирования исходного множества, так и на его результаты. Метод k-средних особенно применим для обработки множества статистических совокупностей, значительных по размеру [73].

Описание алгоритма метода k-средних можно представить

вследующем виде. Пусть имеется n наблюдений множества объектов, каждый из которых характеризуется m переменными

(признаками) X1, X2, … Xn. Эти объекты необходимо разбить на k кластеров. Для инициализации алгоритма из n точек исходного множества отбираются случайным образом (количество разбиений k задаётся исследователем исходя из каких-либо априорных соображений) k точек (объектов). Эти точки принимаются за эталоны. Каждому эталону присваивается порядковый номер, который одновременно является и номером кластера. На первом

шаге из оставшихся (n k) объектов извлекается точка Xi с координатами (xi1, xi2, …, xim) и проверяется, к какому из эталонов (центров) она находится ближе всего. Для этого используется евклидово расстояние. Проверяемый объект присоединяется к

42

тому центру (эталону), которому соответствует минимальное из расстояний. После изменения состава кластера вычисляется новый центр тяжести, пересчитанный с учетом добавленного объекта и вес его (количество объектов, входящих в данный кластер) увеличивается на единицу. Алгоритм продолжается до тех пор, пока состав кластеров не перестанет меняться. В тех случаях, когда встречаются два или более минимальных и одинаковых расстояния, то i-й объект присоединяют к центру с наименьшим порядковым номером. На следующем шаге выбираем точку Xi+1, и для нее повторяются все процедуры. Таким образом, через (n k) шагов все точки (объекты) совокупности окажутся отнесенными к одному из k кластеров, далее процесс разбиения проверяется. Для того чтобы убедиться в корректности разделения исходного множества по тому же правилу, все точки X1, X2, …, Xn опять последовательно подсоединяются уже к полученным кластерам, при этом веса продолжают накапливаться. Новое разбиение сопоставляется с предыдущим. Если повторная группировка совпадает с первой, то работа алгоритма завершается. В противном случае цикл повторяется. Окончательное разбиение имеет центры тяжести, которые не совпадают с эталонами, их можно обозначить C1, C2 , ..., Ck . При этом каждая точка

X i (i 1,2,...,n) будет относиться к такому кластеру (классу) l,

до которого расстояние от неё минимально [40]. В алгоритмах используются некоторые модификации метода k-средних. Например, центры тяжести кластера будут пересчитаны после каждого изменения его состава или после того, как будет завершен отбор всех данных. И в первом и во втором случаях итеративный алгоритм минимизирует разброс объектов внутри каждого кластера.

2.4.2.2. Условия выбора центров кластеров

Таким образом, пользователь, помимо числа кластеров, должен выбрать и условие, которое задает начальные центры кластеров. В программе Statistica существует три возможности.

Максимизация расстояний между кластерами (maximize between-cluster distances). Если выбрано такое условие, то на

43

первом этапе за центры кластеров сначала принимаются первые N (число кластеров, заданное вами) наблюдений. На следующих этапах новые наблюдения заменят выбранные центры кластеров, если наименьшее расстояние от них до любого другого центра кластера больше, чем наименьшее расстояние между кластерами. Из недостатков этого метода можно отметить следующее. Если исходные данные представлены с выбросами и выбор объектов производится по процедуре максимизации начальных расстояний между кластерами, то некоторые кластеры (или один из них) могут содержать только одно-единственное наблюдение.

Короткие расстояния с постоянными интервалами (short

distances and take observations at constant intervals). Когда выби-

рают это условие, на первом этапе вычисляются расстояния между объектами. На втором этапе объекты упорядочиваются по расстоянию. На последнем этапе в кластеры отбираются объекты с одинаковыми расстояниями и вычисляются их центры.

Выбор первых N (количество кластеров) наблюдений кла-

стеров (choose the first N (number of clusters) clusters observations). Как и в первом методе, в этом условии первые N наблюдений по умолчанию становятся начальными центрами кластеров. Таким образом, это условие дает пользователю возможность контроля выбора начальной конфигурации. После первых расчётов может измениться мнение о составе кластеров и их центрах. В этом случае имеется возможность переместить в начало таблицы исходных данных те наблюдения, которые являются центрами кластеров, вокруг которых и будут сгруппированы остальные наблюдения.

Для второго примера, выполняемого в программе Statistica, проведём анализ методом k-средних по столбцам. Поскольку в предыдущем методе иерархической кластеризации рассматриваемые объекты разделены на два кластера, а третий под сомнением, то в качестве исходного количества выберем три кластера. По сравнению с иерархической кластеризацией в методе k-средних больше выходных параметров, позволяющих

44

провести качественную оценку кластеризации, отсеять не влияющие переменные и незначимые кластеры.

После проведения программой основных вычислений откроем таблицу дисперсионного анализа переменных (табл. 2.3).

Таблица 2.3

Результаты дисперсионного анализа в методе k-средних для восьми переменных

KCl

MgCl2

NaCl

П р и м е ч а н и е : mgcl обозначает хлорид магния MgCl2.

В первом столбце приведены все переменные, участвующие в анализе (8 единиц). Из этой таблицы сравниваем эмпирическое значение Фишера (Fэ) с теоретическим, вычисленным в

вероятностном калькуляторе Fт (сс = 2,47; р = 0,05) = 3,2. Сравнительный анализ показал, что эмпирическое значение коэффициента

Фишера переменной «хлорид магния» (MgCl2) меньше его критического значения, поэтому его можно убрать из исследования, поскольку он не влияет значимо (р = 0,12, что больше принятого 0,05) на классификацию переменных.

2.4.2.3. Анализ кластеров

После удаления переменной «хлорид магния» и пересчёта данных выведем описательные статистики по каждому кластеру (табл. 2.4). В кластер 3 попало больше всего наблюдений – 26 из 50, первый содержит 16 наблюдений, а второй всего 8.

45

Таблица 2.4

Описательные статистики для трех кластеров и семи переменных

На плане расположения скважины второго кластера находятся между объектами 1 и 3 кластеров (рис. 2.7). Стоит отметить, что план построен в осях X, Y и не учитывает влияния других переменных. Тем не менее точки на графиках средних (рис. 2.8) первого и третьего кластера по пространственным переменным далеко отстоят друг от друга, что свидетельствует о хорошем разделении объектов. Но точки, отражающие химические компоненты этих графиков, сближены и не дают серьёзного основания для выделения их в разные кластеры.

Рис. 2.7. План расположения центров кластеров 1, 2, 3 и точек, принадлежащих им

46

Точки с хлоридом калия на графиках средних совпадают, что свидетельствует об их примерно одинаковой величине и слабой способности к разделению данных. Напротив, химические компоненты во втором кластере далеко разведены от аналогичных точек первого и третьего кластеров. А пространственные компоненты этой группы скважин (за исключением координаты Y) находятся между аналогичными точками двух других кластеров.

Рис. 2.8. Графики средних для трех кластеров

Рис. 2.9. График средних для двух кластеров и семи переменных

47

Такое положение третьего кластера ставит под сомнение его существование. Перестроим анализ для двух кластеров. На графике средних (рис. 2.9) настораживает близкое расположение друг к другу точек с химическими компонентами (NO, KCl, NaCl).

Таблица 2.5

Результаты дисперсионного анализа в методе k-средних для семи переменных

Дисперсионный анализ (табл. 2.5) также свидетельствует о незначимом влиянии этих переменных на процесс разделения массива, следовательно, эти переменные можно удалить из рассмотрения.

Таким образом, у нас остаётся 2 кластера и 4 переменных. Продолжим анализ.

Таблица 2.6

Результаты дисперсионного анализа в методе k-средних для четырех переменных

48

Данные таблицы дисперсионного анализа для четырех переменных (табл. 2.6) свидетельствует о том, что все переменные хорошо разделены на два кластера при минимальном уровне значимости р = 0,001. График средних для двух кластеров и четырех переменных (рис. 2.10) подтверждает вывод, сделанный по дисперсионному анализу.

Рис. 2.10. График средних для двух кластеров и четырех переменных

Таким образом, по результатам кластерного анализа методом k-средних можно сделать общий вывод, что для переменных в рассматриваемом примере наилучшая кластеризация достигается при двух кластерах и четырёх переменных (X, Y, ZK, m).

49

3.КАНОНИЧЕСКИЙ АНАЛИЗ

3.1.Общие сведения и предположения

Поиск статистических связей между переменными ранее был рассмотрен в главе 5 и является тривиальной задачей математической и прикладной статистики. Например, установить степень тесноты связи между содержанием двух компонентов – KCl и MgCl2 – в пробах можно с помощью коэффициента парной корреляции Пирсона. В некоторых исследованиях переменные могут быть текстовыми, например тип полезного компонента у той или иной пробы или наличие зоны замещения промышленного пласта сильвинита на каменную соль. Связь таких переменных, представленных рангами, способны оценить коэффициенты корреляции Спирмэна и Кендалла [33, гл. 5]. Если нужно выявить зависимость между функцией Y и набором нескольких аргументов X1......XP, то в качестве меры степени тесноты связи используется множественный коэффициент корреляции R.

Практика современных горно-геологических исследований нередко ставит задачу количественной оценки совместных взаимосвязей горно-геологических процессов в различных участках шахтного поля. Например, требуется оценить наличие связи между химическим составом компонентов и пространственным положением проб на месторождении калийных солей. Химический состав может включать содержание хлорида калия, нерастворимого остатка, хлорида магния. Пространственное положение пробы определяется координатами X, Y, Z, глубиной залегания пласта, его мощностью. В первом приближении можно использовать результаты вычисления простых парных коэффициентов корреляции между параметрами. Однако такой путь позволит выявить лишь локальные связи, но не даст возможности обобщить их целостную картину.

50

Соседние файлы в папке книги