Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

Можно определить и другие метрики, но большинство из них являются частными формами специального класса метрических функций расстояния, известных как метрики Минковского [12; 80]. Существуют расстояния, не являющиеся метриками Минковского, из которых чаще используется расстояние Махаланобиса (D2).

Пусть x1, x2, ... xk – случайная выборка, имеющая многомерное нормальное распределение N (µ, S). Тогда выборочное среднее и ковариационная матрица имеют соответственно вид:

x

1

k

xi ,

S

1

 

k

xi x xi x .

k

k 1

 

i 1

 

 

i 1

 

Расстояние от вектора x = x1, x2, ... xk до множества со средним значением µ = µ1, µ2, ..., µN и матрицей ковариации S определяется как:

D2 xi x T S 1 xi x .

Расстояние Махаланобиса (или «обобщенное квадратное расстояние между точками» для его значения в квадрате) также можно определить, как меру различия между двумя случайными векторами:

d x, y x y T S 1 x y ,

где S – общая внутригрупповая дисперсионно-ковариационная матрица; x и y – векторы значений переменных.

В отличие от метрик Минковского и евклидовой эта метрика связана с корреляциями переменных.

Если данные являются категориальными, в качестве метрики используется процент несогласия. Это расстояние вычисляется по формуле

dij = (Количество xi yi) / i.

31

Известно, что коэффициент корреляции отражает характер и тесноту взаимного влияния двух случайных величин. Кластерный анализ в качестве метрики также может использовать величину, равную (1 – r), где r – коэффициент корреляции. Значение коэффициента корреляции изменяется от – 1 до + 1, причем нуль указывает на то, что между объектами нет линейной связи. Чем ближе величина корреляции к единице (по модулю), тем сильнее влияние одной переменной на другую. В метрике чаще используется не само значение корреляции, а остаток (1 – r), эта величина необъяснённой части дисперсии, она и положена в основу расчёта метрики. Главный недостаток коэффициента корреляции как меры сходства в том, что он чувствителен к форме за счет снижения чувствительности к величине различий между переменными. Кроме того, метрика, вычисленная как разность (1 – r), не имеет статистического смысла [15].

Невзирая на отмеченные недостатки, коэффициент корреляции (и её остаток от единицы) широко используется в программах кластерного анализа, поскольку корректное применение этой меры в кластеризации в ряде случаев превосходит некоторые другие метрики и позволяет уменьшить число неверных классификаций.

2.4. Методы кластерного анализа

Кластерный анализ использует два класса методов:

иерархические;

неиерархические.

В свою очередь, любой из этих методов включает несколько разнообразных подходов и алгоритмов. Используя их в разных вариантах, специалист может добиться разных результатов решений для одних и тех же данных. Многообразие решений считается нормальным явлением.

32

2.4.1.Иерархические алгоритмы

2.4.1.1.Сущность иерархических методов кластеризации

Методика иерархической кластеризации предлагает использовать два варианта решений. В первом из них выполняется последовательное объединение меньших групп в значительные кластеры, а второй предусматривает разделение больших совокупностей на меньшие группы. Для этих целей применяются иерархические агломеративные методы (Agglomerative Nesting, AGNES) и иерархические дивизимные (делимые) методы

(Divisive Analysis, DIANA) кластеризации [1; 40; 69].

Первая группа методов априори предполагает, что все объекты являются отдельными группами, которые впоследствии будут объединяться. На первом шаге пара наиболее похожих по какому-то принципу объектов (например, близких по расстоянию) объединяются в кластер. На последующих шагах объединение продолжается до тех пор, пока все объекты не будут составлять один кластер [11; 80].

Иерархические дивизимные (делимые) методы. Эти мето-

ды являются полной противоположностью агломеративным методам. В начале работы алгоритма все объекты принадлежат одному кластеру, который на последующих шагах делится на кластеры меньшего размера. В результате образуется последовательность расщепляющих групп, такие методы в настоящей работе не рассматриваются.

Иерархические методы кластеризации используют различные правила построения кластеров. В качестве правил выступают критерии, которые используются при решении вопроса о «схожести» объектов при их объединении в группу (агломеративные методы). Иерархические методы кластерного анализа используются при небольших объемах наборов данных [40; 80].

Рассмотренные методы кластеризации весьма наглядны. В процессе выполнения алгоритма в этих методах строится график, именуемый дендрограммой (от греческого dendron – «дерево»), которые наглядно отображают результаты формирования кластеров. Дендрограмма показывает близость отдельных

33

объектов и кластеров (или переменных) на каждом шаге. В графическом виде можно проследить и последовательность объединения кластеров.

2.4.1.2. Расстояния между кластерами

На первом шаге каждый объект представляет собой отдельный кластер, расстояния между объектами определяются априори выбранным методом. Однако, когда связываются вместе несколько кластеров, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения, или связи, для двух кластеров [40].

В рассмотренном примере со скважинами мы объединяли два объекта в двух кластерах, находящихся ближе друг к другу. Другими словами, мы использовали правило ближайшего соседа для определения расстояния между кластерами; этот метод называется методом одиночной связи. На дендрограмме этот метод строит волокнистые кластеры, т.е. кластеры, сцепленные вместе только отдельными элементами, случайно оказавшимися ближе остальных друг к другу. Существуют и другие методы объединения кластеров, и модуль «Кластерный анализ» предлагает их широкий выбор [73; 80].

1. Расстояние «ближайшего соседа» (одиночная связь).

Расстояние равно расстоянию между ближайшими объектами классов:

ρmin (Ki, Kj) = xi Kmini , xij K j xi , xj .

В начале объединяются пара объектов, которые имеют между собой максимальную величину сходства, они образуют кластер. В последующем к ним присоединяется ещё один объект с максимальной мерой сходства с одним из объектов кластера. Подобным образом процедура объединения продолжается дальше. Для включения нового объекта в кластер требуется его максимальное сходство лишь с одним членом кластера. Отсюда и появилось название метода одиночной связи: нужна только одна связь, чтобы присоединить объект к кластеру. Такая про-

34

стая процедура этого метода приводит к образованию слишком больших «продолговатых» кластеров [40; 46], что является недостатком метода.

2. Расстояние «дальнего соседа» (полная связь). В этом методе расстояние вычисляется как дистанция между самыми дальними объектами классов:

ρmax (Ki, Kj) = max, xi , xj .

xi Ki xij K j

Этот метод позволяет устранить указанный для одиночной связи недостаток. Расчётная мера сходства между объектом – кандидатом на включение в кластер и всеми членами кластера не может быть меньше некоторого порогового значения.

3.Невзвешенное попарное среднее. Эта процедура предпо-

лагает, что расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные группы, однако он работает одинаково хорошо и в случаях протяженных (цепочного типа) кластеров.

4.Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (т.е. число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован, когда предполагаются неравные размеры класте-

ров [73].

5.Невзвешенный центроидный метод. В этом методе рас-

стояние между двумя кластерами определяется как расстояние между их центрами тяжести. Кластеризация осуществляется поэтапно: на каждом шаге объединяют два кластера, расстояние между которыми минимально.

6.Взвешенный центроидный метод (медиана). Этот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (т.е. числами объектов в них). Поэтому, если имеются

35

(или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.

7. Метод Варда (Уорда). В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть не что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов (SS). Этот метод направлен на объединение близко расположенных кластеров. Замечено, что метод Уорда приводит к образованию кластеров примерно равных размеров и имеющих форму гиперсфер. Этот метод широко применяется в социальных науках.

Однозначного ответа на вопрос, какое правило иерархического объединения выбрать, тоже не существует. Ответ зависит от типа данных и природы решаемой задачи.

2.4.1.3.Выбор числа кластеров

Вряде задач вопрос об оптимальном количестве кластеров не стоит. Например, если кластерный анализ используется для исследования влияния измеренных параметров нового процесса на его эффективность. В этом случае кластерный анализ нам может дать понимание, как можно интерпретировать объединённые в кластеры параметры и проследить всю цепочку их объединения. Для решения других задач классификации важным вопросом является проблема выявления необходимого числа кластеров. В некоторых методах кластеризации число кластеров (m) можно выбирать априори. Вместе с тем проблема определения оптимального числа кластеров при иерархических процедурах кластерного анализа является нерешенной. В общем случае это число определяется в процессе разбиения множества на кластеры. В литературе описаны некоторые подходы к ее решению [73]. Один из них предполагает, что число кластеров должно быть принято для достижения вероятности α того, что найдено наилучшее разбиение. Таким образом, оптимальное

36

число разбиений является функцией заданной доли β наилучших или в некотором смысле допустимых разбиений во множестве всех возможных. Общее рассеяние будет тем больше, чем выше доля β допустимых разбиений.

Чаще используют второй способ определения наилучшего числа кластеров. Он сводится к выявлению скачков, определяемых фазовым переходом от сильно связанного к слабо связанному состоянию объектов [40].

Рассмотрим пример определения оптимального количества кластеров при иерархической кластеризации данных в про-

грамме Statistica.

На участке месторождения калийных полезных ископаемых пробурено 12 скважин. Их расположение показано слева на рис. 2.4, а справа приведена таблица координат скважин по нормированным данным.

Для реализации любого метода кластерного анализа необходимо ввести понятие «сходство объектов». Причем в процессе классификации в каждый кластер должны попадать объекты, имеющие наибольшее сходство друг с другом с точки зрения наблюдаемых переменных. Для количественной оценки сходства в кластерном анализе вводится понятие метрики. Каждый объект описывается m-признаками и представлен как точка в m- мерном пространстве. Сходство или различие между классифицируемыми объектами устанавливается в зависимости от метрического расстояния между ними.

В качестве меры различия выбирается расстояние между объектами в p-мерном пространстве признаков. В расчётах используется несколько алгоритмов, которые были рассмотрены нами выше. В нашем примере используем евклидово расстояние [12] между объектами i и j (формула (2.1)).

На первом шаге кластерного анализа путем перебора всех пар объектов определяются пары наиболее близких. Рассчитаны расстояния объединения, как кратчайшее расстояние между

37

скважинами. Пары с наименьшим расстоянием объединяются в первичные кластеры.

Для рассматриваемого примера в табл. 2.1 приведена матрица величин вычисленных евклидовых расстояний объединения. Из анализа таблицы видно, что самое короткое расстояние находится между скважинами 8 и 9 – 0,358 единиц. Следующее из самых коротких расстояний – между скважинами 5 и 6 – 0,406.

Рис. 2.4. План расположения скважин и нормированные координаты

Далее на каждом шаге к каждому первичному кластеру присоединяется объект (кластер), который к нему ближе. Этот процесс повторяется до тех пор, пока все объекты не будут объединены в один кластер. Наглядно механизм объединения скважин в кластеры можно наблюдать в табл. 2.2, а также на рис. 2.5. Такой график именуется дендрограммой.

Дендрограмму можно расположить горизонтально или вертикально. На вертикальной дендрограмме номера объектов следуют по горизонтальной оси. По вертикальной оси отмечены расстояния (в условных единицах), на которых происходит объединение объектов в кластеры.

38

Таблица 2.1 Матрица евклидовых расстояний между скважинами

Рис. 2.5. Дендрограмма – график объединения скважин

Таблица 2.2

Расстояния объединения

39

Анализируя дендрограмму на рис. 2.5, можно определить последовательность объединения скважин в кластеры: на первых шагах происходит образование кластера (8, 9), далее (5, 6), (4, 5, 6) и (8, 9, 11) – расстояния между этими объектами больше, чем между теми, которые были объединены на предыдущих шагах. Следующий кластер составлен из пары скважин – (1, 2). Далее к нему добавляются последовательно скважины 7, 4 и на следующем этапе пара кластеров (1, 2, 7) и (4, 5, 6) объединяются в один.

Для примера рассчитаем евклидово расстояние для пары скважин 5 и 6:

E= sqrt {(x6 – х5)2 + (y6 – у5)2} =

=sqrt {(– 0,65 + 1,04)2 + (– 1,35 + 1,21)2} = 0,406.

Это расстояние совпадает с расчётным в табл. 2.1 и 2.2. Указанная пара скважин объединяется в группу (кластер).

Следующей самой близкой к объединённой группе является скважина 4. Она присоединяется к полученному кластеру. Причём в кластере выбирается объект, который находится ближе всех к присоединяемой скважине. В нашем случае это скважина 5, именно она расположена ближе к скважине 4, именно между ними рассчитывается расстояние.

Таким образом образуется n количество кластеров. Для определения расстояния, соответствующего оптимальному числу кластеров, воспользуемся графиком «каменистой осыпи» (рис. 2.6). На графике проведена черта на уровне расстояния объединения 0,666. По этой величине и можно установить оптимальное количество кластеров на дендрограмме.

На дендрограмме порог для наглядности можно отметить горизонтальной линией. На рис. 2.6 она проведена для расстояния объединения 0,666. При повышении этого расстояния линия поднимается вверх, в результате связывается вместе всё большее и большее число объектов и объединяется все больше и больше кластеров, при этом все сильнее различаются элементы.

40

Соседние файлы в папке книги