Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

быть преобразованы (к примеру, для целей линеаризации1 аргументов). Когда возникает проблема выбора из исходных данных наиболее существенных и влиятельных показателей, такое решение способен осуществить факторный анализ [35; 41; 47; 79]. Он обеспечит снижение размерности и позволит упрощенно объяснить многомерные наборы данных.

3. Методы классификации и директивного разделения данных. В процессе решения широкого круга исследовательских или инженерных задач возникает необходимость разделения объектов по каким-либо признакам. Такая процедура, в процессе которой производится разделение совокупности объектов на однородные группы, именуется классификацией.

В этих целях широко применяются методы многомерной классификации, которые дают возможность расчленить изучаемые объекты на гомогенные континуумы2. Схожими будут считаться объекты, похожие по каким-либо априори выбранным признакам, например, территориально близкие объекты. Для решения этих задач классификации используется как кластерный, так и дискриминантный виды анализа [1; 40; 44].

Если в задачах имеется значительный объём объектов, каждый из которых сопровождается большим количеством переменных, то кластерный анализ имеет возможность разделить на отдельные группы объекты множества на основании исследований об их совместном сходстве (или различии). В процессе разделения в каждой группе будут содержаться объекты, в большей степени похожие друг на друга, чем на объекты из дру-

1 Линеаризация (от лат. linearis – «линейный») – один из методов приближённого представления замкнутых нелинейных систем, при котором исследование нелинейной системы заменяется анализом линейной системы, в некотором смысле эквивалентной исходной.

2 Гомогенные континуумы (от др.-греч. ὁμός – «равный, одинаковый» + γένω «рождать») – однородная система, химический состав и физические свойства которой во всех частях одинаковы или меняются непрерывно (между частями системы нет поверхностей раздела).

11

гих групп. Но на практике используются и другие, не статистические, технологии разделения совокупности объектов. Ранее было отмечено, что для городских и промышленных территорий в геологических исследованиях используется районирование на карте.

Рассмотрим пример с подземными скважинами, пробуренными на участке шахтного поля одного из рудников ВКМКС (рис. 1.1). В центре разбуренного участка с запада на восток расположена не занятая скважинами полоса площади. Эта свободная полоса может служить границей отделения северной части объектов от южной группы. Такое визуальное разделение объектов мы произвели по их пространственному размещению. Поскольку скважины нанесены на плане по координатам X и Y, можно утверждать, что настоящая классификация выполнена по этим координатам.

Вприведённом примере квалификационный признак просматривается явно и разделение объектов можно произвести без статистических методов. Все скважины, у которых координата Х

меньше граничного значения ХГ, составляют южную группу, остальные находятся в северной группе.

Вряде других случаев также может быть указан признак разделения. Например, в таблице горных выработок имеется идентификатор выработки – очистная или подготовительная, в таблицах городских цифровых планов код здания – огнестойкое или не огнестойкое. В этом случае можно отнести объекты одного кода к одной выборке, а с другим кодом – ко второй выборке.

Врассмотренных примерах разделение объектов производится на основе одного требования – только по координатам или только по коду. Такое разделение удобнее производить запросами. Классический пример – инструментарий запросов или выборок системы управления базами данных (СУБД). И те, и другие могут быть простыми или сложными (составными). Но в любом случае пользователь априори должен знать границы запроса.

12

Рис. 1.1. Разделение скважин на северную

июжную группы

Вэтих примерах решается задача разделения объектов, разнесения их по переменной (или нескольким переменным) в рамках имеющихся границ, а не их классификация. Такое разбиение представляет собою не статистическое, а директивное разделение данных на основе априори заданных искусственных границ.

4. Кластерный анализ и группирование. На практике часто возникает необходимость многоуровневой классификации. Например, в городе выделены земельные участки разной площади,

укаждого имеются свои параметры: удалённость от центра, от образовательных учреждений, от парков, театров и стадионов. Участки имеют различную транспортную доступность, часть из них находятся вблизи от коммуникаций. Каким образом можно разделить эти участки? Очевидно, много переменных в классификации потребует детальной (многоуровневой) классификации, при этом ни одна из переменных не относит (не определяет) однозначно принадлежность объекта к тому или иному классу.

Во всех приведённых примерах происходит разделение объектов, причём количество переменных в первом примере две (координаты Х и Y), во втором примере их много больше. Количество групп, на которые мы должны выполнить разделение

13

(в статистке группы именуются кластерами), нам априори неизвестно и может лишь предполагаться. Именно такая процедура в исследованиях считается статистической классификацией. Приведённый пример представляет собою первый вариант классификации объектов, с которым успешно справляется технология кластерного анализа.

Технологии кластерного анализа предполагают выявление изолированных скоплений элементов выборки и их объединение. Основная задача анализа – выполнение естественного разбиения на классы, независимо от субъективизма человека, при этом выделенные группы объектов должны быть однородны.

В процессе группирования «сходных между собой при резком отличии этих групп друг от друга, мы хотим разбить элементы на группы независимо от того, естественны ли границы разбиения или нет» [35]. Основная цель по-прежнему «заключается в выявлении групп однотипных объектов, схожих между собой (как в кластерном анализе), однако «соседние» группы могут не иметь резких различий (в отличие от кластерного анализа). Границы между множествами достаточно условны и не являются естественными, они зависят от мнения исследователя» [44; 48; 56]. Например, по изолиниям мощностей промышленного пласта выделяем группы (участки) некондиционных запасов. Такие запасы можно выделять и по изолиниям содержаний.

При использовании кластерного анализа и группирования изучаемых данных геопространства могут использоваться одни и те же механизмы обработки, но они решают принципиально разные задачи. По этой причине в практической деятельности сначала требуется установить возможность проведения кластерного анализа или группировки. Если данные однородны и не разбиваются на резко разделяющиеся между собой кластеры, добавление геопространственной составляющей в исследуемые массивы может способствовать успешному решению задач кластеризации и группировки.

5. Дискриминантный анализ. Добавим в примере с земельными участками в качестве переменной их рыночную стои-

14

мость. В этом случае появляется возможность разделить на кластеры исходное множество объектов по их рыночной стоимости. По мнению экономистов, стоимость учитывает, как преимущества одних признаков, так и недостатки других факторов. Причём в каждом исходном множестве можно вычислить стоимость участка как функцию от других известных параметров. Тогда стоимость станет тем интегральным признаком, который и позволит разделить объекты. Аналогичная интегральная функция в теории классификации именуется дискриминантной, даже если

всоставе переменных нет экономических параметров.

Вэтом примере на основе имеющегося материала составляется дискриминантная функция (аналога множественного уравнения регрессии). Вычисляя коэффициенты дискриминантной функции, мы как бы обучаем функцию и далее будем использовать её для классифицирования новых данных. Поэтому дискриминантный анализ также называют классификацией с обучением, или системой распознавания образов, а кластерный

анализ – классификацией без обучения.

Когда мы получили в примере с городскими участками дискриминантные функции, стоимость любого нового участка можно определить, подставляя его характеристики в дискриминантное уравнение.

В дискриминантном анализе разложение на множества предполагается априори заданным, например, обучающими выборками. Задача заключается в том, чтобы каждый новый объект отнести в одну из этих групп [46].

Таким образом, прикладная статистика в теории классификации выделяет по меньшей мере три группы алгоритмов: дискриминация (дискриминантный анализ), кластеризация (кластерный анализ) и группировка.

Представленная классификация не является полной, а некоторые методы могут использоваться в нескольких пунктах сразу для решения разных задач.

6. Анализ временных рядов и случайных процессов. В ряде отраслей объект производства рассредоточен в пространстве. В геодезии это может быть участок земной поверхности, в гео-

15

логии и для горнодобывающих подразделений это недра, в географии и климатологии – территории материков. Если точки измерений имеют определённую последовательность расположения в пространстве, например, репера по профильной линии, обычный аппарат статистической обработки случайной величины не может раскрыть закономерности изменения признака в пространстве. Для решения таких задач в математике существует специальный класс случайных функций. Когда аргументом случайных функций служит время (могут быть расстояния или чередования периодов в любой другой системе координат), их называют временными рядами [10; 70]. А если аргументами случайных функций являются координаты геопространства, их именуют случайными полями.

7. Искусственные нейронные сети. В последние десятиле-

тия прошлого века в научных кругах быстро формировалась новая прикладная область математики, в основе которой лежала теория нейронных сетей. Перспективность исследований в этом направлении подтверждается успешными примерами их использования в различных отраслях. Наиболее активно нейронные сети используются в распознавании образов, классификации, прогнозировании, адаптивном управлении, аппроксимации функционалов, участии в работе экспертных систем и в других приложениях. Перечисленные методы статистических исследований будут более эффективны при использовании имеющихся на рынке пакетов прикладных статистических программ.

16

2.КЛАСТЕРНЫЙ АНАЛИЗ

2.1.Введение в кластерный анализ

Геопространственные объекты характеризуются множеством признаков, выраженных в разных единицах измерения. На рудниках это результаты обработки химических анализов полезных и вредных веществ по пробам с известными координатами. Выделенные площади замещений полезного ископаемого пустой породой и др. При исследовании таких объектов возникает проблема их объединения по сходству имеющихся признаков. Для решения таких задач применяются методы кластерного анализа. Его используют в решении задач классификации объектов. Кластерный анализ часто используют с факторным анализом, который даёт возможность обнаружить связи между объектами, по этой причине оба метода используют совместно. При этом они дополняют друг друга и между ними не всегда можно провести разделительные границы. Методические возможности кластерного анализа сводятся к выявлению общей меры, охватывающей совокупность исследуемых признаков. Эти признаки группируются с использованием некоторой метрики (расстояния) в один кластер при сходстве объединяемых объектов.

Широкое внедрение геоинформационных систем и технологий (ГИС) на предприятиях и в научно-исследовательских организациях позволяет решить задачи классификации и районирования достаточно быстро и наглядно.

По отношению объектов классификации к земной поверхности или недрам можно выделить три типа пространственных данных:

1)в первом типе результаты группирования не подлежат пространственному анализу и не наносятся на план или карту;

2)второй тип данных предполагает картографирование анализируемого материала, но пространственный аспект на этапе реализации математических алгоритмов не учитывается;

17

3) данные третьего типа не допускают реализацию математических расчетов без учета многомерного положения объектов группирования.

Специалисты, работающие с планами и картами, часто объединяют графические объекты визуально на основе геометрического представления. Например, на рис. 2.1, а показаны пункты тахеометрической съёмки. Они распределены по площади неравномерно и сгруппированы в три зоны. Причём эти зоны даже визуально можно корректно отделить друг от друга. На рис. 2.1, б пункты расположены равномернее и чёткие границы для группирования объектов на основе визуального анализа провести невозможно.

Рис. 2.1. Примеры объединения точечных объектов: а – неравномерное расположение пунктов; б – более равномерное расположение пунктов

Рассортировать анализируемую совокупность данных на группы похожих, близко стоящих друг от друга объектов и является основной задачей кластерного анализа. Группы, сформированные в результате выполнения этой процедуры, именуются таксонами, или кластерами. Таким образом, кластерный анализ –

это один из методов объединения объектов на основе сходства

18

значений переменных. Такими переменными-признаками могут служить не только пространственные координаты, но и любые другие характеристики. Например, для выделения зон с высокой концентрацией вредных веществ, помимо пространственных составляющих, потребуются и параметры содержания вредных веществ в атмосфере, водоёме или грунтах. Аналогичный анализ можно провести и в горнодобывающей отрасли, например, выделять зоны, опасные по газодинамическим явлениям на площади промышленных пластов. А специалисты предметной области должны по результатам классификации предоставить содержательную интерпретацию.

Фактически кластерный анализ представляет собой совокупность множества различных алгоритмов объединения объектов. Мерилом для суждения о схожести или различиях кластеров является дистанция между центрами объектов на карте. На практике используют несколько вариантов определения дистанции между кластерами (или меру близости), они рассмотрены в работах [35; 73; 80]. Самый простой пример определения близости двух (или более) групп – измерять расстояние между их центроидами на карте или плане. Или вычислить евклидово расстояние между парой точек i и j на плоскости, если известны их координаты x и y:

 

 

.

 

Dij

xi xj 2 yi y j 2

(2.1)

Именно так, путём сравнения расстояния между объектами, и производится визуальное группирование объектов специалистом на бумажной карте или плане. Человек может распознать и выделить визуально не только двумерные, но и трёхмерные объекты. На рис. 2.2 показаны зоны на карте с пунктами триангуляции, имеющими отметки выше 80 м. Аналогичное решение даёт трёхмерное изображение, представленное на рис. 2.3.

19

Если анализируемые данные имеют четыре и более измерения, то визуально их уже невозможно выделить и сгруппировать. Также трудно выделять объекты на карте при их равномерном распределении, как показано на рис. 2.1, б. Поэтому геометрические представления объектов, используемые в картографии и некоторых других отраслях, нельзя признать идеальными для классификации.

Важным условием достоверности результатов, полученных в кластерном анализе, является «ортогональность» входных данных, они не должны иметь высоких значений корреляции между собой.

Следующей проблемой при проведении кластерного анализа является несоизмеримость и разномасштабность анализируемых показателей. Для решения этих проблем чаще всего исходные данные пересчитываются в отклонениях от среднего, отнесённые к дисперсии, но иногда применяются и другие преобразования.

Следует отметить, что при нормировании не меняется информация относительно взаимозависимости между переменными вариационного ряда. Просто происходит перевод абсолютных значений в относительные показатели.

Вместе с тем в процессе выполнения кластеризации можно получить несколько различных результатов, поскольку решение этой задачи неоднозначно принципиально. Считается, что не существует единого, дающего лучшие результаты критерия качества кластеризации [40]. В ряде случаев применяются эвристические выражения и некоторые алгоритмы, которые не всегда осмысленны, а используемые критерии отбора нерациональны. Вместе с тем они выдают по факту построения разумную кластеризацию. Поскольку они могут дать различные результаты, только компетентный эксперт предметной области сможет оценить осмысленность процесса выделения кластеров.

Количество кластеров априори неизвестно и устанавливается в соответствии с какими-либо установленными субъектив-

20

Соседние файлы в папке книги