Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

4.ДИСКРИМИНАНТНЫЙ АНАЛИЗ

4.1.Введение в дискриминантный анализ

Ккомпонентам многомерной статистики относится и совокупность методов, которые обобщённо именуются дискриминантным анализом. Специалистам этот инструмент даёт шанс изучать различия между двумя и более группами объектов по нескольким переменным, которые имеются в его расположении.

В предыдущих разделах рассмотрен похожий инструмент статистики – «Кластерный анализ». Его мы использовали для группирования элементов в однородные множества (кластеры). Эти однородности формируются с использованием критериев сходства признаков (факторов или наблюдений), которые используются в вычислительных процедурах в качестве параметров кластерного анализа. Как правило, число получаемых в процессе выполнения анализа групп заранее неизвестно. Нет ни результативного признака, ни зависимой переменной. Такой анализ часто используется для классификации изучаемого объекта после того, как его параметры уже собраны в процессе исследования.

Дискриминантный анализ действует несколько иначе. Например, у геолога имеется ряд проб по сильвинитовому пласту, по каждой пробе имеются значения компонентов, каждая проба по составу отнесена к сильвиниту, карналлиту или каменной соли. Зная состав проб каждой группы объектов, найти такие комбинации признаков, по которым можно сказать, к какой группировке объект относится, с достаточно высокой вероятностью. Таким образом, методы анализа, рассматриваемые в этом разделе, применяются для принятия решения о следующем: какие переменные можно использовать с целью разделения множества наблюдений (или дискриминации) на несколько однородных подмножеств. В дискриминантном анализе используется некоторая «зависимая» переменная, известные значения которой

81

определяют наше мнение об ожидаемом количестве групп дискриминации.

Значения классифицирующей переменной могут быть измерены или определены на основании компетентного суждения экспертов. Группировка может производиться и на основе фиксации некоторого параметра, например, фиксируются участки пласта с повышением фактических потерь полезного ископаемого относительно проектного значения. В последующем строятся классификационные модели, линейные по аргументам. Они и дают возможность «предсказать» поведение новых элементов по значениям зависимой переменной, вычисленным с использованием исходных переменных.

Дискриминантный анализ основан на применении нескольких статистических приёмов и методов. Среди этого множества можно выделить методы интерпретации межгрупповых

различий (или дискриминации) и способы классификации на-

блюдений по группам. Но чтобы иметь возможность представить объективные суждения по результатам исследований, нужно выбрать такой состав переменных, который позволит отличить одну группу от другой лучше, чем любая другая их совокупность. В ходе дискриминации отсеиваются незначимые и отбираются наиболее информативные переменные.

Используемые приёмы для классификации предполагают получение нескольких пар канонических переменных, которые предоставляют возможность отнести тот или иной объект к одному из подмножеств. Эта часть анализа рассмотрена в предыдущем разделе.

Наиболее наглядно процедуру дискриминантного анализа можно представить для случая двух классов. На рис. 4.1 представлено разделение бороздовых проб на две категории с помощью одной дискриминантной функции. Для разделения на три категории нужны две дискриминантные функции (рис. 4.2), на четыре категории – три и т.д.

В n-мерном пространстве речь идет о поиске линейных аддитивных моделей, которые представляют собой алгебраическую сумму факторов и имеют вид

82

y a1 x1 a2 x2 a3 x3 ... an xn ,

где x1xn – дискриминантные переменные; а0аn – веса дискриминантных переменных; n – число переменных.

Можно сформировать несколько задач дискриминантного анализа, которые могут использоваться для решения проблем в горной промышленности.

Задачи первого типа. Геологи по некоторому участку пласта АБ сильвинитового состава собрали информацию в виде проб. По химическому составу проб можно будет отнести участок пласта к одному из двух (или трёх) типов по полезному ископаемому – участок пласта представлен сильвинитом, карналлитом или каменной солью. На этом участке основной состав пласта может быть замещён, например, сильвинит может замещаться карналлитом или каменной солью. На основе информации о составе проб предполагается сформировать функцию, которая позволит поставить в соответствие пробам на новых участках характерные для них действия – например, списать запасы замещения как не подтвердившиеся или списать эти запасы при ведении горных работ как промышленные. Построение такой функции и составляет первую задачу дискриминации.

Впроцессе решения задач второго типа выполняется прогнозирование будущих событий на основании имеющихся наблюдений. Они возникают при необходимости предсказания событий по их истории. Например, прогноз выбросов газа в горные выработки на основании обработки проб в местах фактических зарегистрированных очагов выбросов.

Внекоторых случаях дискриминантный анализ используется для поиска ответа в решении проблем ещё одного (третьего) типа. Он относится к ситуации, когда признаки отнесения объекта к той или иной группе потеряны и их нужно восстановить. Например, определить причины аварийной ситуации – связан ли выброс руды в горные выработки с газодинамическими явлениями (ГДЯ) в конкретной ситуации с использованием результатов прогноза ГДЯ или нет [65].

83

Рис. 4.1. Разделение проб с использованием дискриминантной функции в двухмерном пространстве

Рис. 4.2. Разделение проб с использованием дискриминантной функции в трёхмерном пространстве

4.2.Статистические решающие функции

Взадачах классификации применяется аппарат статистических решающих функций. В ходе вычислений генерируются несколько гипотез, каждая из которых соотносится со своим

84

распределением вероятностей для наблюдений. В процессе анализа пользователю необходимо принять одну из этих гипотез и отвергнуть остальные. А если исследуемая область переменных состоит только из двух генеральных совокупностей, в этом случае решение вопроса сводится к задаче проверки одной гипотезы, соответствующей определенному распределению вероятностей.

В ходе выполнения процедуры классификации стараются достигнуть того, чтобы в среднем неверные выводы делались по возможности реже. В алгоритмах используется байесовская процедура классификации, основанная на теореме Байеса с допущением о независимости признаков. Классификация объектов производится с помощью функции расстояния (см. рис. 4.1). Чаще всего используется группирование объектов в пространстве Махаланобиса, которое является пространством многомерного нормального распределения. В этом случае мы получаем расстояния между группировками. Можно получить и вероятности нуль-гипотезы – утверждения, что группировки неразличимы (истинное расстояние равно нулю, а наблюдаемое является следствием неполноты выборки).

4.3. Определение числа и состава дискриминирующих функций. Классификация объектов с помощью функции расстояния

Для разделения наблюдаемых переменных на несколько отличающихся групп формируется специальная функция, которая подбирается в виде линейной комбинации входных аргументов:

dkm 0 1x1km ... p xpkm ,

m 1, ...,

n , k 1, ..., g ,

где dkm − значение дискриминантной функции для m-го объекта в группе k; xikm – значение дискриминантной переменной для m-го объекта в группе k; i – неизвестные коэффициенты.

Эта функция и именуется канонической дискриминантной функцией (КДФ).

85

Дискриминантные уравнения могут быть представлены в виде некоторой поверхности в p-мерном пространстве. В простом случае, когда p = 2, как на рис. 4.2, она будет представлена прямой, а при p = 3 – плоскостью.

Процедура расчёта коэффициентов i первой КДФ на-

правлена на то, чтобы центры формируемых групп располагались по возможности дальше друг от друга. Требования к комплектованию исходными данными второй группы и вычислению коэффициентов i аналогичные, но при этом налагается

дополнительное условие – значения второй функции не должны быть коррелированы со значениями первой. С учётом этих требований определяются неизвестные и других функций.

Исходя из изложенного, любая каноническая дискриминантная функция d должна иметь нулевую внутригрупповую

корреляцию с d1,...,dg 1 . Число канонических дискриминантных

функций будет на единицу меньше числа групп. В практике выполнения дискриминантного анализа (ДА) принято использовать не одну, а две или даже три дискриминантных функции.

Процедура вычисления канонической дискриминантной функции требует использования некоторого показателя, фиксирующего отсутствие сходства групп. Скорее всего, классификация переменных в группы будет тем успешнее, чем меньше отклонение точек относительно центроида внутри группы, как на рис. 4.2, и чем дальше находятся центроиды групп друг от друга. Таким условиям отвечает отношение межгрупповой дисперсии к внутригрупповой, которое должно стремиться к максимуму:

WB dd ,

где B – межгрупповая матрица рассеяния наблюдаемых переменных от общих средних; W – внутригрупповая матрица рассеяния наблюдаемых переменных от групповых средних. Иногда в выражении вместо W используют матрицу рассеяния T объединенных данных.

86

4.4. Этапы дискриминантного анализа

Методология выполнения дискриминантного анализа предполагает два обособленных этапа. Вместе с тем каждый из этапов может использоваться самостоятельно.

Первый этап – устанавливаются мера и степень различия между существующими множествами (группами) наблюдаемых объектов. Этот этап производится на основе интерпретации межгрупповых различий, именно он и называется дискриминацией. В процессе выполнения этого этапа, используя данный набор переменных, требуется доказать возможность отделения одной группы наблюдений от другой, установить, насколько качественно переменные группы способствуют выполнению дискриминации и какие из них наиболее информативны.

Второй этап – выполнение классификации новых объектов, отнесение каждого объекта к одному из существующих множеств.

Дискриминантная функция (ДФ) представляет собой ли-

нейную комбинацию независимых переменных, с помощью которой можно наилучшим образом отнести (различить, дискриминировать) зависимую переменную к одному или другому типу. Функция представляет собою уравнение.

В этом примере на основе имеющегося материала, вычисляя коэффициенты дискриминантной функции (аналога множественного уравнения регрессии), мы как бы обучаем функцию. Поэтому дискриминантный анализ ещё называют классифика-

цией с обучением, а кластерный – классификацией без обучения.

4.5.Постановка задачи классификации

вдискриминантном анализе

Пусть имеется множество наблюдения (n), каждая из которых характеризуется несколькими признаками (переменными): xi,j – значения j-й переменной i-го объекта i = 1, n, j = 1, p. Предположим, что все множество объектов разбито на несколько подмножеств – классов (два и более). Из каждого подмноже-

87

ства взята выборка объемом nk, где k – номер подмножества

(класса) k = 1, 2, ..., q.

Переменные, которые используются для того, чтобы отличать одно подмножество от другого, называются дискрими-

нантными переменными.

При выборе дискриминантных переменных желательно соблюдать следующие условия:

1.Число объектов наблюдения должно превышать число дискриминантных переменных как минимум на два, т.е. р < N. Теоретически число дискриминантных переменных неограниченно, но на практике их выбор должен осуществляться на основании логического анализа исходной информации.

2.Дискриминантные переменные должны быть линейно независимыми.

3.Каждая из дискриминантных переменных внутри каждого из рассматриваемых классов должна быть подчинена нормальному закону распределения.

4.Соблюдение одинаковой дисперсии признаков в группах.

5.Различие в средних в группах.

В принципе данными условиями можно пренебречь. Однако следует понимать, чем меньше соблюдаются условия – тем меньше будет процент верной классификации.

4.6. Дискриминантные функции

Рассмотрим случай для двух дискриминантных переменных. На рис. 4.3 показаны две группы скважин с плана горных работ, которые предстоит классифицировать. В качестве переменных используем координаты X и Y объектов. В плоскости координат каждая группа скважин локализована в своё подмножество А и В.

Проекция подмножеств скважин А и В на ось X образует единое множество. И в проекции на ось Y также объединены скважины двух подмножеств. На каждую из осей объекты множеств проецируются с некоторым перекрытием, о чём свидетельствует перекрытие гистограмм по осям.

88

На рис. 4.3 проведена линия (в виде функции D0), которая разделяет два множества данных. При лучшем разделении группы формируются как можно дальше друг от друга по разные стороны от этой прямой и на одинаковом расстоянии.

Такие принципы разделения исходных данных должны быть учтены при определении коэффициентов этой функции:

D0 = L1 ·X1 + L2 ·X2 или f(X) = a1·X1 + a2 · X2.

(4.1)

Функция f (X ) называется канонической дискриминантной

функцией, а величины X1 и X2 дискриминантными переменными

(здесь координаты плоскости X и Y обозначены как X1 и X2).

Рис. 4.3. Пример дискриминации двух групп скважин по переменным X и Y

По рис. 4.3 можно предположить, что существует некоторая линия, перпендикулярная функции D0, проекция на которую дает более разнесённое изображение гистограмм, как это показано на рисунке. В этом случае можно подобрать новую систему координат с осями Xn, Yn, в которой проекции групп объектов на

89

какую-либо ось (в примере на ось Xn) образуют неперекрывающиеся области (для данного примера) и максимально разделены (рис. 4.4). Новые оси дают нам новые интегральные признаки, которые являются линейной комбинацией исходных призна-

ков – дискриминантной функцией.

Рис. 4.4. Гистограмма распределения двух пересекающихся множеств в проекции на ось Y

На рис. 4.4 показана гистограмма распределения двух пересекающихся множеств в проекции на ось Y. Вторая ось (ординат) представлена вероятностью (частотой) появления события p. На обобщённой гистограмме имеется две моды, что свидетельствует о смешивании по меньшей мере двух унимодальных случайных величин с различными центрами распределения. Точки каждого множества (см. рис. 4.4) группируются вокруг математического ожидания М1 и М2 – они и являются такими центрами. Но в точке М1 перпендикуляр, опущенный на ось абсцисс, пересекает две гистограммы. Причём большая часть перпендикуляра находится во множестве В, а меньшая – во множестве А. Следовательно, вероятность отнесения значений в точке М1 к множеству В больше, чем к множеству А. Границей двух распределений (классов) будет являться седловидная область, образованная при пересечении границ гистограмм. Её проекция на ось Y даёт точку d12 на рис. 4.4. Эта область графи-

90

Соседние файлы в папке книги