Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

Стандартный метод предполагает, что все выбранные переменные будут одновременно включены в модель (уравнение). Возможны и другие, пошаговые, варианты включения переменных в анализ по аналогии с множественной регрессией. В результате реализации метода появится диалоговое окно «Резуль-

таты дискриминантного анализа» (Discriminant Function Analysis Results) (рис. 4.9).

Возможно, появится сообщение о низком значении толерантности. Это означает, что какая-то из выбранных переменных является избыточной и в значительной степени коррелирована с другими переменными. Например, мощность пласта есть разница высотных отметок его кровли и почвы.

Рис. 4.9. Общие результаты дискриминантного анализа

4.8.3. Результаты дискриминантного анализа

Верхняя информационная часть окна выдаёт обобщающую информацию:

а) использован стандартный анализ (если пошаговый, то будет указан номер шага);

б) в модель включено 10 переменных; в) значение статистики Уилкса, равное 0,323, свидетельст-

вует в целом о хорошей дискриминации.

Значения статистики лямбда ( ) лежат в интервале [0–1], при этом значения статистики Уилкса, лежащие около нуля, свидетельствуют о хорошей дискриминации. Иными словами, это можно выразить следующим образом: если значения лямбды Уилкса близки к нулю, то мощность дискриминации (мощ-

101

ность = 1 – вероятность ошибки) близка к единице, если лямбда Уилкса близка к единице, то мощность близка к нулю. Расчётная величина критерия Фишера высокая, об этом свидетельствует достигаемая величина уровня значимости, равная 0,000, что много меньше выбранного 0,05. Но все ли переменные, участвующие в анализе, вносят одинаковый вклад в дискриминантную функцию?

Общие итоги пошагового анализа можно увидеть на вкладке «Быстрый» «Переменные в модели» (табл. 4.2).

Таблица 4.2

Итоги вычисления дискриминантных функций по каждой переменной для оценки влияния каждой переменной на разделение данных

Из таблицы видно, что не все переменные значимы в дискриминантной функции. Уровень достигаемой значимости (p-level) показан для отдельных переменных в пятой колонке.

При табличном Fкрит = 3,86 значительно превышают это значение компоненты НО и MgCl2. Ближе всего по критерию Фишера к критическому приближается CaSO4. Эти переменные оставим, а остальные убираем из рассмотрения. Геопространственная составляющая в этом анализе не играет существенной

102

роли, о чём свидетельствует запредельный низкий уровень значимости этих переменных.

После пересчёта получены следующие результаты

(рис. 4.10).

Несущественно ухудшилось значение статистики «Лямбда Уилкса». За счёт уменьшения количества переменных фактическое значение F увеличилось в три раза. Но оставленный компонент CaSO4 даже уменьшил свою значимость, и его из анализа убираем. После пересчёта получаем новые результаты, которые предварительно свидетельствуют о хорошей дискриминации

(рис. 4.11).

Рис. 4.10. Общие статистики дискриминантного анализа после первого удаления незначимых признаков.

Значимость переменных

Рис. 4.11. Общие статистики дискриминантного анализа

Обращает на себя внимание высокий уровень F-критерия, что свидетельствует о малых значениях внутригрупповой вариации и большой для межгрупповой. Значение статистики «Лямбда Уилкса», равное 0,326, свидетельствует в целом о допустимой дискриминации.

103

Во вкладке «Классификация» находится самая интересная для нас информация (рис. 4.12).

Рис. 4.12. Функции окна «Классификация»

Вкладка «Функции классификации» (табл. 4.3) позволяет вывести коэффициенты линейных дискриминантных функций.

Таблица 4.3 Коэффициенты дискриминантных функций

Эти функции можно записать в следующем виде:

W = – 1,97919 · NO + 0,45469 · MgCl2 1,12712;

N = 3,17281 · HO – 0,72453 · MgCl2 2,61079.

Результаты расчётов ЛДФ можно использовать для классификации объектов. Отнесение объекта к определенной группе выполняется по максимальному значению ЛДФ после их расчета по набору переменных для каждой группы. Введём формулы ЛДФ в 23-ю и 24-ю колонки основной таблицы и рассчитаем их

104

значения (табл. 4.4). Для 241-й строки W = – 0,388 > N = – 4,534,

следовательно, наблюдение относим к группе W. Удобнее в новой колонке 25 найти разность (W – N). Положительные значения разностей свидетельствуют об отнесении объекта к группе W (выбросоопасный), а отрицательные относят объект в группу N (невыбросоопасный). Одно наблюдение, под номером 244, имеет положительное значение разности, но во входных данных оно отнесено к группе невыбросоопасных. Это ошибочное наблюдение будет подтверждаться и другими статистиками (табл. 4.4).

Таблица 4.4

Расчёты по формулам ЛДФ

Для проверки корректности обучающих выборок и общих сведений о расчётах можно открыть закладку «Матрица классификации» (табл. 4.5).

Таблица 4.5

Матрица классификации

105

Вшапке таблицы выведена вероятность классификации. Пользователь выбирает сам из возможных вариантов. В примере стоит опция «Пропорционально размерам групп». Всего 524 наблюдения, из них 323 отнесены к опасным по ГДЯ. Тогда вероятность этой группы р = 323 / 524 = 0,61641. Вторая группа включает 201 наблюдение, её вероятность р2 = 201 / 524 = 0,38359.

Вряде случаев можно задавать одинаковую вероятность для групп или задавать пользовательскую.

Вматрице в первой строке второго столбца показан процент зафиксированных ГДЯ (под буквой «W»), он равен 100. Все 323 встреченные на руднике ГДЯ корректно опознаны. В колонку «N», куда были бы отнесены эти ГДЯ в случае ошибочной их классификации, не попало ни одного наблюдения (см. табл. 4.5).

Вторая строка, в которую отнесены отобранные пробы, не

встретившие газодинамических проявлений, имеет всего 201 наблюдение, из которых одно ошибочно отнесено как встретившее ГДЯ. Эта категория наблюдений корректно классифицирована на 99,5 %. В последней строке матрицы показано общее число наблюдений: 524 = 324 + 200, из которых 99,8 % классифицированы корректно.

Кнопкой «Классификация наблюдений» (см. рис. 4.12) можно вывести результаты и посмотреть некорректные классификации. Они помечаются звёздочкой (табл. 4.6).

Таблица 4.6

Классификация наблюдений

106

Для каждой группы множества можно определить положение точки, представляющей средние для всех переменных в многомерном пространстве, определенном переменными рассматриваемой модели. Эти точки называются центроидами группы. Для каждого наблюдения вычисляется расстояние Махаланобиса от каждого центроида группы. Кнопкой «Квадрат расстояния Махаланобиса» (см. рис. 4.12) можно вывести эту статистику в каждой группе и сравнить их. Так, для 243-й строки в первой группе величина статистики составляет 1,1139, а для второй группы расстояние увеличено до 13,6720 (табл. 4.7, а). Чем короче расстояние в одной из двух групп, тем выше вероятность отнесения наблюдения в эту группу. В строке 244 меньшее расстояние составляет 0,8253, и оно программой отнесено в категорию, опасную по ГДЯ. Но в исходных данных отмечено, что в этой пробе нет газодинамических проявления. Именно в этой строке и зафиксирована ошибка.

Помимо расстояния Махаланобиса, результаты классификации удобно интерпретировать с использованием вкладки «Апостериорные вероятности» (табл. 4.7, б). Апостериорная вероятность показывает вычисленную по расстоянию Махаланобиса вероятную принадлежность конкретного наблюдения к како- му-либо классу. Апостериорная вероятность показывает возможность отнесения наблюдения к какой-либо группе на основе новых экспериментальных данных, и этим она отличается от априорной.

В программу Statistica включены несколько способов задания априорной вероятности: пропорционально размерам групп, одинаковые для всех групп и заданные пользователем.

При выборе того или иного метода следует учесть, что априорные вероятности могут существенно повлиять на точность классификации. Если неодинаковое число наблюдений в различных группах является отражением истинного распределения в совокупности, то следует задать априорные вероятности пропорциональными объемам групп. Если же это только случайный результат процедуры отбора, то положить априорные вероятности одинаковыми для каждой группы.

107

Таблица 4.7

Метрика Махаланобиса и вычисленные (апостериорные) вероятности

а

б

Апостериорные вероятности определяются для новых данных, исходя из априорных вероятностей и расстояний Махаланобиса. Их практическое назначение состоит в том, чтобы отнести наблюдение к конкретной группе, для которой они имеют максимальное значение. Действительно, чем дальше наблюдение расположено от центра группы, тем менее вероятно, что наблюдение принадлежит ей. Значение апостериорной вероятности, равное единице, говорит о том, что наблюдение с вероятностью 100 % принадлежит этому классу.

На практике объект классификации следует отнести к тому классу, апостериорная вероятность для которого наибольшая. Для строки 244 больше вероятность у класса W, но в ис-

108

ходных данных объект отнесён к классу N, что подтверждает ошибку входных данных.

Целью применения дискриминантного анализа в изложенном примере является проведение классификации по двум заранее известным группам. Как только модель установлена и получены дискриминирующие функции, возникает вопрос о том, как хорошо они могут предсказывать, к какой совокупности принадлежит конкретное наблюдение. И расстояние Махаланобиса позволяет указать, к какой совокупности данных рассматриваемый случай (наблюдение) находится ближе.

В дискриминантном анализе используется априорная и апостериорная классификация. В рассматриваемом примере мы оцениваем на основании некоторого множества априори измеренных данных дискриминантную функцию, наилучшим образом разделяющую совокупности, на два класса – есть газодинамическое явление или оно отсутствует. Можно ли затем использовать те же самые результаты для оценивания новых данных? Классификация действует лучшим образом для той выборки, по которой была проведена оценка дискриминирующей функции (апостериорная классификация), чем для свежей выборки (априорная классификация). Трудности с априорной классификацией будущих образцов заключается в том, что никто не знает, что может случиться. Намного легче классифицировать уже имеющиеся образцы. Поэтому оценивание качества процедуры классификации никогда не производят по той же самой выборке, по которой было оценена дискриминирующая функция. Если желают использовать процедуру для классификации будущих образцов, то ее следует «испытать» (произвести кросс-проверку) на новых объектах. При появлении новых наблюдений дискриминантный анализ необходимо корректировать (перестраивать).

Вкладка «Дополнительно» (рис. 4.13) имеет инструменты для выполнения глубокого анализа.

109

Канонический анализ аналогичен методу главных компонент и служит для выявления связей между двумя и более множествами переменных. Если нажать кнопку «Коэффициенты для канонических переменных», появятся две таблицы с коэффициентами дискриминантных (канонических) функций, что показано в табл. 4.8, в левой части которой даны исходные (нестандартизованные) коэффициенты дискриминантных функций. Эти коэффициенты могут быть использованы для вычисления значений канонических переменных для каждого наблюдения каждой дискриминантной функции.

Рис. 4.13. Дополнительные инструменты анализа

В правой части табл. 4.8 приведены стандартизованные коэффициенты дискриминантных функций. Эти коэффициенты, основанные на стандартизованных переменных, принадлежат к одной и той же шкале измерений (абсолютной), поэтому их можно сравнивать, чтобы определить величины и направления вкладов переменных в каждую каноническую функцию. Из таблицы видно, что наибольший вклад в дискриминантные функции вносят переменные НО и MgCl2. Результаты почти одина-

110

Соседние файлы в папке книги