Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

ского, и отвергается в противном случае. Расcчитанный уровень значимости выводится в табл. 5.3 и 5.4.

При достаточно большом числе наблюдений между коэффициентами корреляции рангов Спирмэна и коэффициентом корреляции рангов Кендалла существует следующее соотношение: rS 32 .

Таблица 5.4 Результаты расчёта корреляции Спирмэна

В нашем примере с малой выборкой (n = 7): rs 0,5238 32 0,7857, корреляция Кендала τ = 0,5238 – приве-

дена в табл. 5.3. Рассчитанная по приведенному выражению, корреляция Спирмэна больше вычисленной по программе. Увеличение корреляции обусловлено малой длиной выборки.

5.3. Парный регрессионный анализ

5.3.1. Общие сведения

Регрессионный анализ ‒ один из основных методов статистического анализа, который используется для исследования связей между свойствами исследуемого показателя и факторами окружающей среды на основе как единовременных, так и динамических наблюдений [51; 65]. Регрессионная модель строится для описания взаимосвязи отдельного изучаемого свойства

161

с воздействующим на него фактором. В таком типе анализа влияющий фактор – аргумент – принимается независимой переменной, или предиктором, а результат – зависимой переменной, или функцией (переменной отклика) [51]. Задача регрессионного анализа – установить наличие взаимосвязи между зависимой и независимой переменными, построить уравнение регрессии (зависимости) и доказать его состоятельность.

Процессы, происходящие в недрах, сложны и зачастую имеют нелинейный характер. Любое уравнение регрессии, построенное в классе линейных или нелинейных функций, дает приближенное описание процесса. Поэтому требуется специальная процедура доказательства значимости и достоверности (адекватности) построенной модели. От решения задачи оценки значимости и адекватности зависит и степень доверия к результатам, полученным по уравнению регрессии.

На первом этапе проверяется степень статистической связи между аргументами и функцией регрессионной модели. Если такая связь полностью отсутствует, то аргументы никак не влияют на функцию (не объясняют функцию) и уравнение оказывается бесполезным. Для простой линейной регрессии это означает, что в уравнении y = b0 + b1x коэффициент b1 = 0 и линия регрессии будет параллельна оси x (рис. 5.7, б). Такая модель для любых значений независимой переменной x всегда будет выдавать одну и ту же оценку зависимой переменной y, равную

еесреднему значению, вычисленную по всем наблюдениям. Очевидно, что такая модель будет бесполезной. С таким же успехом для оценки зависимой переменной можно использовать

еесреднее значение.

Если коэффициент b1 отличен от нуля, то линия регрессии имеет наклон (или подъём), что указывает на зависимость функции от аргумента, а сама линия аппроксимирует эту зависимость (рис. 5.7, г). В этом случае модель будет иметь некоторую статистическую значимость. Для оценки уровня значимости регрессионной модели (особенно для множественной регрессии)

162

используется коэффициент детерминации, коэффициент корреляции, статистика Фишера, остаточная сумма квадратов. Для множественной регрессии необходимо оценить значимость не только всего уравнения, но и каждого коэффициента регрессии, обычно она выполняется по статистике Стъюдента. Даже если в результате анализа уравнения получены статистики, подтверждающие значимость уравнения, из этого ещё не следует, что модель хорошо согласуется с результатами наблюдений, т.е. адекватна им.

Под адекватностью модели простой линейной регрессии подразумевается, что никакая другая модель не даст значимого улучшения в предсказании Y. Другими словами, полученная модель адекватна, если предсказанные по ней значения переменной Y согласуются с результатами наблюдений.

Главным путем проверки адекватности уравнения исследуемому объекту выступает практика. Оценку адекватности проводят на основе анализа остатков. Если они подчиняются нормальному закону распределения, не имеют нелинейности в распределении и автокорреляции, то модель считается адекватной.

Кроме того, при оценке адекватности проверяют: 1) полноту отражения моделью свойств реального объекта; 2) правильность используемых логических и математических соотношений (функций); 3) соответствие модели исходной информации; 4) корректность принятых при моделировании допущений

иограничений; 5) корректность выдвинутых гипотез и предположений и т.д.

При необходимости в данные вносятся соответствующие коррективы и параметры модели пересчитывают.

Выполняя корреляционно-регрессионный анализ, необходимо учитывать следующие особенности:

Корреляционно-регрессионный анализ базируется на некоторых предварительно оговоренных статистических условиях

игипотезах. Поэтому требуется специальная процедура доказательства их выполнения, а также проверка значимости и досто-

163

верности (адекватности) построенной модели. От результатов проверки гипотез, решения задач оценки значимости и адекватности зависит и степень доверия к результатам, полученным по уравнению регрессии.

Статистика всегда дает ответ в понятиях вероятности. Она укажет, что вероятность p статистической значимости такаято (например, 95 %) или, что то же самое, уровень значимости

α= 0,05 [51]. Например, в матрице парных коэффициентов корреляций (табл. 5.7) корреляция между содержанием полезного компонента KCl пласта АБ и координатой Х составляет r = 0,30 с уровнем значимости 0,015. Это означает, что в (1000 – 15) = 885 случаях из 1000 изменение одной переменной повлияет на другую переменную, т.е. корреляция будет высоко значима. Ответ всегда долженподтверждатьсявероятностьюнаступлениясобытия.

Результаты полученного статистического анализа справедливы только для той области исходных данных, на которой он был получен. Если использовать полученные выводы анализа для другой области данных, то они будут ненадежными, а может быть, и неверными. Вопросы прогнозирования изучаемого признака по выведенным уравнениям регрессии на новые участки требуют осторожного подхода. Для этой цели лучше использовать другие методы (например, МГУА, нейронные сети и др.).

5.3.2. Проверка степени статистической связи

Проведём проверку степени статистической связи переменных в программе Statistica на примере данных опробования участка сильвинитового пласта АБ в зоне замещения сильвинита карналлитом на одном из рудников ВКМКС. По одной из выработок отобрано 30 проб. Химический состав пород в пробах представлен в прил. Д.

После ввода этих данных в таблицу программы Statistica выберем в меню «Анализ» → «Основные статистики таблицы» →

164

«Парные и частные корреляции». В появившемся окне кнопкой «Квадратная матрица» (рис. 5.4) выберем переменные для анализа – содержание хлорида калия в руде (KCl) и содержание хлорида магния в руде (MgCl2).

Рис. 5.4. Задание параметров вычисления матрицы корреляций

В закладке «Опции» можно задать функцию «отображать р-уровень и N», а в специальном окне – уровень значимости α (рис. 5.4). Уровень значимости – это максимально приемлемая для исследователя вероятность ошибочно отклонить нулевую гипотезу, когда на самом деле она верна, т.е. допускаемая вероятность ошибки первого рода. Величина уровня значимости устанавливается исследователем произвольно, в технических науках она обычно принимается равной 0,05 либо 0,1. Если α принимает значения от 0,05 до 0,1, то результат считается статистически значимым, если α меньше либо равна 0,01, то результат считается статистически высоко значимым. В строке «Отображать р-уро- вень и N» под р-уровнем понимается уровень значимости, вычисленный для каждой пары переменных.

165

Если в закладке «Парные» активировать кнопку «Матрица парных корреляций», то в отчёт будет выведена таблица парных коэффициентов корреляций (табл. 5.5), в которой на пересечении столбцов и строк распечатаны по две величины. Первая – коэффициент парной корреляции r, ниже – его уровень значимости. Красным цветом отмечаются те значения, которые имеют значимость, не превышающую заданную (в примере α = 0,05, печатается в шапке таблицы).

Таблица 5.5

Матрица парных корреляций

Анализ матрицы парных коэффициентов корреляций (табл. 5.5) показывает наличие средней по степени тесноты линейной связи между содержанием хлорида калия в руде (KCl) и содержанием хлорида магния в руде (MgCl2).

В некоторых примерах будем использовать несколько переменных, загрузим их из таблицы (прил. Б) и выведем матрицу парных коэффициентов корреляций (табл. 5.6).

Всего в таблице 65 наблюдений, введены следующие переменные:

X и Y – координаты скважины или пробы;

ZKROW – высотная отметка кровли пласта АБ в месте отбора пробы;

М – мощность пласта сильвинита;

no – величина нерастворимого остатка, %;

KCl, MgCl2, NaCl, CaSO4 – химический состав проб, %.

166

Таблица 5.6

Корреляционная матрица к примеру (из прил. Б)

Анализ корреляционной матрицы показывает следующее. Высотная отметка кровли пласта сильно связана с местоположением пробы в пространстве (очень высокая корреляция от координат X и в меньшей степени от Y). Мощность пласта подвержена аналогичному влиянию геопространства. Хлористый калий в слабой степени зависит от геопространственной составляющей и нерастворимого остатка. Никакие другие анализируемые факторы на него больше не оказывают влияния. Заметна

корреляция между последними тремя компонентами матрицы. Анализ коэффициентов корреляций этой матрицы даёт нам

степень тесноты линейной зависимости и достижимый уровень значимости по каждой паре переменных. К примеру, корреляция переменных M и KCl слабая, составляет всего r = 0,24 при достижимом уровне значимости α = 0,06. Если принят критический уровень α = 0,05, то корреляция статистически незначима.

167

Вместе с тем в процессе вычисления линейного уравнения регрессии требуется проверить, а на самом ли деле зависимости линейны. Ответ на этот вопрос может дать график рассеивания признаков.

График показывает рассеивание исходных точек вокруг прямой регрессии (рис. 5.6). Когда переменных много, можно воспользоваться матричными графиками (рис. 5.5).

Рис. 5.5. Матричные графики

Переменные с высокой корреляцией представлены на графике почти линейным распределением точек (пара переменных ZKROW и X). Пробы на графике в осях KCl и NaCL расположены почти по прямой линии, но имеются три точки, лежащие в стороне, скорее всего это выбросы. На этих графиках можно заметить наличие и других грубых значений (по NaCl) и нелинейностей (координата Х и высотная отметка кровли плата).

168

Матричные графики позволяют получить предварительное представление о зависимости между парами случайных величин Х и У. Характер распределения точек может указать на вид взаимосвязи двух переменных. По отдельным парам переменных впоследствии можно построить и парные графики рассеивания, например, представленные на рис. 5.6.

а

б

Рис. 5.6. Графики положения проб в осях NaCl – KCl: а – пробы 1, 2, 44 – выбросы; на графике б они удалены

169

Видно, что после удаления грубых проб точки группируются почти по линии регрессии. В практической работе возможны различные варианты расположения точек на диаграмме рассеяния, некоторые из них приведены на рис. 5.7. По ним можно судить о виде и степени взаимосвязи между переменными.

Рассмотрим подробней возможные варианты полей рассеивания случайных величин (рис. 5.7):

а) Точки рассеиваются почти в окружности, для такого варианта линейная связь между признаками отсутствует (рис. 5.7, а). Если в качестве примера рассмотреть график в осях NaCl – KCl (см. рис. 5.6, а) и убрать из него некорректные точки переменных (пробы 1, 2, 44 – выбросы), то диаграмма рассеяния примет вид облака рассеяния в виде эллипса с небольшим сжатием (см. рис. 5.7, в), т.е. будет наблюдаться линейная зависимость между переменными. Это подтверждается высоким коэффициентом парной зависимости (r = 0,84) и близкой к нулю величиной уровня значимости α= 0,00, что многократно превышает установленное ранеезначениеα=0,05.

б) В данном варианте по облаку рассеивания можно сказать, что линейная связь между переменными отсутствует, поскольку изменение одной переменной не ведёт к изменению значения второй переменной.

Рис. 5.7. Поле рассеивания случайных величин Х и Y

170

Соседние файлы в папке книги