Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

Для пластовых залежей мощность меняется незначительно, если представить её постоянной (mAB = const), тогда высотная отметка кровли есть линейная функция отметки почвы пласта.

Нpod_AB = Нkrow_AB С, где C – константа.

Этим и объясняется высокий коэффициент корреляции

между переменными Нkrow_AB и Нpod_AB.

Вычисления параметров регрессии производятся в матричной форме. При наличии функциональной зависимости хотя бы между двумя переменными (векторами) в матрице будет наблюдаться коллинеарность9. В процессе расчётов параметров уравнения регрессии определитель матрицы (или собственные числа информационной матрицы) будет близок к нулю. Для множественной регрессии это явление именуется мультиколлинеарностью, оно приводит к падению точности оценок, искажению результатов оценок, неустойчивости расчётов и в итоге к неверным выводам. Чтобы избавиться от мультиколлинеарности, можно из двух взаимозависимых переменных убрать одну.

Во-вторых, не все аргументы в уравнении множественной регрессии одинаково важны, некоторые из них могут быть лишними. Предварительно на этот вопрос можно получить ответ, анализируя матрицу парных коэффициентов корреляции. Если между функцией и какой-либо переменной слабая связь, влияние этой переменной на функцию будет незначительно. В разделе 5 показан метод отбора аргументов с использованием критерия Стьюдента при заданном уровне значимости α и со степенями свободы = (n – m – 1). Во множественной регрессии его использование позволяет отсеять статистически незначимые факторы.

9 Коллинеа́рность – отношение параллельности векторов: два ненулевых вектора называются коллинеарными, если они лежат на параллельных прямых или на одной прямой. Если возникает коллинеарность, это признак наличия линейной связи между двумя переменными, что вызывает проблемы с оценкой параметров в регрессии.

201

В-третьих, в уравнение могут входить аргументы, отличающиеся по числу значащих цифр. Это уже было заметно в ранее приведенных примерах. Переменными служили и координаты (десятки тысяч метров) и содержание нерастворимого остатка 0,15 %. Очевидно, что результаты регрессионных моделей не должны зависеть от единиц измерения этих величин. Желательно, чтобы алгоритмы обработки трактовали эти значения единообразно, все входные и выходная переменные должны быть приведены к единому масштабу. Когда используются нормированные переменные, их значения обычно лежат в диапазоне от 0 до ± 1. Такую обработку (стандартизацию в программе Statistica) полезно провести еще до этапа вычислений регрессии.

6.2. Пошаговая или гребневая регрессия

При вычислении параметров уравнения множественной регрессии с небольшим количеством аргументов можно использовать метод всех регрессий, который использовался и в парной регрессии. Чем больше рассчитанное значение статистики tрасч, тем больший вклад переменная несёт в уравнении регрессии. Если аргументов в уравнении много, то на этом принципе можно организовать отбор переменных в уравнение регрессии в пошаговой регрессии методом исключений (Backward stepwise). Принцип вычислений заключается в выполнении следующих этапов:

1.Выполняется регрессионный анализ для всех аргументов. Для каждого аргумента вычисляется статистика Fm = (tm)2, где tm – статистика Стьюдента. Аргументы выстраиваются (ранжируются) по уменьшению статистики Fm.

2.Задаётся критическое значение Fкрит, с которым сравнивается статистика F0 = Fi. Если минимальное значение F0 < Fкрит, то i-я переменная из анализа исключается и на её место становится следующая по рангу (по величине статистики Fm).

202

Проверка по пункту 2 выполняется с новой переменной до

тех пор, пока F0 Fкрит.

Аналогичный метод (Forward stepwise) – метод включений. Процедура включений организована (по смыслу) в обратном порядке метода выключений.

6.3. Пример выполнения задания в пакете Statistica методом всех регрессий

1. Для примера загрузим исходную таблицу данных, содержащую по участку значения переменных, взятых по пробам и рудничным скважинам ВКМКС. Таблица содержит поля: номер пробы, отметка кровли пласта Н_АБ, координаты Х, Y, мощность и содержание компонентов в пробах (рис. 6.1). Найдём зависимость Zkrow от остальных геопространственных переменных. В анализ не включаем грубые наблюдения и наблюдения с незаполненными полями. В разделе 5 приведены примеры отбора грубых наблюдений.

Таблица 6.1

Матрица парных корреляций

Анализ матрицы парных коэффициентов корреляции показывает наличие тесной связи между координатой Х и высот-

ной отметкой кровли пласта Zkrow (r = 0,93), а также Zkrow и мощности пласта. Корреляция высотной отметки с остальными ар-

гументами также существенная.

203

2. Вычисляем оценки уравнения регрессии. В меню «Анализ» → «Множественная регрессия» нажмём на кнопку «Переменные» и выберем в левом столбце зависимую переменную, а в правом – независимые.

Рис. 6.1. Выбор переменных для множественной регрессии

Исключим из анализа поля с незаполненными значениями, они равны нулю. Для этого в окне «Множественная регрессия» выберем закладку «Дополнительно» и в открывшемся ок-

не (рис. 6.2) выберем кнопку («Select Cases У»).

Рис. 6.2. Ввод дополнительных параметров

204

Поскольку в матрице парных коэффициентов корреляций имеются высокие корреляции, вычисления будем производить с повышенной точностью, для чего поставим галочку в соответствующей строке рис. 6.2.

Зададим условия исключения значений рассматриваемых переменных, равных нулю из анализа (рис. 6.3). Аналогичные условия можно составить и для грубых значений.

Рис. 6.3. Задание условий выбора значений

Результаты вычислений приводятся в окне на рис. 6.4. Представим результаты вычисленных статистик в виде

таблицы, для этого в окне «Результаты множественной регрессии» откроем закладку «Быстрый» и нажмём кнопку «Итоговая таблица регрессии» (табл. 6.2).

205

Рис. 6.4. Оценки уравнения регрессии

Таблица 6.2

Итоги вычислений уравнения регрессии (метод всех регрессий)

206

Проверку значимости коэффициентов уравнения регрессии выполним с использованием t-статистики Стьюдента. Табличное (критическое) значение t-статистики при уровне значимости 0,05 и числе степеней свободы 61 для двусторонней критической области вычислим в вероятностном калькуляторе, tкрит 2.

Минимальное вычисленное значение критерия Стьюдента у координаты Y (tв = – 2,17), что больше (по модулю) табличного. Достигаемый уровень значимости составляет 0,033, что меньше принятого за критический уровень 0,05. Поэтому все аргументы уравнения значимы и удалить какой-либо из них без существенного ухудшения результатов нельзя. Обращает на себя внимание высокий коэффициент множественной корреляции R ≈ 0,95. Вычисленное значение статистики Фишера F равно примерно 181,54, что больше критического, определённого в

статистическом калькуляторе Fкрит (α = 0,05) ( = 3,61) ≈ 2,76. Коэффициент детерминации равен R2 ≈ 0,9 (рис. 6.5), т.е.

уравнение объясняет 89,9 % отклонений точек от функциональной зависимости, что, конечно, значительно.

6.4. Пошаговая регрессия

Воспользуемся другим способом для отбора только значимых переменных – методом включения. Для этого в окне задания параметров (рис. 6.2) поставим галочку в строке «Пошаговая или гребневая регрессия». Этот способ применяют как раз для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, что и наблюдается в нашем примере. Опция «Процедура» позволяет выбрать тип процедуры регрессионного анализа:

Стандартная. При выборе этой опции все переменные будут включены в уравнение регрессии одним блоком (т.е. на одном шаге итерации).

207

С включением. При выборе этой опции независимые переменные будут по отдельности включаться или исключаться из модели на каждом шаге регрессии (если выбрано «F – включить» или «F – исключить») до тех пор, пока не будет получена «наилучшая» регрессионная модель.

Пошаговая с исключением. При выборе этой опции аргументы будут исключаться из модели по одной на каждом шаге (если выбрано «F – включить» или «F – исключить») до тех пор, пока не будет получена «лучшая» регрессионная модель [10; 66].

Рассмотрим пример пошаговой регрессии с включением. Выберем «Пошаговая с включением» (рис. 6.5).

В качестве критерия для исключения можно использовать критическое значение статистики Fкрит. Её величину (включения / исключения) можно вычислить следующим образом. В табл. 6.2 видно, что минимальный вклад в регрессию вносит переменная Y. Для неё вычисленное значение коэффициента Стьюдента t =|–2,169 | (по модулю). Тогда F =t 2 = =2,169·2,169 = 4,705. С учётом округлений примем для включения сначала F = 4,704, а затем F = 4,706. При детализации параметров пошаговойрегрессиивокненарис.65,б)необходимотакжезадать величинутолерантности.

а

б

Рис. 6.5. а – выбор метода пошаговой регрессии и б – его детализация

208

Толерантность определяется как единица минус квадрат множественной корреляции переменной с другими независимыми переменными уравнения регрессии. Поэтому чем меньше толерантность переменной, тем в большей степени ее вклад в регрессию является избыточным (т.е. она является избыточной при заданных значениях других независимых переменных). Если толерантность каких-либо переменных в уравнении регрессии равна нулю (или очень близка к нулю), оценки не могут быть вычислены (так как получаемая матрица плохо обусловлена и не может быть обращена).

Опция позволяет задать минимальное значение толерантности. Минимальное допустимое значение этого параметра равно 1E – 25 (т.е. число с 24 нулями после десятичной точки). Однако не рекомендуется устанавливать этот параметр на такое экстремально малое значение. Если толерантность переменной на входе в регрессионное уравнение меньше установленного по умолчанию значения (0,0001), это означает, что такая переменная на 99,99 % является излишней для переменных, уже включенных в уравнение. Принудительное включение чрезвычайно избыточных переменных в регрессионное уравнение не только сомнительно с точки зрения уместности получаемых результатов, но и приводит к очень ненадежным оценкам [23].

Результаты расчётов с заданными параметрами пошаговой регрессии «с включением» представлены на рис. 6.6. Вариант расчёта с вводом критического значения статистики Fкрит = 4,704 (см. рис. 6.6, б) показал результаты, аналогичные данным, приведённым в табл. 6.2 (метод всех регрессий). Т.е. вклад независимых переменных X, Y, M на изменение зависимой переменной Zkrow в рассматриваемом уравнении множественной регрессии является значимым.

Дальнейшая методика анализа уравнения множественной регрессии выполняется аналогично изложенному материалу для парной регрессии.

209

а

б

Рис. 6.6. Пошаговая регрессия с включением. Ввод параметров включения: а F = 4,706; б F = 4,704

Гребневая10 регрессия используется в случаях, когда независимые переменные очень сильно коррелируют друг с другом. Коэффициенты регрессии перед неизвестными, вычисленные с использованием обычного метода наименьших квадратов, будут неустойчивыми. Если используем гребневую регрессию, то она даёт более устойчивые (хотя и смещенные) результаты вычислений, но искусственно занижает коэффициенты корреляции.

10 Гребневая регрессия в некоторых источниках именуется ридж регрессией.

210

Соседние файлы в папке книги