книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)
..pdfДля пластовых залежей мощность меняется незначительно, если представить её постоянной (mAB = const), тогда высотная отметка кровли есть линейная функция отметки почвы пласта.
Нpod_AB = Нkrow_AB – С, где C – константа.
Этим и объясняется высокий коэффициент корреляции
между переменными Нkrow_AB и Нpod_AB.
Вычисления параметров регрессии производятся в матричной форме. При наличии функциональной зависимости хотя бы между двумя переменными (векторами) в матрице будет наблюдаться коллинеарность9. В процессе расчётов параметров уравнения регрессии определитель матрицы (или собственные числа информационной матрицы) будет близок к нулю. Для множественной регрессии это явление именуется мультиколлинеарностью, оно приводит к падению точности оценок, искажению результатов оценок, неустойчивости расчётов и в итоге к неверным выводам. Чтобы избавиться от мультиколлинеарности, можно из двух взаимозависимых переменных убрать одну.
Во-вторых, не все аргументы в уравнении множественной регрессии одинаково важны, некоторые из них могут быть лишними. Предварительно на этот вопрос можно получить ответ, анализируя матрицу парных коэффициентов корреляции. Если между функцией и какой-либо переменной слабая связь, влияние этой переменной на функцию будет незначительно. В разделе 5 показан метод отбора аргументов с использованием критерия Стьюдента при заданном уровне значимости α и со степенями свободы = (n – m – 1). Во множественной регрессии его использование позволяет отсеять статистически незначимые факторы.
9 Коллинеа́рность – отношение параллельности векторов: два ненулевых вектора называются коллинеарными, если они лежат на параллельных прямых или на одной прямой. Если возникает коллинеарность, это признак наличия линейной связи между двумя переменными, что вызывает проблемы с оценкой параметров в регрессии.
201
В-третьих, в уравнение могут входить аргументы, отличающиеся по числу значащих цифр. Это уже было заметно в ранее приведенных примерах. Переменными служили и координаты (десятки тысяч метров) и содержание нерастворимого остатка 0,15 %. Очевидно, что результаты регрессионных моделей не должны зависеть от единиц измерения этих величин. Желательно, чтобы алгоритмы обработки трактовали эти значения единообразно, все входные и выходная переменные должны быть приведены к единому масштабу. Когда используются нормированные переменные, их значения обычно лежат в диапазоне от 0 до ± 1. Такую обработку (стандартизацию в программе Statistica) полезно провести еще до этапа вычислений регрессии.
6.2. Пошаговая или гребневая регрессия
При вычислении параметров уравнения множественной регрессии с небольшим количеством аргументов можно использовать метод всех регрессий, который использовался и в парной регрессии. Чем больше рассчитанное значение статистики tрасч, тем больший вклад переменная несёт в уравнении регрессии. Если аргументов в уравнении много, то на этом принципе можно организовать отбор переменных в уравнение регрессии в пошаговой регрессии методом исключений (Backward stepwise). Принцип вычислений заключается в выполнении следующих этапов:
1.Выполняется регрессионный анализ для всех аргументов. Для каждого аргумента вычисляется статистика Fm = (tm)2, где tm – статистика Стьюдента. Аргументы выстраиваются (ранжируются) по уменьшению статистики Fm.
2.Задаётся критическое значение Fкрит, с которым сравнивается статистика F0 = Fi. Если минимальное значение F0 < Fкрит, то i-я переменная из анализа исключается и на её место становится следующая по рангу (по величине статистики Fm).
202
Проверка по пункту 2 выполняется с новой переменной до
тех пор, пока F0 Fкрит.
Аналогичный метод (Forward stepwise) – метод включений. Процедура включений организована (по смыслу) в обратном порядке метода выключений.
6.3. Пример выполнения задания в пакете Statistica методом всех регрессий
1. Для примера загрузим исходную таблицу данных, содержащую по участку значения переменных, взятых по пробам и рудничным скважинам ВКМКС. Таблица содержит поля: номер пробы, отметка кровли пласта Н_АБ, координаты Х, Y, мощность и содержание компонентов в пробах (рис. 6.1). Найдём зависимость Zkrow от остальных геопространственных переменных. В анализ не включаем грубые наблюдения и наблюдения с незаполненными полями. В разделе 5 приведены примеры отбора грубых наблюдений.
Таблица 6.1
Матрица парных корреляций
Анализ матрицы парных коэффициентов корреляции показывает наличие тесной связи между координатой Х и высот-
ной отметкой кровли пласта Zkrow (r = 0,93), а также Zkrow и мощности пласта. Корреляция высотной отметки с остальными ар-
гументами также существенная.
203
2. Вычисляем оценки уравнения регрессии. В меню «Анализ» → «Множественная регрессия» нажмём на кнопку «Переменные» и выберем в левом столбце зависимую переменную, а в правом – независимые.
Рис. 6.1. Выбор переменных для множественной регрессии
Исключим из анализа поля с незаполненными значениями, они равны нулю. Для этого в окне «Множественная регрессия» выберем закладку «Дополнительно» и в открывшемся ок-
не (рис. 6.2) выберем кнопку («Select Cases У»).
Рис. 6.2. Ввод дополнительных параметров
204
Поскольку в матрице парных коэффициентов корреляций имеются высокие корреляции, вычисления будем производить с повышенной точностью, для чего поставим галочку в соответствующей строке рис. 6.2.
Зададим условия исключения значений рассматриваемых переменных, равных нулю из анализа (рис. 6.3). Аналогичные условия можно составить и для грубых значений.
Рис. 6.3. Задание условий выбора значений
Результаты вычислений приводятся в окне на рис. 6.4. Представим результаты вычисленных статистик в виде
таблицы, для этого в окне «Результаты множественной регрессии» откроем закладку «Быстрый» и нажмём кнопку «Итоговая таблица регрессии» (табл. 6.2).
205
Рис. 6.4. Оценки уравнения регрессии
Таблица 6.2
Итоги вычислений уравнения регрессии (метод всех регрессий)
206
Проверку значимости коэффициентов уравнения регрессии выполним с использованием t-статистики Стьюдента. Табличное (критическое) значение t-статистики при уровне значимости 0,05 и числе степеней свободы 61 для двусторонней критической области вычислим в вероятностном калькуляторе, tкрит ≈ 2.
Минимальное вычисленное значение критерия Стьюдента у координаты Y (tв = – 2,17), что больше (по модулю) табличного. Достигаемый уровень значимости составляет 0,033, что меньше принятого за критический уровень 0,05. Поэтому все аргументы уравнения значимы и удалить какой-либо из них без существенного ухудшения результатов нельзя. Обращает на себя внимание высокий коэффициент множественной корреляции R ≈ 0,95. Вычисленное значение статистики Фишера F равно примерно 181,54, что больше критического, определённого в
статистическом калькуляторе Fкрит (α = 0,05) ( = 3,61) ≈ 2,76. Коэффициент детерминации равен R2 ≈ 0,9 (рис. 6.5), т.е.
уравнение объясняет 89,9 % отклонений точек от функциональной зависимости, что, конечно, значительно.
6.4. Пошаговая регрессия
Воспользуемся другим способом для отбора только значимых переменных – методом включения. Для этого в окне задания параметров (рис. 6.2) поставим галочку в строке «Пошаговая или гребневая регрессия». Этот способ применяют как раз для борьбы с избыточностью данных, когда независимые переменные коррелируют друг с другом, что и наблюдается в нашем примере. Опция «Процедура» позволяет выбрать тип процедуры регрессионного анализа:
Стандартная. При выборе этой опции все переменные будут включены в уравнение регрессии одним блоком (т.е. на одном шаге итерации).
207
С включением. При выборе этой опции независимые переменные будут по отдельности включаться или исключаться из модели на каждом шаге регрессии (если выбрано «F – включить» или «F – исключить») до тех пор, пока не будет получена «наилучшая» регрессионная модель.
Пошаговая с исключением. При выборе этой опции аргументы будут исключаться из модели по одной на каждом шаге (если выбрано «F – включить» или «F – исключить») до тех пор, пока не будет получена «лучшая» регрессионная модель [10; 66].
Рассмотрим пример пошаговой регрессии с включением. Выберем «Пошаговая с включением» (рис. 6.5).
В качестве критерия для исключения можно использовать критическое значение статистики Fкрит. Её величину (включения / исключения) можно вычислить следующим образом. В табл. 6.2 видно, что минимальный вклад в регрессию вносит переменная Y. Для неё вычисленное значение коэффициента Стьюдента t =|–2,169 | (по модулю). Тогда F =t 2 = =2,169·2,169 = 4,705. С учётом округлений примем для включения сначала F = 4,704, а затем F = 4,706. При детализации параметров пошаговойрегрессиивокненарис.65,б)необходимотакжезадать величинутолерантности.
а |
б |
Рис. 6.5. а – выбор метода пошаговой регрессии и б – его детализация
208
Толерантность определяется как единица минус квадрат множественной корреляции переменной с другими независимыми переменными уравнения регрессии. Поэтому чем меньше толерантность переменной, тем в большей степени ее вклад в регрессию является избыточным (т.е. она является избыточной при заданных значениях других независимых переменных). Если толерантность каких-либо переменных в уравнении регрессии равна нулю (или очень близка к нулю), оценки не могут быть вычислены (так как получаемая матрица плохо обусловлена и не может быть обращена).
Опция позволяет задать минимальное значение толерантности. Минимальное допустимое значение этого параметра равно 1E – 25 (т.е. число с 24 нулями после десятичной точки). Однако не рекомендуется устанавливать этот параметр на такое экстремально малое значение. Если толерантность переменной на входе в регрессионное уравнение меньше установленного по умолчанию значения (0,0001), это означает, что такая переменная на 99,99 % является излишней для переменных, уже включенных в уравнение. Принудительное включение чрезвычайно избыточных переменных в регрессионное уравнение не только сомнительно с точки зрения уместности получаемых результатов, но и приводит к очень ненадежным оценкам [23].
Результаты расчётов с заданными параметрами пошаговой регрессии «с включением» представлены на рис. 6.6. Вариант расчёта с вводом критического значения статистики Fкрит = 4,704 (см. рис. 6.6, б) показал результаты, аналогичные данным, приведённым в табл. 6.2 (метод всех регрессий). Т.е. вклад независимых переменных X, Y, M на изменение зависимой переменной Zkrow в рассматриваемом уравнении множественной регрессии является значимым.
Дальнейшая методика анализа уравнения множественной регрессии выполняется аналогично изложенному материалу для парной регрессии.
209
а
б
Рис. 6.6. Пошаговая регрессия с включением. Ввод параметров включения: а – F = 4,706; б – F = 4,704
Гребневая10 регрессия используется в случаях, когда независимые переменные очень сильно коррелируют друг с другом. Коэффициенты регрессии перед неизвестными, вычисленные с использованием обычного метода наименьших квадратов, будут неустойчивыми. Если используем гребневую регрессию, то она даёт более устойчивые (хотя и смещенные) результаты вычислений, но искусственно занижает коэффициенты корреляции.
10 Гребневая регрессия в некоторых источниках именуется ридж регрессией.
210