Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Одномерная математическая статистика и регрессионный анализ)

..pdf
Скачиваний:
5
Добавлен:
12.11.2023
Размер:
8.85 Mб
Скачать

адекватности может быть проведена по графику распределения остатков. Остатки должны быть нормально распределены, со средним значением, равным нулю, и постоянной дисперсией, независимо от величин зависимой и независимой переменных. Модель должна быть адекватна на всех отрезках интервала изменения зависимой переменной.

О нормальности остатков можно судить по графику остатков на нормальной вероятностной бумаге. Чем ближе распределение к нормальному виду, тем лучше значения остатков ложатся на прямую линию (рис. 5.6, б).

5.7.2.2. Анализ остатков на нелинейность

Много информации об адекватности модели дают графики распределения функции от аргумента (рис. 5.14, а, б) и графики остатков от независимой переменной (для множественной регрессии анализ проводится для каждого аргумента). Характерные варианты графиков остатков от независимой переменной представлены на рис. 5.14, г, д, е.

Остатки должны быть нормально распределены, т.е. на графике они должны представлять приблизительно горизонтальную полосу одинаковой ширины на всем ее протяжении, как это отображено на рис.5.14, г. Коэффициент корреляции r между регрессионнымиостаткамиипеременнымидолженравнятьсянулю.

В ряде случаев на графиках остатков хорошо просматривается нелинейный тренд. Присутствие нелинейного тренда в регрессионных остатках говорит о необходимости пересмотра модели – преобразования или ввода новых переменных, перехода от линейной модели к нелинейной (см. рис. 5.14, д, е).

На графиках зависимости регрессионных остатков (Е) от предсказанного значения зависимой переменной (Yв) можно судить о постоянстве (или непостоянстве) дисперсии ошибки. Например, на графике (см. рис. 5.14, в) видно, что с увеличением значений зависимой переменной дисперсия (разброс) остатков увеличивается.

191

Рис. 5.14. Графики остатков

Такое явление нестабильности дисперсии ошибки именуется гетероскедастичностью. Это еще одно подтверждение неадекватности анализируемой модели.

На рис. 5.14, г остатки размещены равномерно вдоль полосы относительно линии регрессии, что свидетельствует об адекватности уравнения регрессии. На рис. 5.14, б они сгруппированы вокруг кривой, следовательно, уравнение неадекватно. В него необходимо ввести аргумент, который бы описывал (объяснял) эту нелинейность.

На рис. 5.14, д показано волновое распределение остатков. Такой график свидетельствует о наличии в остатках автокорреляции, её ещё именуют сериальной корреляцией.

Рассмотрим некоторые моменты анализа остатков на примерах для выведенного уравнения регрессии (формула (5.4))

впрограмме Statistica (рис. 5.15).

Вокне вывода результатов регрессии («Анализ» → «Множественная регрессия») активируем закладку «Остатки» и далее кнопку «Анализ остатков» (см. рис. 5.15, 5.16).

192

Рис. 5.15. Вывод результатов регрессионного анализа

Рис. 5.16. Функции окна «Анализ остатков»

Начинать анализ можно с графика остатков на нормальном вероятностном графике. В окне «Анализ остатков» выбираем закладку «Вероятностные графики», нажмём кнопку «Нормальный». На графике (рис. 5.17, а) ожидаемое распределение точек выборки, подчиняющейся нормальному закону, представлено прямой линией. Если остатки хорошо укладываются на прямую линию, это означает, что остатки распределены нормально.

193

а

б

Рис. 5.17. а – нормальный вероятностный график и б – гистограмма остатков

Отклонения от прямой линии свидетельствуют о нарушении распределения. Небольшое количество отклонений можно трактовать как выбросы. Такие данные в исходных таблицах должны быть проверены и при подтверждении удалены путём составления соответствующего условия в окне вычисления множественной регрессии. В противном случае выбросы могут указывать на неадекватность модели.

Подтвердить выбросы может анализ построчного графика остатков. Активируем в закладке «Остатки» кнопку «Построчные графики остатков», тип остатков – «Исходные». На графике (рис. 5.18, а) выводятся сверху вниз построчно положение остатков в осях от – 3S до + 3S, где S – оценка стандартного отклонения. Нелинейный характер распределения остатков на графике может указывать на отсутствие нелинейной составляющей, которая должна быть в уравнении регрессии. Волновой характер распределения остатков может указывать на наличие автокорреляции остатков.

194

а

б

Рис. 5.18. а – построчный график и б – таблица остатков

На построчном графике величина оценки стандартного отклонения в расчётах не показана, но её можно вычислить. Для этого необходимо выделить столбец «Остатки» с первого до последнего наблюдения (не захватывая ниже строки с вычисленными статистиками) и выбрать последовательно команды «Блоковые статистики» → «По столбцам» → «Все». Результаты расчёта будут отображены в конце столбца8.

В них можно посмотреть «Стандартное отклонение наблюдений – S». Далее можно построчно просматривать график и выбирать те наблюдения, которые находятся на прямой ± (3S) или выходят за неё. Это будут выбросы. Но лучше в окне «Анализ остатков» в закладке «Выбросы» отметить строку «Стандартный остаток (> 2 сигма)» и нажать кнопку «Построчный график выбросов». В полученном графике будут отображены только те строки, у которых остатки не укладываются в интервал 2 . Если нет выбросов, будет выведено соответствующее сообщение.

По остаткам можно построить и гистограмму их распределения. В закладке «Остатки» выберите тип остатков – «Исходные» инажмитекнопку«Гистограммаостатков»(см.рис.5.18,б).

8 В более поздних версиях программы Statistica блоковые статистики отображаются в отдельной таблице.

195

Гипотезу о нормальном распределении остатков можно проверить и с помощью критериев согласия. Методика проверки по критерию χ2 детально изложена в разделе 3.5.

5.7.2.3. Анализ остатков на автокорреляцию

Нарушение предположения о некоррелированности остатков приводит к тому, что в последовательности остатков будет наблюдаться сериальная корреляция, т.е. зависимость между остатками, отстоящими друг от друга на k шагов (где k – лаг). Отметим, что все критерии значимости при вычислении множественной регрессии предполагают, что данные являются случайной выборкой из независимых наблюдений. Если это не так, то оценки (B-коэффициенты) могут быть более неустойчивыми, чем это гарантируют их уровни значимости. Если есть подозрение об автокоррелированности остатков, требуется проверка их с помощью критерия Дарбина – Уотсона. Для этого выберем закладку «Дополнительно» в окне «Анализ остатков» (см.рис. 5.15)

иактивируем кнопку «Статистика Дарбина – Уотсона». В появившейся таблице (табл. 5.14) выводится статистика критерия d

ивычисленное значение сериальной корреляции ru. Чем меньше коэффициент сериальной корреляции остатков (по модулю), тем адекватнее уравнение регрессии.

Статистика критерия Дарбина – Уотсона d связана с автокорреляцией соотношением

d 2(1 ru ).

(5.24)

Таблица 5.14 Статистика Дарбина – Уотсона

196

Из него видно, что при ru 1 d 0, а при ru 1 d 4. Если сериальная корреляция в остатках отсутствует, d = 2. Критерий Дарбина – Уотсона d позволяет проверить гипотезу Н0: все сериальные корреляции равны нулю при альтернативной гипоте-

зе Н1: ru 0.

Процедура проверки состоит в сравнении вычисленного значения критерия d с табличными d1 и d2 (прил. Ж) в зависимости от числа наблюдений n, числа оцениваемых параметров k, а также уровня значимости α. Решение при альтернативной гипотезе Н1: ru 0 принимается по одному из правил:

Н0 принимается на уровне значимости 2α, если d > d2 при ru положительном, или (4 – d) > d2 при ru отрицательном;

Н0 отвергается на уровне значимости 2α, если d < d1 при ru положительном, или (4 – d) < d1 при ru отрицательном.

Когда значение критерия d находится внутри интервала

d1 d d2, а при отрицательном коэффициенте сериальной d1 (4 – d) d2 оценить величину автокорреляции остатков по критерию Дарбина – Уотсона нельзя, необходимы дальнейшие исследования.

5.7.2.4. Доверительный интервал

Чтобы визуально оценить, насколько точные значения показателей могут отличаться от рассчитанных, строят доверительные интервалы. Они определяют пределы, в которых лежат истинные значения определяемых показателей с заданной степенью точности, соответствующей заданному уровню значимости α.

Для расчета доверительных интервалов для параметров b0 и bj уравнения линейной регрессии (формула (5.2)) определяют предельную ошибку ∆ для каждого показателя:

b0 = tтабл · mb0, ∆bj = tтабл · mbj.

197

Величина tтабл представляет собой табличное значение t-критерия Стьюдента под влиянием случайных факторов при степени свободы k = n – 2 и заданном уровне значимости α. Тогда расчет доверительных интервалов для параметров b0 и bj уравнения регрессии можно будет выполнить из выражений

yb0 = b0 ± ∆b0; ybj = bj ± ∆bj.

Доверительный интервал – это интервал, в котором с определённой степенью уверенности можно ожидать появления фактического значения зависимой переменной.

К линии регрессии границы (сплошная линия на рис. 5.19) доверительного интервала ближе всего находятся в точке со средними значениями зависимой и независимой переменных

( y, x ). Чем дальше от этой точки, тем больше границы интервала отклоняются от линии регрессии.

Рис. 5.19. Доверительные интервалы (пунктиром верхняя и нижняя граница) для выведенного уравнения регрессии

198

Пример использования линейной регрессионной модели приведен на рис. 5.20.

Рис. 5.20. График зависимости предела прочности на одноосное сжатие сланцевых пород Средне-Назымского месторождения от модуля упругости [30]

199

6.МНОЖЕСТВЕННАЯ РЕГРЕССИЯ

6.1.Отличия множественной регрессии от парной

В предыдущем разделе были изложены основы парной регрессии. Часто исследуют зависимость одной переменной от нескольких других переменных.

Для имеющейся выборки наблюдений уравнение регрессии отыскивают в виде функции (5.2), причём для коэффициентов регрессии j = 1, 2, …, m, где m – число аргументов. Коэффициенты регрессии вычисляются с использованием критерия (5.3), проверка адекватности модели регрессии выполняется аналогично проверке в парной регрессии.

Проверка значимости коэффициентов при независимых переменных в уравнении множественной регрессии выполняется с использованием t-критерия Стьюдента. Незначимые аргументы удаляются из уравнения регрессии (по одному), после чего оно пересчитывается. На заключительном этапе исследований выполняется анализ остатков. Вместе с тем построение уравнения множественной регрессии в сравнении с парной регрессией имеет некоторые особенности.

Во-первых, в ряде случаев возможны проблемы вычислительного характера. Например, для пластовых месторождений, если исходные данные содержат высотную отметку кровли пла-

ста (Нkrow_AB), почвы пласта (Нpod_AB) и мощность (mAB), то коэффициент корреляции между переменными будет близок к еди-

нице (r = 0,9998), что характерно для функциональных зависимостей. Мощность пласта mAB, которая также присутствует в исходных данных, можно записать как функцию:

mAB = Нkrow_AB Нpod_AB, откуда Нpod_AB = Нkrow_AB mAB.

200

Соседние файлы в папке книги