Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистические и интеллектуальные методы прогнозирования

..pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
8.94 Mб
Скачать

Поэтому в рамках задачи оценки адекватности необходимо оценивать различные аспекты расчета регрессионной модели: выбор независимых параметров (регрессоров), выбор структуры модели, значимость или незначимость отдельных коэффициентов регрессии [7, 10, 12].

3.4.2. Алгоритм оценивания адекватности регрессионной модели

Оценка адекватности регрессионных моделей осуществляется по следующему алгоритму [12]:

проверка правильности выбора регрессоров – проверка значимости коэффициента множественной корреляции;

проверка общего качества уравнения регрессии (проверка адекватности модели);

проверка статистической значимости коэффициентов уравнения регрессии.

3.4.2.1.Проверка значимости коэффициента множественной корреляции

Значимость коэффициента множественной корреляции определяет, насколько хорошо выбранная модель описывает отклик как функцию фактора. На данном этапе проверки адекватности модели принимается или опровергается гипотеза о правильности выбора регрессоров (независимых параметров).

Рассмотрим на примере множественной линейной регрессионной модели:

yM a0 a1x1 a2x2 ,

(3.20)

где x2 x12.

В результате расчета регрессионной модели получены графики модели, приведенные на рис. 3.3 и 3.4, где представле-

41

ны экспериментальные данные в виде точек и график регрессионной модели.

Рис. 3.3. График регрессионной Рис. 3.4. График регрессионной модели с «правильным» выбором модели с «неправильным» выбором независимого параметра независимого параметра

На рис. 3.3 зависимость выходного параметра ym от x отчетливо выражена. Очевидно, что регрессор х оказывает существенное влияние на выходной параметр.

На рис. 3.4 график ym по сути является разбросом относительно среднего значения yср: ym a0 yср . Поэтому можно

предположить, что в действительности ym не зависит от х. Это означает, что в качестве регрессора выбран несущественный параметр.

Для оценки значимости коэффициента множественной корреляции выдвигается гипотеза H0 : a1 0, a2 0. Если дан-

ная гипотеза принимается, то регрессионная модель описывает слабую зависимость ym от регрессора х, как на рис. 3.2.

Значимость коэффициента множественной корреляции оп-

ределяется на основе коэффициента детерминации R2 :

 

R2

QR

.

(3.21)

 

 

Q

 

42

Значимость коэффициента множественной корреляции проверяется по следующим правилам:

1)расчет коэффициента детерминации R2 (3.21);

2)расчет F-критерия Фишера для определения значимости коэффициента множественной корреляции:

F

R2

(m n 1)

;

(3.22)

(1 R2)n

 

 

 

3) определение табличного F-критерий Фишера для определения значимости коэффициента множественной корреляции. Значение FT-критерия Фишера выбирается из соответствующих таблиц (приложение 1) как FT ( , 1, 2), где – заданный уро-

вень значимости; 1 R n ; 2 ост m n 1 (критическое значение критерия Фишера можно рассчитать в MS Excel функцией FРАСПОБР ( , 1, 2 ));

4) выполнение сравнения (F FT ) .

Если фактическое значение F-критерия больше табличного FT (F FT ) , то коэффициент множественной корреляции

значим, его значения нельзя объяснить только случайными возмущениями. Независимые регрессоры выбраны верно.

В противном случае (F FT ) , полученный коэффициент

незначим.

Незначимость коэффициента множественной корреляции приводит к тому, что зависимость y от входных воздействий xi

слаба или отсутствует вообще. Такое происходит по следующим причинам:

1. В модель не были включены некоторые из сильно влияющих факторов. В этом случае их влияние проявляется в остаточной сумме Qост , которая становится существенной по отно-

шению к сумме квадратов, обусловленной QR . Такой результат получается часто при прогнозировании сложных процессов, ко-

43

гда изначально неизвестна степень влияния отдельных факторов на выходной параметр.

2. Незначимый коэффициент множественной корреляции может получиться в том случае, когда в модель включены все существенные факторы, но структура модели выбрана неверно. Такой результат мог бы получиться, например, при попытке описать полиномом 1-го порядка объект, существенно нелинейный относительно факторов.

Незначимость коэффициента множественной корреляции – достаточное основание отказаться от выбранной модели.

Кроме того, по коэффициенту детерминации R2 можно определить адекватность модели в целом (качественно): чем

ближе R2

к единице, тем качество модели лучше.

 

 

ПРИМЕР 3.3. Оценить значимость коэффициента множе-

ственной

корреляции

 

для

регрессионных

моделей

y

1.6307 0.4600x и y

m2

2.060 1.1379x 0.1695x2

из при-

m1

 

 

 

 

 

мера 3.1.

В табл. 3.3 приведены расчеты значений регрессионных моделей.

Таблица 3.3

Исходные данные и значения регрессионных моделей

x

y

ym1

ym2

x

y

ym1

ym2

0.0

2.143

1.631

2.060

2.0

0.400

0.711

0.462

0.2

1.754

1.539

1.839

2.2

0.312

0.619

0.377

0.4

1.548

1.447

1.632

2.4

0.330

0.527

0.305

0.6

1.624

1.355

1.438

2.6

0.298

0.435

0.247

0.8

1.324

1.263

1.258

2.8

0.284

0.343

0.203

1.0

1.249

1.171

1.092

3.0

0.305

0.251

0.172

1.2

0.800

1.079

0.939

3.2

0.274

0.159

0.154

1.4

0.528

0.987

0.799

3.4

0.246

0.067

0.151

1.6

0.623

0.895

0.673

3.6

0.155

–.025

0.160

1.8

0.544

0.803

0.561

3.8

0.100

–.117

0.184

 

 

 

 

4.0

0.0845

–.209

0.220

44

Основные характеристики дисперсионного анализа приведены в табл. 3.4 и 3.5.

 

 

 

Таблица 3.4

Параметры дисперсионного анализа для модели ym1

 

 

 

 

 

Источник

Сумма

Число степеней

 

Оценка

рассеяния

квадратов

свободы

 

дисперсии

Регрессия

6.5173

1

 

6.5173

Остаток

1.2956

19

 

0.0682

Общая (полная)

7.8140

20

 

0.3907

 

 

 

Таблица 3.5

Параметры дисперсионного анализа для модели ym2

 

 

 

 

 

Источник

Сумма

Число степеней

 

Оценка

рассеяния

квадратов

свободы

 

дисперсии

Регрессия

7.5456

2

 

3.7728

Остаток

0.2647

18

 

0.0147

Общая (полная)

7.8140

20

 

0.3907

Оценка коэффициента множественной корреляции приведена в табл. 3.6.

Таблица 3.6

Коэффициент множественной корреляции для моделей ym1, ym2

Модель

R2

F

Fт

ym1

0.83411

95.4925

4,414

ym2

0.9657

253.0474

3,555

Оценка значимости коэффициента множественной корреляции показала, что факторы ( x – для модели 1, x, x2 – для модели 2) выбраны верно. Однако по коэффициенту детерминации можно сделать вывод, что модель ym2 более точная, чем модель ym1 , так как R12 R22 1.

45

3.4.2.2. Проверка общего качества уравнения значимости коэффициента

Оценка общего качества уравнения модели оценивается на базе дополнительных l опытов в некоторой точке процесса. Для задач прогнозирования можно предложить интервальные значения временного ряда в качестве основного опыта, а мгновенные значения для определенного интервала в качестве дополнительного опыта.

Адекватность модели – качество регрессионной модели определяется по следующему алгоритму:

1)проведение дополнительных опытов;

2)расчет дисперсии дополнительных опытов:

 

 

l

 

 

 

 

 

 

Sдоп2

(yдоп i yдоп.ср )2

 

 

i 1

 

 

 

;

(3.23)

 

 

l 1

 

 

 

 

 

 

 

3) расчет значения критерия Фишера:

 

 

 

 

S 2

 

 

 

 

 

F

ост

,

 

 

(3.24)

 

 

 

 

 

 

 

 

Sдоп2

 

 

 

где Sдоп2

определяется на основных опытах;

 

4)

определение

табличного

критерия

Фишера

FT ( , ост, доп l 1);

 

 

 

 

 

 

5) выполнение сравнения (F FT ).

В случае выполнения

данного условия модель считается адекватной.

 

После проверки гипотез о значимости коэффициента множественной корреляции, статистической значимости качества уравнения линейной регрессии возникает задача оценить адекватность отдельных (наиболее важных) коэффициентов модели.

ПРИМЕР 3.4. Оценить адекватность (общее качество) регрессионных моделей ym1 1.6307 0.4600x и ym2 2.060

1.1379x 0.1695x2 из примера 3.1.

46

Втабл. 3.7 приведены значения дополнительных опытов

вточке x 1.0, общее количество точек дополнительных опы-

тов l 10.

 

 

 

 

 

 

 

 

 

 

Таблица 3.7

 

Исходные данные и значения регрессионных моделей

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x

 

 

y

 

x

 

 

y

 

1.0

 

 

 

1.260

 

1.0

 

 

1.195

 

 

1.0

 

 

 

1.211

 

1.0

 

 

1.278

 

 

1.0

 

 

 

1.200

 

1.0

 

 

1.263

 

 

1.0

 

 

 

1.273

 

1.0

 

 

1.230

 

 

1.0

 

 

 

1.280

 

1.0

 

 

1.250

 

 

Расчет дисперсии дополнительных опытов приведен в

табл. 3.8.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Таблица 3.8

 

Анализ общего качества регрессионных моделей

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

2

 

 

 

 

 

Модель

 

yдоп.ср

 

Sдоп2

F

Sост

 

 

Fт (0.95,20,9)

 

2

 

 

 

 

 

 

 

 

 

Sдоп

 

 

 

 

ym1

 

1.2440

 

0.522

0.1311

 

 

4,81

 

 

ym2

 

 

0.0095

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

В таблице в качестве табличного значения

FT взято кри-

тическое значение

FT (0.95,20,9), так как в таблицах расшире-

ния Фишера для 1

10 используется увеличенный шаг.

Из табл. 3.8 видно, что качество обеих регрессионных моделей является удовлетворительным, но модель ym2 характеризуется лучшими показателями: F2 F1 FT.

47

3.4.2.3. Проверка значимостикоэффициентовуравнения

Значимость отдельного коэффициента модели ai проверяется по следующему алгоритму:

1.Осуществление l дополнительных опытов в некоторой рабочей точке и определение дисперсии дополнительных опытов (в качестве дополнительных опытов может использоваться выборка, используемая для определения адекватности качества регрессионной модели).

2.Расчет Sдоп2 (3.23).

3.Определение диагонального элемента cii информаци-

онной матрице XX T .

4. Расчет коэффициента ti :

 

 

 

ti

 

ai

 

.

(3.25)

 

 

S 2

 

 

c

 

 

l

ii

 

5. Выбор табличного критерия в таблице распределения Стьюдента как tT ( , ), где – заданный уровень значимости;l . Значение tT – критерия Стьюдента выбирается из соот-

ветствующей таблицы (приложение 2) (критическое значение критерия Стьюдента можно рассчитать в MS Excel функцией СТЬЮДРАСПОБР ( , )).

6. Выполнение сравнения (t tT ) .

Если фактическое значение t-критерия больше табличного tT (t tT ) , то коэффициент модели ai значим.

В противном случае (t tT ) полученный коэффициент ai

незначим.

После проверки значимости коэффициентов модели незначимые коэффициенты могут быть отброшены, чем значительно упростится регрессионная модель.

48

При исследовании и применении регрессионных моделей следует учитывать достоинства и недостатки моделей данного класса.

Достоинства регрессионных моделей:

простота вычислительных алгоритмов;

наглядность и интерпретируемость результатов (для линейной модели).

Недостатки регрессионных моделей:

невысокая точность прогноза (в основном интерполяция данных);

субъективный характер выбора вида конкретной зависимости (формальная подгонка модели под эмпирический материал);

отсутствие объяснительной функции (невозможность объяснения причинно-следственной связи).

ВОПРОСЫ ДЛЯ САМОКОНТРОЛЯ

1.Почему метод оценивания моделей называется регрессионным?

2.Что означают в уравнении регрессии?

3.Почему при расчете регрессионных моделей применяется метод наименьших квадратов?

4.Что представляет собой информационная матрица?

5.Как изменится алгоритм оценивания, если информационная матрица окажется вырожденной?

6.Особенности оценивания нелинейных регрессионных

моделей.

7.Почему при определении адекватности моделей недостаточно проанализировать ошибку?

8.Как соотносится уровень значимости с точностью моделей?

9.Какие задачи решаются при полноразмерной проверке адекватности модели?

49

10.Для чего проводится проверка значимости коэффициентов множественной корреляции?

11.Объясните причины незначимости коэффициента множественной корреляции и предложите алгоритм дальнейшего исследования модели.

12.Дисперсия остатка Soc2 т сопоставима с дисперсией

регрессии SR2 . Что это означает?

13.Проверка гипотезы о значимости отдельных коэффициентов регрессионной модели показала, что большинство коэффициентов незначимы. Какие выводы можно сделать о модели в целом?

14.Для приведенных исходных данных рассчитать рег-

рессионную модель вида

ym a0 a1x a2

x и проверить адек-

ватность модели.

 

 

 

 

 

Исходные данные и значения регрессионных моделей

 

 

 

 

 

 

 

x

 

y

 

x

 

y

0.1

 

–0.50

 

0.6

 

4.69

0.2

 

1.11

 

0.7

 

5.02

0.3

 

2.24

 

0.8

 

5.55

0.4

 

3.16

 

0.9

 

6.24

0.5

 

3.48

 

1.0

 

7.15

50

Соседние файлы в папке книги