Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

654

.pdf
Скачиваний:
2
Добавлен:
15.11.2022
Размер:
3.33 Mб
Скачать

Основным методом оценивания адекватности модели является регрессионный анализ, в основе которого лежит исследование уравнения линейной регрессии.

Рассмотрим основные понятия регрессионного анализа [26–28]. Проверить значимость уравнения регрессии – значит установить,

соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной. Для проверки значимости выдвигают нулевую гипотезу о надежности параметров.

Статистическая гипотеза – это предположение о свойствах случайных величин или событий, которое требует проверки по имеющимся данным.

Нулевая гипотеза H0 – это основное проверяемое предположе-

ние, которое обычно формулируется как отсутствие различий, отсутствие влияния фактора, отсутствие эффекта, равенство нулю значений выборочных характеристик и т.п. Другое проверяемое предположение (не всегда строго противоположное или обратное первому) называется конкурирующей (или альтернативной) гипотезой.

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость проверить ее. Так как проверку производят статистическими методами, она называется статистической.

При проверке статистических гипотез возможны ошибки (ошибочные суждения) двух видов:

можно отвергнуть нулевую гипотезу, когда она на самом деле верна (так называемая ошибка первого рода);

можно принять нулевую гипотезу, когда она на самом деле не верна (так называемая ошибка второго рода).

Допустимая вероятность ошибки первого рода может быть равна

5 или 1 % (0,05 или 0,01).

Уровень значимости – это вероятность ошибки первого рода при принятии решения (вероятность ошибочного отклонения нулевой гипотезы). Альтернативные гипотезы принимаются тогда и только тогда, когда опровергается нулевая гипотеза. Это бывает в случаях, когда различия в средних арифметических экспериментальной и контрольной групп настолько значимы (статистически достоверны), что риск

71

ошибки отвергнуть нулевую гипотезу и принять альтернативную не превышает одного из трех принятых уровней значимости статистического вывода:

1-й уровень – 5 % ( α = 0,05 ), где допускается риск ошибки в выводе в пяти случаях из ста теоретически возможных таких же экспериментов при строго случайном отборе для каждого эксперимента;

2-й уровень – 1 % ( α = 0,01 ), т.е. допускается риск ошибиться только в одном случае из ста;

3-й уровень – 0,1 % ( α = 0,001 ), т.е. допускается риск ошибиться только в одном случае из тысячи.

Статистика критерия – некоторая функция от исходных данных, по значению которой проверяется нулевая гипотеза. Чаще всего статистика критерия является числовой функцией.

Всякое правило, на основе которого отклоняется или принимается нулевая гипотеза, называется критерием проверки данной гипотезы.

Статистический критерий – это случайная величина, которая служит для проверки статистических гипотез.

Критическая область – совокупность значений критерия, при котором нулевую гипотезу отвергают. Область принятия нулевой гипотезы (область допустимых значений) – совокупность значений критерия, при котором нулевую гипотезу принимают. При справедливости нулевой гипотезы вероятность того, что статистика критерия попадает в область принятия нулевой гипотезы, должна быть равна 1.

Процедура проверки нулевой гипотезы в общем случае включает следующие этапы:

задается допустимая вероятность ошибки первого рода

( α = 0,05 );

выбирается статистика критерия;

ищется область допустимых значений;

по исходным данным вычисляется значение статистики;

если статистика критерия принадлежит области принятия нулевой гипотезы, то нулевая гипотеза принимается (корректнее говоря, делается заключение, что исходные данные не противоречат нулевой гипотезе), а в противном случае нулевая гипотеза отвергается и принимается альтернативная гипотеза. Это основной принцип проверки всех статистических гипотез.

72

Анализ качества идентификационной модели на основе уравнения линейной регрессии начинают с расчета (идентификации параметров) данного уравнения. Первое же построенное по выборке уравнение регрессии очень редко является удовлетворительным по тем или иным характеристикам, поэтому следующая важнейшая оценка – проверка качества уравнения регрессии. В регрессионном анализе принята следующая схема такой проверки, которая проводится по следующим направлениям:

проверка общего качества уравнения регрессии (проверка адекватности модели);

проверка значимости коэффициента множественной корреля-

ции;

проверка статистической значимости коэффициентов уравнения регрессии.

При анализе адекватности уравнения регрессии (модели) исследуемому процессу возможны следующие варианты:

1.Построенная модель на основе F-критерия Фишера в целом адекватна, и все коэффициенты регрессии значимы. Такая модель может быть использована для принятия решений и осуществления прогнозов.

2.Модель по F-критерию Фишера адекватна, но часть коэффициентов не значима. Модель пригодна для принятия некоторых решений, но не для прогнозов.

3.Модель по F-критерию адекватна, но все коэффициенты регрессии не значимы. Модель полностью считается неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.

Проверить значимость (качество) уравнения регрессии – значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным и достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Оценка значимости уравнения регрессии в целом производится на основе F-критерия Фишера, которому предшествует дисперсионный анализ. В математической статистике дисперсионный анализ рассматривается как самостоятельный инструмент статистического анализа.

73

Пусть оценивается адекватность одномерной линейной модели:

 

k

 

 

ym = aiui ,

(2.3)

 

i=1

 

где ym

– выходная переменная модели; k

– количество параметров

модели;

ai – оцениваемые параметры модели; ui – входные перемен-

ные объекта.

 

Для проведения регрессионного анализа определяются следующие статистические характеристики:

сумма квадратов, обусловленная регрессией:

N

 

 

QR = ( ymi y)2 ,

(2.4)

i=1

 

 

 

1

N

где y – среднее значение выходных переменных, y =

yi ; N – ко-

 

 

N i=1

личество наблюдений.

 

 

Сумма квадратов, обусловленная регрессией QR ,

показывает, что

участвующая в ней величина ymi определяет k линейных связей между наблюдениями y1, y2 ,K, yN , так как в нее входит k оценок коэффициентов a1, a2 ,K, ak , определенных по тем же наблюдениям. Кроме того, y определяет одну линейную связь между ними;

число степеней свободы для QR :

 

νR = k 1;

(2.5)

остаточная сумма квадратов:

 

N

 

Qост = ( yi ymi )2 ,

(2.6)

i=1

где yi – значения выходной переменной объекта.

Остаточная сумма квадратов Qост отражает влияние всех тех причин рассеивания результатов y , которые не можетобъяснить регрессия;

число степеней свободы для Qост :

 

νост = N k;

(2.7)

74

общая (полная) сумма квадратов:

 

N

 

 

 

 

 

Q = ( yi y)2 ;

(2.8)

 

i=1

 

 

 

 

число степеней свободы для Q :

 

 

 

ν = N 1.

 

(2.9)

Для вышеприведенных сумм квадратов справедливо следующее:

 

Q = QR +Qост.

(2.10)

Согласно основной идее дисперсионного анализа общая сумма

квадратов отклонений Q переменной

y от среднего значения

y рас-

кладывается на две части – «объясненную» QR и «необъясненную»

Qост :

 

 

 

 

 

 

N

N

 

 

N

 

(yi y)2

= (ymi y)2

+(yi ymi )2.

(2.11)

i=1

i=1

 

 

i=1

 

Для степеней свободы:

 

 

 

 

ν = νR ост = k 1+ N k = N 1.

(2.12)

Для анализа адекватности используются оценки дисперсий:

 

дисперсия, обусловленная регрессией:

 

 

SR2 =

 

QR

;

 

(2.13)

 

 

 

 

 

 

 

ν

 

 

 

 

 

R

 

 

остаточная дисперсия:

 

 

 

 

 

Sост2 =

Qост

;

(2.14)

 

ν

 

 

 

 

 

 

 

 

ост

 

 

общая (полная) дисперсия:

 

 

 

 

 

S 2 =

Q.

 

(2.15)

 

 

 

ν

 

 

Схема дисперсионного анализа отражена в табл. 2.1.

75

Таблица 2.1

Источник

Сумма квадратов

Число степеней

Оценка

рассеяния

 

свободы

дисперсии

Регрессия

QR

νR = k 1

SR2 =

 

QR

 

 

 

 

ν

 

 

 

 

 

 

 

 

 

 

 

R

Остаток

Qост

νост = N k

Sост2 =

Qост

 

 

ν

 

 

 

 

 

 

ост

Общая

Q

ν = N 1

S 2 =

 

Q

 

 

 

 

 

ν

 

 

 

 

 

 

Величина F-критерия Фишера для определения статистической значимости уравнения или адекватности в целом определяется как сопоставление регрессионной и остаточной дисперсии в расчете на одну степень свободы:

 

S2

1

 

 

F =

R

 

 

.

(2.16)

Sост2

 

 

 

 

N 2

 

Для оценивания H0-гипотезы о статистической значимости уравнения в целом табличное значение Fт-критерия Фишера выбирается как Fт(αν, 1,ν2 ), где α – заданный уровень значимости; ν1 = νR ;

ν2 = νост.

Если фактическое значение F-критерия больше табличного

Fт (F > Fт), то признается статистическая значимость уравнения в це-

лом.

В противном случае (F < FT ) гипотеза о статистической значимо-

сти уравнения регрессии отвергается. Это может означать следующее: структура модели выбрана неверно, а именно: выбранная модель содержит меньше или больше коэффициентов, чем действительная. В этом случае необходимо выбрать другую структуру модели и оценить ее адекватность.

Если гипотеза о статистической значимости регрессионного анализа в целом подтвердилась, то необходимо оценить значимость коэффициента множественной корреляции.

76

Значимость коэффициента множественной корреляции определяет, насколько хорошо выбранная модель описывает отклик как функцию фактора.

Пусть регрессионная модель представлена полиномом 2-го порядка:

y

m

= a

+ a x +a

2

x2.

(2.17)

 

0

1

 

 

На рис. 2.1 и 2.2 показаны результаты эксперимента.

ym

y y

x

а

ym

y

y

x

б

Рис. 2.1. График эксперимента с одномерной моделью:

а– с существенными коэффициентами ai (i ≠ 0);

б– с несущественными коэффициентами ai (i ≠ 0)

На рис. 2.1, а зависимость ym как функции от x выражена ясно. На рис. 2.1, б график ym очень мало отличается от среднего значения всех результатов y, поэтому можно предположить, что в действительности ym не зависит от x , т.е. коэффициенты уравнения a1, a2 получились отличнымиот нуля только за счетслучайного возмущения.

77

Для оценки значимости коэффициента множественной корреляции выдвигается гипотеза H0 : a1 = 0, a2 = 0 и вводится коэффициент

детерминации R2 :

R2 =

QR

.

(2.18)

 

 

Q

 

Значимость коэффициента множественной корреляции проверяется по следующим правилам:

вычисляется коэффициент детерминации R2 ;

вычисляется F-критерий Фишера для определения значимости коэффициента множественной корреляции:

F =

R2

(N k)

;

(2.19)

(1

R2 )(k 1)

 

 

 

вычисляется табличный F-критерий Фишера для определения значимости коэффициента множественной корреляции. Fт-критерий Фишера выбирается как Fт(α,ν1,ν2 ), где α – заданный уровень зна-

чимости; ν1 = νR ; ν2 = νост.

осуществляется сравнение (F > Fт).

Если фактическое значение F-критерия больше табличного Fт (F > Fт) , то коэффициент множественной корреляции значим, его значения нельзя объяснить только случайными возмущениями.

В противном случае (F < Fт) полученный коэффициент незна-

чим.

Незначимость коэффициента множественной корреляции приводит к тому, что зависимость y от входных воздействий xi слаба или

отсутствует вообще. Это возможно по двум причинам:

1) В модель не были включены некоторые из сильно влияющих факторов. Их влияние проявилось в остаточной сумме Qост, тогда как регрессия отразила только некоторые второстепенные влияния и сумма QR оказалась достаточно мала. Такой результат получается часто

при исследовании сложных объектов, в которых только часть факторов (переменных/координат) доступна для измерения, а некоторые из наиболее важных независимых переменных остаются вне поля зрения экспериментатора.

78

2) Незначимый коэффициент множественной корреляции может получиться в том случае, когда в модель включены все существенные факторы, но ее структура выбрана неверно. Такой результат мог бы получиться, например, при попытке описать полиномом 1-го порядка объект, существенно нелинейный относительно факторов.

Незначимость коэффициента множественной корреляции – достаточное основание отказаться от выбранной модели.

После проверки гипотез о статистической значимости уравнения линейной регрессии и значимости коэффициента множественной корреляции возникает задача оценить адекватность отдельных (наиболее важных) коэффициентов модели.

Значимость отдельного коэффициента модели ai проверяется по следующим правилам:

проводится l дополнительных опытов в некоторой рабочей точке и определяется дисперсия дополнительных опытов:

Sl2 =

Ql

,

(2.20)

 

 

ν

 

 

l

 

l

где Ql = (yi y), νl = l 1;

i=1

определяется информационная матрица по основным наблю-

дениям XX T и коэффициент c

как i-й диагональный элемент мат-

ii

 

 

 

 

 

 

рицы XX T ;

 

 

 

 

 

 

вычисляется коэффициент ti :

 

 

ti =

 

ai

 

 

;

(2.21)

 

 

Sl cii

 

 

 

выбирается табличный tт-критерий в таблице распределения Стьюдента как tт(α,ν), где α – заданный уровень значимости; ν = νl ;

осуществляется сравнение (t > tт).

Если

фактическое значение

t-критерия больше табличного

tт (t > tт),

то коэффициент модели ai

значим.

79

В противном случае (t > tт) полученный коэффициент ai незна-

чим.

После проверки значимости коэффициентов модели незначимые коэффициенты могут быть отброшены, при этом модель значительно упростится.

2.3.Программные средства идентификации

имоделирования систем

Пакет System Identification Toolbox содержит средства для создания математических моделей динамических систем на основе наблюдаемых входных и выходных данных. Он имеет гибкий графический интерфейс, помогающий организовать данные и создавать модели [2, 12, 29, 30]. Методы идентификации, входящие в пакет, применимы для решения широкого класса задач: от проектирования систем управления и обработки сигналов до анализа временных рядов и вибрации. Основные свойства пакета:

простой и гибкий интерфейс;

предварительная обработка данных, включая предварительную фильтрацию, удаление трендов и смещений; выбор диапазона данных для анализа;

методы авторегрессии;

анализ отклика во временной и частотной области;

отображение нулей и полюсов передаточной функции системы;

анализ невязок при тестировании модели;

построение сложных диаграмм, таких как диаграмма Найквиста,

идр.

Графический интерфейс упрощает предварительную обработку данных, а также диалоговый процесс идентификации модели. Возможна также работа с пакетом в командном режиме и с применением расширения Simulink. Операции загрузки и сохранения данных, выбора диапазона, удаления смещений и трендов выполняются с минимальными усилиями и находятся в главном меню.

Представление данных и идентифицированных моделей организовано графически таким образом, что в процессе интерактивной идентификации пользователь легко может вернуться к предыдущему шагу работы. Для новичков существует возможность просматривать

80

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]