Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

10535

.pdf
Скачиваний:
0
Добавлен:
25.11.2023
Размер:
6.66 Mб
Скачать

Регрессионный анализ — это количественный метод определения вида матема-

тической функции в причинно-следственной зависимости между переменными величинами.

Задача построения качественного уравнения регрессии, соответствующего вы-

борочным (эмпирическим) данным и целям исследования, является достаточно сложным и многоступенчатым процессом. Его можно разбить на три этапа:

выбор формулы уравнения регрессии;

определение параметров выбранного уравнения;

анализ качества уравнения и проверка адекватности уравнения эмпирическим данным, совершенствование уравнения.

Наиболее простым и эффективным способом выявления взаимосвязей между явлениями, с которого начинается корреляционный анализ, являет-

ся графический метод. Для этого на координатном поле наносят точки, соот-

ветствующие значениям изучаемых признаков X и Y. На оси абсцисс отклады-

вают значения объясняющего признака X, на оси ординат – объясняемого при-

знака Y. Совокупность точек образует корреляционное поле. По характеру рас-

положения точек на корреляционном поле можно судить о направлении и силе связи.

Если точки беспорядочно разбросаны по полю, то зависимость между перемен-

ными отсутствует (рис. а); если точки образуют эллипс, т.е. концентрируются вокруг оси, идущей из нижнего левого угла в верхний правый (или наоборот),

то имеется прямая (или обратная) зависимость между исследуемыми признака-

ми (рис. б, в).

50

Более совершенным показателем степени тесноты корреляционной связи явля-

ется линейный коэффициент корреляции. При расчете этого показателя учиты-

ваются не только отклонения индивидуальных значений признака от средней,

но и сама величина этих отклонений. Коэффициента корреляции рассчитывает-

ся специальным образом и лежит в интервалах от минус единицы до плюс еди-

ницы.

Связи между признаками могут быть слабыми и сильными (тесными). Их кри-

терии оцениваются по шкале Чеддока:

0.1 < rxy < 0.3: слабая;

0.3 < rxy < 0.5: умеренная;

0.5 < rxy < 0.7: заметная;

0.7 < rxy < 0.9: высокая;

0.9 < rxy < 1: весьма высокая.

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

Для статистического вывода о наличии или отсутствии корреляционной связи между исследуемыми переменными необходимо произвести проверку значимо-

сти выборочного коэффициента корреляции. В связи с тем, что надежность ста-

тистических характеристик, в том числе и коэффициента корреляции, зависит

51

от объема выборки, может сложиться такая ситуация, когда величина коэффи-

циента корреляции будет целиком обусловлена случайными колебаниями в вы-

борке, на основании которой он вычислен. Проверим значимость коэффициента корреляции.

Нулевая гипотеза состоит в том, что коэффициент корреляции равен нулю, аль-

тернативная - не равен нулю:

0: = 01: ≠ 0.

Выборочный коэффициент корреляции при определенных предпосылках связан со случайной величиной t подчиняющейся распределению Стьюдента с n-2 сте-

пенями свободы.

Статистика имеет вид: = −2

1−2

При проверке значимости необходимо установить уровень значимости α, кото-

рый дает практическую уверенность в том, что ошибочные заключения будут сделаны только в очень редких случаях. Уровень значимости выражает вероят-

ность того, что нулевая гипотеза отвергается в то время как она верна. Ясно,

что имеет смысл выбирать эту вероятность как можно меньше.

При заданном уровне значимости α определяем критическое значение tкр.

Правило применения критерия заключается в следующем: если кр, то ну-

левая гипотеза на уровне значимости α отвергается, то есть связь между пере-

менными значима; если

 

кр, то нулевая гипотеза на уровне значимости α

не отвергается.

 

 

 

 

Интервальная

оценка

для коэффициента корреляции (доверительный

 

 

 

 

 

 

вал)

1−2

; +

 

1−2

.

 

 

 

кр

−2

кр

−2

 

 

 

 

 

52

Пример Диаграмма рассеяния соответствует данным о годовом располагаемом доходе X и годовых расходах Y на личное потребление (в 1999 г., в условных единицах) 20 семей. Эти данные представлены в таблице.

Модель линейной регрессии является наиболее распространенным (и простым)

уравнением зависимости. Парная линейная регрессия (теоретическое линейное уравнение регрессии) представляет собой линейную функцию между условным математическим ожиданием M(Y| X=x) зависимой переменной Y и одной пе-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

ременной X:

= = 0 + 1 .

 

 

xy

x y

По выборке ограниченного объема можно построить так

b1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

x 2 x 2

называемое эмпирическое (выборочное) уравнение регрес-

 

 

 

 

 

 

 

 

 

 

 

 

 

 

y b1 x

 

 

b0

сии = 0

+ 1 .Эмпирическое уравнение регрессии

 

 

 

 

 

 

 

 

 

 

 

 

 

 

определяется на основе конечного числа статистических данных. Поэтому ко-

53

эффициенты эмпирического уравнения регрессии являются случайными вели-

чинами, изменяющимися от выборки к выборке. Коэффициенты β0 и β1 будем оценивать по выборке с помощью метода наименьших квадратов (МНК, имен-

но этот метод используется в Microsoft Excel):

b1- угловой коэффициент регрессии, он показывает, на сколько единиц в сред-

нем изменяется переменная Y при изменении переменной X на единицу; b0 – дает прогнозируемое значение зависимой переменной при х = 0.

На начальном этапе статистического анализа построенной модели наиболее важной является задача установления наличия линейной зависимости между переменными Y и X. Эта проблема может быть решена с помощью проверки

гипотезы о статистической значимости коэффициента регрессии

При этом, если Н0 не отвергается, то есть основание считать, что величина Y не зависит от X (точнее связь между этими двумя переменными далека от линей-

ной зависимости). В этом случае говорят, что коэффициент b1 статистически незначим (он слишком близок к нулю). При отклонении Н0 коэффициент b1

считается статистически значимым, что указывает на наличие определенной линейной зависимости между Y и X.

Значимость коэффициента регрессии b1 проверяется с помощью анализа отно-

шения =

1

, где

=

 

2

. b1

- оценка коэффициента регрессии,

 

 

−2

 

2

 

1

1

 

 

 

 

 

 

 

 

 

 

 

 

полученная по наблюдаемым данным; 1 - стандартная ошибка коэффициента регрессии. Статистика имеет распределение Стьюдента с числом степеней сво-

боды υ = n – 2.

Для параметра b0 критерий проверки гипотезы о незначимом отличии его от

нуля имеет вид: =

0

, где

=

2

2

.

 

 

−2

 

 

 

0

0

 

2

 

 

 

 

 

 

 

 

После проверки значимости каждого коэффициента регрессии обычно проверя-

ется общее качество уравнения, которое оценивается по тому, как хорошо эм-

54

пирическое уравнение регрессии согласуется со статистическими данными.

Другими словами, насколько широко рассеяны точки наблюдений относитель-

но линии регрессии. На основе выборочных наблюдений построено уравнение регрессии = 0 + 1 , тогда значение зависимой переменной y в каждом наблюдении можно разложить на две составляющие: = + , где остаток ei

- та часть зависимой переменной y, которую невозможно объяснить с помощью уравнения регрессии. Разброс значений зависимой переменной характеризуется

выборочной дисперсией 2: 2 = 2 + 2.

2 2

Коэффициентом детерминации R2 называется отношение 2 = 2 = 1 − 2

характеризующее долю вариации (разброса) зависимой переменной, объяснен-

2

ную с помощью уравнения регрессии. Отношение есть доля необъясненной

2

дисперсии. Коэффициент детерминации рассматривают, как правило, в качест-

ве основного показателя, отражающего меру качества регрессионной модели,

описывающей связь между зависимой и независимыми переменными модели.

2

=

1

 

2

; 2

=

1

 

2

; 2

=

1

 

2

 

 

 

 

 

=1

 

 

 

=1

 

 

 

=1

 

 

 

 

 

 

 

 

 

 

 

 

Значение R2 должно находиться в диапазоне от нуля до единицы: 0 ≤ R2 ≤ 1.

Модель считается более качественной, если значение коэффициента детерми-

нации близко к 1. Если R2 = 1, то эмпирические точки (xi; yi) лежат точно на ли-

нии регрессии и между переменными Y и Х существует линейная функцио-

нальная зависимость. Если R2 = 0, то вариация зависимой переменной полно-

стью обусловлена неучтенными в модели факторами. Достаточно качественной можно признать модель с коэффициентом детерминации выше 0,8.

После оценки индивидуальной значимости каждого из коэффициентов регрес-

сии обычно анализируется совокупная значимость коэффициентов. На практике для этого проверяют гипотезу о статистической значимости коэффициента де-

терминации R2:

55

H0: R2 = 0;

H1: R2 > 0.

Для проверки данной гипотезы используется следующая F – статистика:

= 2 −2

1−2 со степенями свободы f1 = 1; f2 = n-2.

Реализация типовых задач

в MS Excel

Для расчета параметров уравнения линейной регрес-

сии и проверки его адекватности исследуемому процессу, Microsoft Excel рас-

полагает функцией Регрессия. Для вызова этой функции необходим пакет статистического анализа.

В поле Входной интервал Y

вводится диапазон ячеек, содер-

жащих исходные данные по ре-

зультативному признаку. Диапа-

зон должен состоять из одного столбца.

В поле Входной интервал X вводится диапазон ячеек, содержащих исходные данные факторного признака. Максимальное число входных диапазонов

(столбцов) равно 16.

Флажок опции Уровень надежности устанавливается в том случае, если уро-

вень надежности отличается от уровня 95%, применяемого по умолчанию.

56

Установленный в данном поле уровень надежности используется для проверки значимости коэффициента детерминации и коэффициентов регрессии.

Если данный флажок сброшен, в таблице параметров уравнения регрессии ге-

нерируются две одинаковые пары столбцов для границ доверительных интер-

валов.

Флажок Константа-ноль устанавливается в том случае, когда требуется, что-

бы линия регрессии прошла через начало координат, т.е. b0 = 0.

Флажок опции График подбора должен быть установлен, если на рабочий лист требуется вывести графики точечные графики зависимости теоретических ре-

зультативных значений от факторных признаков xi.

Результат анализа:

Коэффициент корре- ляции

Коэффициент детерминации

1.Анализ первой таблицы:

57

Коэффициент детерминации больше 0,8, следовательно, модель достаточно ка-

чественная.

2.Анализ второй таблицы:

Проверка гипотезы о значимости коэффициента детерминации. Fв 56,164, Fкр(1;10) = 4,964. Гипотеза отвергается.

3.Анализ третьей таблицы.

Проверка значимости каждого коэффициента регрессии. Уравнение регрессии можно записать в виде: Y=7,504 +0,823X.

значения коэффициентов

значения t-критерия, вычисляемые по формуле

t статистика

коэффициенты

 

стандартная ошибка

Нижние 95% и Верхние 95% ‒ нижние и верхние границы доверительных ин-

тервалов для коэффициентов регрессии.

Гипотеза относительно углового коэффициента: 0 ( 0,578;1,068 ) – гипотеза от-

вергается.

Гипотеза относительно свободного коэффициента: 0 ( 7,867;22,874 ) – гипотеза не отвергается.

Общий вывод: в целом модель адекватна, фактор X имеет существенное влия-

ния на фактор Y. Однако, данная модель не подходит для прогнозирования, а

только для принятия решения, поскольку только две гипотезы из трех значимы.

Контрольные вопросы

1.Корреляционный анализ. Проверка значимости параметров связи.

2.Интервальное оценивание коэффициента регрессии.

58

3.Регрессионные коэффициенты. Графики остатков.

4.Коэффициент корреляции.

5.Microsoft Excel. Режим работы «Регрессия».

6.Microsoft Excel. Функция «Анализ данных «Коэффициенты регрессии».

Тема 6: Временные ряды. Прогнозирование

В настоящее время для изучения свойств сложных систем, в том числе и при экспериментальных исследованиях, широко используется подход, основанный на анализе сигналов, произведенных системой. Это очень актуально в тех слу-

чаях, когда математически описать изучаемый процесс практически невозмож-

но, но в нашем распоряжении имеется некоторая характерная наблюдаемая ве-

личина. Поэтому анализ систем, особенно при экспериментальных исследова-

ниях, часто реализуется посредством обработки регистрируемых сигналов.

Обычно такой сигнал называется наблюдаемой, а метод исследования — ре-

конструкцией динамических систем. Наблюдаемая — это последовательность значений некоторой переменной (или переменных), регистрируемых непрерыв-

но или через некоторые промежутки времени. Часто вместо термина наблю-

даемая используется понятие временной ряд. Временной ряд – это последова-

тельность чисел; его элементы — это значения некоторого протекающего во времени процесса. Изучение временного ряда на практике чаще всего имеет своей целью подбор статистической модели, описывающей временной ряд, и

предсказание будущих его значений.

Требования, предъявляемые к временным рядам при моделировании показате-

лей:

уровни ряда должны быть сопоставимы, сформированы по одним мето-

дикам, иметь одинаковые единицы измерения и один шаг измерения;

число уровней временного ряда должно быть достаточным для определе-

ния параметров модели (7-10 на один параметр)

59

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]