Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Множественная линейная регрессия

..pdf
Скачиваний:
2
Добавлен:
12.11.2023
Размер:
2.07 Mб
Скачать

В ячейке D23 получаем значение 0,88.

Аналогичным образом поступим для расчета остальных коэффициентов. После вычисления получаем:

Для наглядности оформим значения коэффициентов корреляции в таблицу.

Фактор

Коэффициент парной корреляции

Х4

0.88

Х5

0.96

Х6

0.95

Х7

0.21

Х8

0.89

Х9

0.92

Х10

0.90

Х11

0.93

Х12

0.60

Х13

0.97

2) Рассчитаем коэффициент автокорреляции между двумя факторами. Для этого также воспользуемся функцией КОРРЕЛ (массив1; массив2). Разница заключается лишь в том, что в первом случае находили корреляционную зависимость между измеренной величины xi с другой измеренной величиной yi; а сейчас мы вычисляем коэффициенты корреляции между величинами xi.

21

После вычисления получаем:

Если один из коэффициентов частной корреляции между факторами примерно равен 0.99, то один из этих факторов исключаем. Между факторами х5 и х6 коэффициент частной корреляции равен 0.99, поэтому х6 исключим.

Выберем три фактора, в наибольшей степени влияющие на производительность труда. В нашем примере это будет:

х5 – капиталовооруженность одного работающего; х11 – коэффициент загрузки оборудования; х13 – коэффициент производительности оборудования.

В дальнейшем для построения модели и ее оценки факторы (х5; х11; х13) обозначим как (х1; х2; х3) соответственно.

22

Построим новую таблицу со значениями тех показателей, которые мы выбрали. Теперь мы будем работать с ней.

2. Построить многофакторную линейную модель по трем выбранным факторам. Общий вид уравнения множественной регрессии обычно стараются представить

в форме линейной зависимости:

у = а0 + а1x1 + а2x2 + …+ аmxm,

где а0 – свободный член (или сдвиг); а1, а2, …, аm коэффициенты регрессии, которые подлежат вычислению методом наименьших квадратов.

При анализе уравнения множественной регрессии используется также такое понятие, как ошибка прогнозирования у. Последняя понимается как разность между рассчитанным значением функции yˆi и ее измеренным (опытным) значением yi, т.е. ∆у = yˆi yi.

Для построения линейной модели воспользуемся Мастером функций, функцией ЛИНЕЙН(известные_значения_y;известные_значения_x;конст;статистика).

Эта функция рассчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.

23

Sy;Fрасч;df: Sрегр;Sост

Уравнение для прямой линии имеет следующий вид:

y = а1x1 + a2x2 + ... + amxm + a0,

где зависимое значение y – функция независимых значений xk, k = 1, 2, … m; значения ak – коэффициенты, соответствующие каждой независимой переменной xk; a0 – постоянная.

Функция ЛИНЕЙН возвращает массив {am;am–1;...;a1;a0}. ЛИНЕЙН может также возвращать дополнительную регрессионную статистику.

Конст – логическое значение, которое указывает на то, требуется ли, чтобы константа a0 была равна 0. Если конст имеет значение ИСТИНА или опущено, то a0 вычисляется обычным образом. Если аргумент конст имеет значение ЛОЖЬ, то a0 полагается равным 0 и значения a подбираются так, чтобы выполнялось соотношение y = ax.

Статистика – логическое значение, которое указывает на то, требуется ли вернуть дополнительную статистику по регрессии. Если аргумент статистика имеет значение ИСТИНА, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику,

так что возвращаемый массив будет иметь вид: {am;am–1;...;a1;a0: Sam; Sam–1;...; Sа2; Sа1:R2; }. Если аргумент статистика имеет значение ЛОЖЬ или опущен, то

функция ЛИНЕЙН возвращает только коэффициенты ak и постоянную а0. Дополнительная регрессионная статистика выдается в виде:

am

 

am–1

 

а2

 

а1

а0

Sam

 

Sam–1

 

Sа2

 

Sа1

Sа0

R2

 

Sy

 

 

 

 

 

 

Fрасч.

 

df

 

 

 

 

 

 

Sрегр2

 

Sост2

 

 

 

 

 

 

 

 

 

Sа1, S а2,S am–1, Sam

 

стандартные значения ошибок для коэффициентов а1, а2, ..., аn

Sа0

 

стандартное значение ошибки для постоянной a0 (Sа0= #Н/Д, если

 

конст имеет значение ЛОЖЬ)

 

 

 

 

 

 

 

R2

 

коэффициент детерминации

 

 

 

 

Sy

 

стандартная ошибка для оценки y

 

 

Fрасч

 

критерий Фишера

 

 

 

 

df

 

число степеней свободы

 

 

 

 

Sрегр2

 

регрессионная (объясненная) вариация

 

 

 

 

 

 

 

 

 

Sост2

 

остаточная вариация

 

 

 

 

Для построения линейной модели действуем в следующей последовательности:

активизируем ячейку Р23;

запустим Мастер функций, в всплывающем диалоговом окне укажем требуемую категорию – Статистические, а затем выделим нужную функцию Линейн, после чего –

ОК;

в появившейся панели Линейн нужно заполнить текстовые поля для Известные значения y (диапазон ячеек Q2:Q21); для Известные значения x (R2:T21); для Конст

(ИСТИНА) и для Статистик (ИСТИНА).

и наконец нажмем кнопку ОК.

24

В результате получаем значение:

Формулу в этом примере необходимо ввести как формулу массива. Для этого выделяем диапазон ячеек (P23:S27), начиная с ячейки, содержащей формулу. Нажмем клавишу

F2, а затем – клавиши CTRL+SHIFT+ENTER.

25

Получаем значения:

Тогда линейная модель примет вид:

 

y = –2150.798 + 0.00142x1 + 1422.01125x2 + 1462.328x3.

(2)

3. Спрогнозировать производительность труда по модели (1) на все кварталы следующего года.

Возьмем значение факторов х5; х11; х13 на 1993 год из табл. 2. Подставляя эти значения в модель (2), найдем прогнозные значения у.

26

Оценим точность прогноза в процентах.

 

 

 

ˆ

)

 

 

 

 

εi =

( yi уi

100 %,

 

 

 

y

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

 

 

 

ˆ

 

где yi – фактическое значение производительности труда; yi – расчетное значение произ-

водительности труда.

 

 

 

 

 

 

ε1 =

(1025 1004.44)

100 % = 2.006 %;

 

 

 

1025

 

 

 

 

ε2 =

(1077 1027.48)

100 % = 4.598 %;

 

 

 

1077

 

 

 

 

ε3 =

(1079 1029.45)

100 % = 4.592 %;

 

 

 

1079

 

 

 

 

ε1 =

(1090 1046.6) 100 % =3.982 %;

 

 

 

1090

 

 

 

ε =

ε1 2 3 4 = 2.006 +4.598 +4.592 +3.982

=3.79 %.

 

4

 

 

4

 

Так как среднее значение ошибки 3.79 % 7 %, значит выбор факторов сделан правильно.

27

Решим предыдущий пример с помощью Анализа данных.

Для нахождения автокорреляции воспользуемся программой Корреляция. Предпримем следующие шаги:

в главном меню выбираем последовательно пункты Сервис/Анализ данных/Корреляция, после чего щелкаем по кнопке ОК;

заполняем диалоговое окно для ввода данных и параметров вывода.

Чтобы получить их, проделаем следующие манипуляции:

укажем Входной интервал (в виде абсолютных ссылок $С$1:$M$21), т.е. адресуем все ячейки, в которых находятся значения функции у и аргументов x1, x2, … xn;

отметим способ Группирования (в нашем случае по столбцам);

флажок для Метки, показывающий, что первая строка содержит название столбца;

выделим Выходной интервал, для этого достаточно указать левую верхнюю ячейку будущего диапазона ($B$38);

нажмем кнопку ОК.

28

Получаем значения:

29

В первом столбце мы получаем корреляцию между Y и Хi (коэффициент парной корреляции между производительностью труда и каждым фактором). В остальных столбцах – коэффициенты автокорреляции между двумя факторами.

29

Для построения многофакторной модели и ее анализа воспользуемся методами ана-

лиза данных – программами Описательная статистика и Регрессия.

Предпримем следующие шаги:

в главном меню выбираем последовательно пункты Сервис/Анализ данных/Описательная статистика, после чего щелкаем по кнопке ОК;

заполняем диалоговое окно для ввода данных и параметров вывода.

Чтобы получить их, проделаем следующие манипуляции:

укажем Входной интервал (в виде абсолютных ссылок $B$1:$D$21), т.е. адресуем все ячейки, в которых находятся значения функции у и аргументов x1, x2;

отметим способ Группирования (в нашем случае по столбцам);

флажок для Метки, показывающий, что первая строка содержит название столбца;

выделим Выходной интервал, для этого достаточно указать левую верхнюю ячейку будущего диапазона ($F$1);

установим флажки, показывающие, что нам нужна информация в виде Итоговой статистики, а также Уровень надежности, равный 95 %; после чего нажмем кнопку ОК.

30

Соседние файлы в папке книги