Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

605

.pdf
Скачиваний:
5
Добавлен:
06.12.2022
Размер:
2.47 Mб
Скачать

Согласно эмпирическому правилу описательной статистики примерно 68 % ошибок прогнозов должны попадать в пределы одной стандартной ошибки регрессии (СОР) от линии наименьших квадратов и около 95 % ошибок прогнозов должны находиться в пределах 2*СОР от линии наименьших квадратов.

В нашем примере абсолютное значение примерно 68 % ошибок должно быть меньше или равно $13772, а абсолютное значение примерно 95 % ошибок должно быть меньше или равно $27544, или 2*13772. Анализируя значения ошибок в столбце E табл. 5.3, б, видим, что 9 из 14, или 64 %, ошибок прогнозов находятся в пределах одной СОР от линии наименьших квадратов и что все 100 % ошибок прогнозов находятся в пределах 2*СОР от линии наименьших квадратов.

На основании оценки параметров линейного тренда можно сделать вывод о том, что полученная модель удовлетворительно описывает эмпирические данные и может быть использована в прогнозировании текущих расходов завода, связанных с выпуском холодильников.

Любое значение ошибки прогноза, располагающееся на расстоянии более 2*СОР от линии наименьших квадратов, называется резко отклоняющимся значением. Выявление источников таких отклоняющихся значений помогает улучшить эффективность бизнеса. Например, в какой-то месяц фактические текущие расходы оказались на $30000 больше, чем ожидалось. Если нам удастся установить причину этого и предотвратить ее появление, мы наверняка повысим эффективность работы завода.

Аналогично анализируем месяц, где фактические издержки оказались на $30000 меньше, чем ожидалось. Если мы сможем установить причину этого отклонения и обеспечить ее более частое проявление, то также повысим эффективность работы завода.

Какие функции MS Excel можно использовать при оценке прямолинейной зависимости, чтобы определить крутизну и точку пересечения с осью y линии, обеспечивающей

наиболее точную аппроксимацию данных?

Это функции НАКЛОН и ОТРЕЗОК, которые находятся в категории Статистические, возвращают в точку вызова наклон (крутизну) и точку пересечения линии наименьших квадратов с осью y .

Имеют соответственно синтаксис:

НАКЛОН(известные_ значения _ y;известные _ значения _ x) ;

(5.3)

ОТРЕЗОК(известные_ значения _ y;известные_ значения _ x) .

(5.4)

Введя в клетку G2 табл. 5.3, а формулу = НАКЛОН(C2:C15;B2:B15), получим наклон (64,2687) линии наименьших квадратов (см. табл. 5.3, б).

Аналогично, записав в клетку G3 табл. 5.3, а формулу = ОТРЕЗОК(C2:C15;B2:B15), по-

лучим точку пересечения с осью y (37894,1) линии наименьших квадратов (см. табл. 5.3, б).

Функция

 

К ВП И РС О Н (извест ные _ значения _ y; извест ные _ значения _ x)

(5.5)

возвращает значение R2 , сопоставленное с линией наименьших квадратов. Таким образом,

формула = КВПИРСОН(C2:C15;B2: B15) в ячейке G4 табл. 5.3, а показывает, что для нашей

линии наименьших квадратов значение R2 равно 0,688202841 (см. табл. 5.3, б).

Рассмотрим теперь случай, когда результативный показатель Y (количественный) зависит от нескольких (независимых между собой) количественных признаков-факторов X = (X1, X2 ,..., Xn ) и есть предположение, что эта зависимость линейная. В этом случае мате-

матическая модель линейной зависимости имеет вид:

Y* = a + b X

1

+ b X

2

+ ...+ b X

n

и для ее

 

1

2

n

 

построения используются инструменты линейного многофакторного регрессионного анализа (множественная регрессия). Вид и параметры уравнения регрессии устанавливаются с помощью метода наименьших квадратов отклонений эмпирических данных от ожидаемых значений.

91

Задание 24 [13]

Завод выпускает три вида небольших холодильников (A, B, C). Имеются фактические данные за 18 месяцев о ежемесячном количестве произведенных холодильников по видам и соответствующих текущих расходах завода (табл. 5.4). Используя логическое предположение о наличии линейной зависимости между текущими расходами и числом произведенных холодильников по типам, определить эту зависимость и оценить качество полученной модели. Как спрогнозировать текущие расходы завода, зная количество выпущенных за месяц холодильников каждого типа? [13].

Таблица 5.4

Выпуск холодильников по видам и текущие расходы завода

Искомое уравнение линейной зависимости ежемесячных текущих расходов завода от количества выпускаемых заводом холодильников по типам для нашего примера имеет следующий общий вид:

Текущие _ расходы = а + b1 Холод _ А + b2 Холод _ B + b3 Холод _ C .

(5.6)

Для определения параметров зависимости можно воспользоваться надстройкой Пакет анализа, который содержит инструменты для анализа научных и финансовых данных. Среди них есть инструмент Регрессия, который используют для построения математической модели множественной регрессии. Инструмент Регрессия вызывается командой меню Сервис, Анализ

данных, Регрессия.

П р и м е ч а н и е. Если надстройка Пакет анализа в MS Excel не установлена, выполните команду Сервис, Надстройки, затем включите флажки Пакет анализа (Analysis ToolPak) и Analysis ToolPak — VBA и нажмите кнопку OK.

Порядок использования инструмента Регрессия для построения модельного уравнения

1.На листе рабочей книги MS Excel в диапазоне A3:E21 создайте таблицу (см. табл. 5.4) с фактическими данными о ежемесячном количестве произведенных холодильников по типам и соответствующих текущих расходах завода.

2.Вызовите команду Сервис, Анализ данных, Регрессия и нажмите кнопку ОК. В результате на экран дисплея выводится диалоговое окно команды с заголовком «Регрессия». Заполните это окно в соответствии с рис. 5.4:

входной интервал Y ($B$3:$B$21) содержит значения зависимой переменной (текущие расходы), включая заголовок столбца; значения зависимой переменной мы хотим спрогнозировать;

входной интервал X ($C$3:$E$21) содержит значения независимых переменных (количество произведенных холодильников по типам), включая заголовки столбцов; возможности

92

MS Excel ограничены 15-ю независимыми переменными [13], кроме того, они должны находиться в смежных столбцах;

поскольку входной интервал Y и входной интервал X включают заголовки столбцов, то следует включить флажок Метки;

флажок Уровень надежности полученных результатов [6] можно не включать (по умолчанию этот уровень задается равным 95 % в соответствующем текстовом поле справа от флажка);

полученные результаты выведем на новый лист с именем Регрессия, поэтому надо включить переключатель Новый рабочий лист и задать в соответствующем текстовом поле справа от переключателя имя этого листа; лист с именем Регрессия добавится в книгу автоматически;

включив флажок Остатки, мы просим вывести для каждого месяца спрогнозированное по полученной модели значение текущих расходов и остаток, равный разности между фактическими и спрогнозированными значениями текущих расходов завода.

3. Результаты анализа данных выводятся на лист Регрессия в виде четырех таблиц: Регрессионная статистика, Дисперсионный анализ, Параметры уравнения регрессии, Вывод остатков (рис. 5.5, 5.6).

Какое уравнение для прогноза наилучшее?

Из таблицы Параметры уравнения регрессии (см. рис. 5.5, столбец Коэффициенты) видим, что лучшее уравнение имеет вид:

Текущие _ расходы = 34440,97 +1,82* Холод _ А + 5,09* Холод _ B + 4,83* Холод _ C . (5.7)

Рис. 5.4. Диалоговое окно с заголовком «Регрессия»

В таблице Регрессионная статистика (см. рис. 5.5) выведен показатель Множественный R, вычисляемый по формуле R2 , он равен 0,83. Если Множественный R ≥ 0,7 , то связь между зависимой переменной Y и независимыми переменными X1, X2 , X3 считается сильной.

Далее необходимо проверить значимость полученного уравнения регрессии, т.е. установить, соответствует ли математическая модель, выражающая зависимость между переменными, фактическим (экспериментальным) данным и достаточно ли включенных в уравнение независимых переменных ( X1, X2 , X3 ) для описания зависимой переменной Y . Проверка значимости

уравнения производится по данным таблицы Дисперсионный анализ (см. рис. 5.5). Уравнение регрессии значимо для прогнозирования, если выражение (1-Значимость F) близко к 1. Из таблицы Дисперсионный анализ (столбец Значимость F) видим, что выражение (1-0,000603959) равно 0,999396041 и близко к 1. Следовательно, полученное модельное уравнение регрессии значимо для прогнозирования.

93

94

Рис. 5.5. Итоговые результаты расчетов в форме таблиц: Регрессионная статистика, Дисперсионный анализ, Параметры уравнения регрессии

Рис. 5.6. Прогнозные значения текущих расходов и остатки

Посмотрим теперь, какие из независимых переменных (Холод_А, Холод_B, Холод_C) полезны для прогнозирования ежемесячных текущих расходов? Любая независимая переменная, P-Значение которой (см. рис. 5.5, таблица Параметры уравнения регрессии, столбец P-Значение) меньше или равно 0,05 (при заданном уровне надежности 95 % уровень значимости α =10,95 = 0,05) , считается полезной для прогнозирования зависимой переменной. Таким образом, чем меньше P-Значение, тем выше влияние на прогноз зависимой переменной. Наши P-Значения трех независимых переменных — 0,2729 (Холод_A), 0,0097 (Холод_B), 0,0133 (Холод_C) можно интерпретировать следующим образом:

если при прогнозировании ежемесячных текущих расходов мы используем переменные Холод_B и Холод_C, то существует 73–процентная (1-0,27) вероятность того, что переменная Холод_A улучшит прогноз;

если при прогнозировании ежемесячных текущих расходов мы используем переменные Холод_A и Холод_C, то существует вероятность 99,1 % (1-0,009), что переменная Холод_B улучшит прогноз;

если при прогнозировании ежемесячных текущих расходов мы используем переменные Холод_A и Холод_B, то существует вероятность 98,7 % (1-0,013) того, что переменная Холод_C улучшит прогноз.

Наши P-Значения указывают, что переменная Холод_A не добавляет заметной прогнозной способности переменным Холод_B и Холод_C. Другими словами, если мы знаем значения переменных Холод_B и Холод_C, то можем спрогнозировать ежемесячные текущие расходы практически с такой же точностью, как если бы мы дополнительно использовали Холод_A в качестве независимой переменной. Следовательно, мы можем не применять Холод_A в качестве независимой переменной и в прогнозе использовать только независимые переменные Холод_B и Холод_C.

Учитывая результаты проведенного выше анализа, удалим из фактических данных (см. табл. 5.4) столбец C и пересчитаем регрессию. Результаты сделанных изменений приведены в таблицах Регрессионная статистика пересчитанной регрессии, Дисперсионный анализ пересчитанной регрессии, Параметры уравнения пересчитанной регрессии, Остатки пересчитанной регрессии (рис. 5.7, 5.8).

Окончательный вид полученного модельного уравнения регрессии:

Текущие _ расходы = 34719,39 + 6,1488* Холод _ B + 5,3804* Холод _ C .

(5.8)

 

95

96

Рис. 5.7. Итоговые результаты расчетов пересчитанной регрессии в форме таблиц: Регрессионная статистика пересчитанной регрессии, Дисперсионный анализ пересчитанной регрессии, Параметры уравнения пересчитанной регрессии

Из таблицы Регрессионная статистика пересчитанной регрессии видно, что значение R2 = 0,67. Это означает, что независимые переменные Холод_B и Холод_С совместно объясняют 67 % изменений в ежемесячных текущих расходах. Заметим, что в первоначальной регрессии, включавшей независимую переменную Холод_A, значение R2 равнялось 0,69. Это говорит о том, что добавление Холод_A в качестве независимой переменной позволит дополнительно объяснить только 2 % изменений в ежемесячных текущих расходах. Эта незначительная разница подтверждает исключение переменной Холод_A из числа независимых.

В таблице Вывод остатков пересчитанной регрессии (см. рис. 5.8) для каждого месяца мы имеем спрогнозированные текущие расходы, а также остаток, равный разнице между фактическими и прогнозируемыми расходами. Например, для первого месяца прогнозируемые расходы равны 43038,89, а фактические расходы — 44439; остаток 1400,10 указывает, что наш прогноз меньше фактических расходов на 1400,10.

Рис. 5.8. Прогнозные значения текущих расходов и остатки пересчитанной регрессии

С целью закрепления практических навыков использования инструментов регрессионного анализа MS Excel в моделировании зависимостей между экономическими показателями выполните контрольные задания и представьте работу к защите преподавателю.

Контрольные задания

1. Парная регрессия.

В табл. 5.5 приведены фактические данные о сменной добыче угля (Y, т) на одного рабочего и мощности угольного пласта (X, м) по 10 шахтам [6].

 

 

 

 

 

 

 

 

 

 

 

Таблица 5.5

Сменная добыча угля на одного рабочего и мощность угольного пласта

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Номер шахты

 

1

2

3

4

5

6

7

8

9

 

10

 

 

 

 

 

 

 

 

 

 

 

 

Мощность угольного пласта

8

11

12

9

8

8

9

9

8

 

12

X, м

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Сменная добыча угля

на

5

10

10

7

5

6

6

5

6

 

8

одного рабочего Y, т

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Проверьте логическое предположение о наличии линейной зависимости между показателями X и Y. Постройте математическую модель зависимости, оцените ее качество и возможность использования для прогноза. Найдите прогнозное значение Y для X = 10 м.

97

Квартальные доходы универмага от продажи игрушек за период 1993–1997 гг.
(1-й квартал)
Таблица 5.7

2. Множественная регрессия.

В табл. 5.6 приведены фактические данные о затратах на ремонт оборудования в зависимости от срока эксплуатации оборудования и выпуска (съема) продукции на нем [3].

 

 

Таблица 5.6

Затраты на ремонт оборудования

 

 

 

Срок эксплуатации

Выпуск продукции X2,

Затраты на ремонт Y,

оборудования X1, лет

тыс. р./год

тыс. р./год

 

 

1,3

1200

0,12

2,1

2100

1,1

4,1

5000

2,3

 

 

 

1

4500

0

 

 

 

0

5000

0

 

 

 

1,75

6000

1,1

 

 

 

2,3

3200

1,8

 

 

 

12,1

1000

7,8

10

6700

7,1

1

1200

0,67

 

 

 

8,6

4300

6,75

 

 

 

3,4

2670

1,75

 

 

 

Используя логическое предположение о линейной зависимости затрат Y на ремонт оборудования от срока эксплуатации X1 и выпуска продукции X2, постройте математическую модель зависимости. Уровень надежности задайте равным 67 %. Оцените качество и возможность использования полученной модели для прогнозирования.

5.2. Прогнозы методом «Скользящее среднее». Оптимальное число периодов для прогноза

5.2.1. Интерпретация временных рядов при помощи Скользящего среднего

Данные временного ряда отображают значения признака Y, измеренные в последовательные моменты времени X. На текущем листе рабочей книги Excel (табл. 5.7) представлен временной ряд квартальных доходов универмага от продажи игрушек за ряд лет [13]. Данные охватывают временной интервал от первого квартала 1993 г. до первого квартала 1997 г. Заметим, что продажи игрушек в четвертом квартале текущего года всегда больше продаж в первом квартале следующего года (из-за новогодних и рождественских праздников).

По данным этого временного ряда определим, имеется ли тенденция к росту квартальных доходов универмага от продажи игрушек.

В среде моделирования MS Excel для парной регрессии легко получить ответ на данный вопрос, используя метод диаграмм, который обсуждался нами ранее (см. подразд. 5.1).

Чтобы построить диаграмму по данным этого временного ряда, перенумеруем в таблице кварталы по порядку номеров, указав для каждого соответствую-

98

щие доходы от продаж, а годы уберем (табл. 5.8). Далее выделим в этой таблице диапазон A1:B18, вызовем Мастера диаграмм, на вкладке Стандартная выберем тип диаграммы Точечная, Вид 2, подпишем название диаграммы, на вкладке Легенда включим флажок Добавить легенду, сохраним диаграмму (рис. 5.9) и присвоим листу имя Тенденция. На рис. 5.9 наблюдается тенденция к росту квартальных доходов универмага от продажи игрушек, однако из-за продаж четвертого квартала доходы первых трех кварталов кажутся не столь значительными, и это затрудняет выявление тенденции.

Таблица 5.8

Поскольку в году четыре квартала, полез-

 

 

но построить график среднего дохода за послед-

Поквартальные доходы универмага

ние четыре квартала. Использование среднего

от продажи игрушек

позволяет не учитывать влияние сезонных коле-

 

 

баний, так как каждое среднее будет включать

 

 

 

 

данные для первого, второго, третьего и четвер-

 

 

того кварталов. Такой график называется графи-

 

 

ком Скользящего среднего, поскольку среднее,

 

 

представленное линией, рассчитывается для не-

 

 

которого интервала времени.

 

 

Чтобы создать график Скользящего сред-

 

 

него для квартальных доходов, выделим полу-

 

 

ченную на рабочем листе Тенденция построен-

 

 

ную диаграмму, щелкнув ее левой клавишей

 

 

мыши, а затем щелкнем на ней любую точку

 

 

данных, чтобы цвет всех точек графика изме-

 

 

нился на золотой. Далее укажем мышью на лю-

 

 

бую точку графика, нажмем правую кнопку мы-

 

 

ши, выберем в контекстном меню команду До-

 

 

бавить линию тренда, на вкладке Тип выберем

 

 

тип линии тренда Линейная фильтрация, а в по-

 

 

ле Точки установим значение 4. Далее на вкладке

 

 

Параметры включим переключатель Другое:, в соответствующее текстовое поле введем Скользящее среднее за 4 квартала и нажмем кнопку ОК. В результате Excel построит кривую тренда на основе значений скользящего среднего за четыре квартала (рис. 5.10).

Рис. 5.9. Квартальные доходы универмага от продажи игрушек, представленные методом диаграмм

Для каждого квартала Excel отображает среднее значение за текущий и три последних квартала. Конечно, для скользящего среднего за четыре квартала наша кривая среднего начина-

99

ется с четвертой точки данных. По кривой скользящего среднего видим, что в продажах игрушек наблюдается стабильная тенденция к возрастанию, вплоть до квартала 17.

Рис. 5.10. Квартальные доходы универмага от продажи игрушек и тренд Скользящее среднее

5.2.2. Прогнозы с использованием Скользящего среднего

Любому универмагу, торгующему тысячами видов товаров, необходим простой и эффективный способ прогнозирования спроса (например, на следующую неделю) на каждый вид. Чаще всего прогнозируют спрос на следующую неделю с использованием среднего значения спроса, например, для последних трех недель. Точки данных, использованные в прогнозе, "смещаются" каждую неделю, причем значение спроса трехнедельной давности замещается значением спроса текущей недели.

Многие компании определяют спрос на следующую неделю исходя из того, что он равен спросу на прошлой неделе. В сущности, этот метод является прогнозом на основе скользящего среднего за одну неделю.

Прогноз на основе скользящего среднего, учитывающего данные нескольких периодов, обычно более точен, чем прогноз на основе скользящего среднего за одну неделю, поскольку при увеличении числа периодов сглаживаются помехи, свойственные любым данным, связанным со спросом. Но применять длинный интервал (например, 52 недели) для определения продаж на следующую неделю в компаниях с быстроменяющимся спросом нельзя, прогнозы окажутся неточными, поскольку при этом будут использоваться устаревшие данные для расчетов будущего спроса.

Каковы недостатки использования Скользящего среднего при прогнозировании? Скользящее среднее зачастую не позволяет получить точные прогнозы по двум причинам.

1.Если в данных наблюдается тенденция к росту, скользящее среднее будет давать отставание. Например, если продажи увеличиваются на 1000 ед. в неделю, скользящее среднее за три недели всегда будет прогнозировать на 2000 ед. меньше величины спроса [13].

2.Если прослеживаются заметные сезонные колебания, прогноз на основе Скользящего среднего может оказаться неточным. Например, прогнозируемые доходы универмага от продажи игрушек в четвертом квартале на основе Скользящего среднего за три квартала окажутся очень заниженными, поскольку скользящее среднее не учитывает данные предыдущего четвертого квартала, а практика показывает, что продажи игрушек в четвертом квартале значительно возрастают.

Несмотря на недостатки прогнозов на основе Скользящего среднего, этот метод прогнозирования применяется довольно широко. Основной вопрос при использовании данного метода

100

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]