Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистические и интеллектуальные методы прогнозирования

..pdf
Скачиваний:
6
Добавлен:
12.11.2023
Размер:
8.94 Mб
Скачать

ПРИМЕР 4.2. Построить модели MA (3), MA (4) и WMA (3) для временного ряда:

Исходные данные

y

23.3

 

41.8

42.8

56.2

72.5

 

56.0

70.0

74.9

103.3

 

111.3

 

 

189.3

 

 

 

 

 

 

 

 

 

 

 

125.2

 

169.1

 

193.5

 

203.4

 

221.2

 

263.2

 

264.0

Модели скользящего среднего MA (3), MA (4) и WMA (3) рассчитываются по следующим формулам:

x(k 1) x(k) 13(x(k 1) x(k 2) x(k 3)) ; x(k 1) x(k) 14(x(k 1) x(k 2) x(k 3) x(k 4)) ;

x(k 1) 3x(k) 2x(k 1) 1x( 2). 3 2 1

Результаты прогноза по данным моделям представлены в табл. 4.2 и на рис. 4.5 (жирным шрифтом указаны спрогнозированные значения временного ряда).

Таблица 4.2

Исходные данные, данные моделей MA (3), MA (4) и WMA (3)

y

23.3

 

41.8

 

42.8

 

56.2

72.5

56.0

70.0

74.9

103.3

 

111.3

МА (3)

23.3

 

41.8

 

42.8

 

33.30

46.93

53.17

61.57

66.17

66.97

 

82.73

МА (4)

23.3

 

41.8

 

42.8

 

56.20

42.02

53.32

56.88

63.68

68.35

 

76.05

WMA (3)

23.3

 

41.8

 

42.8

 

42.19

52.82

65.68

66.22

71.79

74.78

 

94.12

 

 

189.3

 

 

 

 

 

 

 

 

 

 

 

 

 

125.2

 

 

 

169.1

 

193.5

 

203.4

 

221.2

 

263.2

 

264.0

96.50

 

113.27

 

141.93

 

161.20

 

183.97

 

190.00

 

203.37

 

231.93

89.88

 

103.68

 

132.28

 

148.72

 

169.28

 

189.82

 

197.80

 

222.32

108.81

 

125.52

 

164.21

 

178.95

 

200.44

 

210.48

 

228.11

 

259.18

61

Рис. 4.5. Графики исходного временного ряда и MA (3), MA (4) и WMA (3)

Анализ моделей показал, что сглаживание на первых точках проходит хуже, а на последующих точках (например, в конце графика) лучше. Качество прогнозирования моделей сопоставимо.

4.3.МОДЕЛЬ ИНТЕГРИРОВАНИЯ (I)

Для прогнозирования бывает иногда удобнее прогнозировать не само значение, а его изменение. Так поступают, если временной ряд является нестационарным, т.е. для модели интегрирования можно этап преобразования временного ряда в стационарный ряд пропустить.

Таким образом, в модели интегрирования временной ряд заменяется изменениями:

y(k) y(k) y(k 1).

(4.13)

На рис. 4.6 представлен сначала исходный временной ряд (зеленый), а далее разностный (красный), т.е. полученный вычитанием соседних значений.

Далее применяется модель авторегрессии, но относительно изменения x(k):

y(k) a0

p

 

ai y(k i).

(4.14)

 

i 1

 

62

Рис. 4.6. Временной ряд с интегрированием 1-го порядка

Для того чтобы просчитать прогнозируемое значение, необходимо к текущему значению процесса прибавлять спрогнозированную разность:

y(k 1) y(k) y(k).

(4.15)

Поскольку суммировать в итоге нужно единожды, то говорят об интеграции первого порядка.

Модель интегрирования 2-го порядка использует разности 2-го порядка:

2 y(k) y(k) y(k 1) .

(4.16)

Однако наращивать порядок интегрирования неразумно – увеличивается трудоемкость.

Если временной ряд имеет определенную периодичность, например, почасовые временные ряды часто имеют суточную периодичность, то можно получать разностный ряд y(k ),

где – период повторения.

По сути модели AR (p), MA (q) и I являются базовыми, на основе которых строятся модели ARMA, ARIMA и др.

63

4.4.МОДЕЛЬ ПРОГНОЗИРОВАНИЯ ARMA

Комбинация авторегрессионного процесса и процесса скользящей средней образует класс временных моделей – ARMA (авторегрессия – скользящая средняя). Данная модель базируется на предположении о том, что текущее значение исследуемого временного ряда зависит только от линейной комбинации предыдущих значений временного ряда и белого шума.

Модель ARMA (р, q) выглядит следующим образом:

y(k) a0

p

q

 

ai y(k i) bi (k i).

(4.17)

 

i 1

i 1

 

Такая модель может интерпретироваться как линейная модель множественной регрессии, в которой в качестве объясняющих переменных выступают прошлые значения самой зависимой переменной, а в качестве регрессионного остатка – скользящие средние из элементов белого шума. ARMA-процессы имеют более сложную структуру по сравнению со схожими по поведению ARили MA-процессами в чистом виде, но при этом ARMA-процессы характеризуются меньшим количеством параметров, что является одним из их преимуществ.

Для построения модели ARMA по серии наблюдений необходимо определить порядок модели (числа p и q), а затем и сами коэффициенты.

Начальное приближение для p выбирается с помощью частичной автокорреляционной функции (ЧАКФ), где p – номер последнего несезонного лага, при котором частичная автокорреляция значима. Начальное приближение для q выбирается с помощью автокорреляционной функции (АКФ), где q – номер последнего несезонного лага, при котором автокорреляция значима [16]. На практике ограничиваются порядками не выше 3-го.

Согласно теореме разложения Вольда [13], любой стационарный временной ряд может быть описан с заданной точностью моделью ARMA. Благодаря своей универсальности данная

64

модель получила широкое признание в области прогнозирования временных рядов.

Расчет модели ARMA осуществляется аналогично моде-

лям AR и MA.

4.5.МОДЕЛЬ ПРОГНОЗИРОВАНИЯ ARIMA

Методология ARIMA (p, d, q), разработанная Боксом и Дженкинсом [13], чрезвычайно популярна во многих приложениях, и практика подтвердила его мощность и гибкость. Общая модель, предложенная Боксом и Дженкинсом, включает три типа параметров модели: параметры авторегрессии (p), порядок разности (d) и порядок скользящего среднего (q).

Общий вид модели ARIMA (p, d, q) имеет вид

u(k) a0

p

q

 

aiu(k i) bi (k i),

(4.18)

 

i 1

i 1

 

где u(k) определяется как разность d-го порядка в соответствии с моделью I.

4.6.МОДЕЛЬ ПРОГНОЗИРОВАНИЯ ARIMAX

После рассмотрения AR и I, и MA остается рассмотреть ту часть, которая в аббревиатуре зашифрована буквой X – eXtended.

Целью расширения всякой модели прогнозирования является добавление в нее учета внешних факторов.

Расширение модели ARIMAX имеет дело с моделью авторегрессии ARIMA (p, d, q) и добавлением в нее показателей другого внешнего ряда z(k) ^

u(k) a

 

p

 

q

 

r

 

 

a u(k i) b

(k i) c z(k i). (4.19)

0

 

i 1

i

i 1

i

i 1

i

65

Для расчета моделей ARMA, ARIMA и ARIMAX используют приложения «Анализ данных программы MS Excel» [17, 18]

и командами MATLAB [7, 19, 20, 21].

4.7.АНАЛИЗ КАЧЕСТВА АВТОРЕГРЕССИОННЫХ МОДЕЛЕЙ

После того, как модель построена, необходимо удостовериться в ее качестве. С этой целью выполняют проверку адекватности модели процессу, объекту или явлению, для которого она построена. Следует отметить, что процедура оценки адекватности регрессионных моделей (см. главу 3) не подходит для оценки авторегрессионных моделей. В авторегрессионных моделях нет возможности выбора регрессоров, поэтому оценка значимости коэффициента множественной корреляции не применяется. Оценка общего качества уравнения тоже не применяется, так как структура авторегрессионных моделей задана.

Для оценки качества авторегрессионных моделей используются следующие метрики [22, 23]:

коэффициент детерминации параметры R2;

средняя абсолютная ошибка (MAE – Mean Absolute Error);

средняя абсолютная ошибка в процентах (MAPE – Mean Absolute Percentage Error);

среднеквадратическая ошибка (MSE – Mean squared error).

Коэффициент детерминации R2 – это доля дисперсии за-

висимой переменной, объясняемая рассматриваемой моделью зависимости, т.е. объясняющими переменными. Формула коэффициента детерминации имеет вид

 

 

 

n

(y

 

 

 

 

 

 

 

 

 

2

 

 

i

y)2

SSE

 

 

R

 

i 1

 

 

 

 

1

,

(4.20)

 

n

 

 

 

 

 

SST

 

 

 

(yi

y)2

 

 

 

 

 

i 1

 

 

 

 

 

 

 

 

 

где yi – известные значения временного ряда;

yi – предсказанные значения;

66

y – среднее значение ряда;

SSE – сумма квадратов значений ошибок модели прогноза; SST – общая сумма квадратов ошибок дисперсии времен-

ного ряда.

Нетрудно заметить, что расчет коэффициента детерминации для авторегрессионной модели аналогичен расчету коэффициента детерминации для регрессионных моделей (3.21). Данная метрика является универсальной мерой зависимости одной случайной величины от множества других. Чем ближе значение коэффициента к 1, тем сильнее зависимость. При оценке регрессионных моделей это интерпретируется как соответствие модели данным (см. главу 3).

Средняя абсолютная ошибка (MAE) определяется по формуле

 

 

n

 

y

y

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

i

 

 

 

 

 

MAE

i 1

 

i

 

 

,

 

 

(4.21)

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

Средняя абсолютная ошибка в процентах (MAPE) – ана-

логичная MAE, но вычисляется в процентах:

 

MAPE 100

n

 

y

y

 

 

 

 

 

 

 

 

 

i

 

 

 

i

.

(4.22)

 

 

 

 

 

 

yi

 

 

 

 

n

i 1

 

 

 

 

 

 

Среднеквадратическая ошибка (MSE) измеряет средне-

квадратическую ошибку прогнозов и определяется как

 

 

n

 

 

 

)

2

 

 

 

 

 

(y y

 

 

 

 

 

MSE

i 1

i

 

i

 

 

.

 

(4.23)

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

Выбор метрик MSE и MAPE можно обосновать тем, что минимизация абсолютной ошибки приводит к нахождению медианы, а не среднего значения, следовательно, данная метрика устойчива к выбросам. В дополнение, MAPE описывает ошибку

67

в процентном соотношении, что делает данный показатель понятной и легко интерпретируемой. Коэффициент R2 используется как процент объясненной дисперсии. Особенности метрик приведены в табл. 4.3.

 

 

 

Таблица 4.3

Сравнительная характеристика основных метрик

 

 

 

 

Название

Что показывает

Достоинства

Недостатки

метрики

 

 

Чувствительна к

Коэффициент

Помогает понять,

Можно сравнить

детерминации

какую долю разнооб-

модели, обученные на

добавлению новых

R2

разия данных модель

разных данных

данных

 

смола объяснить

 

Одинаково штрафует

Средняя

Помогает оценить

Удобная трактовка

абсолютная

абсолютную ошибку,

результатов: погреш-

алгоритм расчета

ошибка

т.е. насколько значе-

ность измеряется в

моделей за расхожде-

(MAE)

ния прогноза расхо-

тех же единицах, что

ния значений (напри-

 

дятся от реальных

и значения временно-

мер, на порядок). Не

 

значений

го ряда

может быть примене-

 

 

 

на для сравнения

 

 

 

моделей, предсказы-

 

 

 

вающих одно и то же

 

 

 

значение, но по раз-

 

 

 

ным признакам

Средняя

Позволяет абстраги-

Легкая интерпрета-

Не подходит для за-

абсолютная

роваться от конкрет-

ция результатов.

дач, где требуется

ошибка в %

ных значений вре-

Определяет ошибки

анализ реальных еди-

(MAPE)

менного ряда. Пока-

разного веса, которые

ниц изменения значе-

 

зывает процентное

не определяются

ний временного ряда

 

соотношение расхо-

MAE и MSE

 

 

ждения реального

 

 

 

значения и прогноза

 

Не может бытьпри-

Среднеквад-

Помогает оценить

Каждая ошибка имеет

ратическая

среднеквадратиче-

свой вес, так как

менена при сравне-

ошибка

ское отклонение про-

большие расхожде-

нии моделей, пред-

(MSE)

гноза, расходится от

ния более заметны за

сказывающих одно и

 

реальных значений

счет возведения в

то же значение, но по

 

 

степень. Позволяет

разным признакам

 

 

усилитьштраф за

 

 

 

большие расхожде-

 

 

 

ния в прогнозах

 

68

4.8.АЛГОРИТМ ПОСТРОЕНИЯ И ИССЛЕДОВАНИЯ АВТОРЕГРЕССИОННЫХ МОДЕЛЕЙ

Расчет авторегрессионных моделей и их исследование осуществляется по следующему алгоритму [22, 23]:

1.Анализ исходных данных. Анализ временного ряда начинается с построения его графика. Анализ графика заключается в определении особенностей временного ряда, определении характера графика (скорость изменения, функциональная зависимость), определении тренда и наличия выбросов, необходимых для сглаживания в прогнозе.

2.Определение диапазона для расчета и исследования про-

гнозирования. Для решения задач расчета и исследования авторегрессионных моделей необходимо выделить период, на основе которого будут рассчитываться данные модели, а также период прогнозирования. Для корректности выбора этих диапазонов необходимо учитывать достаточную выборку диапазонов, скорость изменения значений временного ряда, наличие сезонного тренда

идругие характеристики временного ряда. Однако для выбора диапазонов не существует четкой методики, а для определения диапазона в основном используются экспертные оценки.

3.Проверка исходных данных на стационарность. Провер-

ка исходных данных на стационарность осуществляется в соответствии с подразд. 2.4.

4.Преобразование к стационарному процессу (в случае необходимости). Преобразование к стационарному виду осуществляется одним из методов, описанных в подразд. 2.5.

5.Расчет авторегрессионных моделей. На данном этапе выбираются вид и структура авторегрессионной модели, осуществляется расчет параметров данных моделей.

6.Оценка качества авторегрессионных моделей и выбор модели прогноза. Выбираются метрики, осуществляется расчет значений метрик, анализ полученных результатов и выбор модели прогноза на основе рассчитанных метрик.

69

4.9.ДОСТОИНСТВА И НЕДОСТАТКИ АВТОРЕГРЕССИОННЫХ МОДЕЛЕЙ

Основным достоинством авторегрессионных моделей является факт получения высококачественной модели с адекватным прогнозом при минимуме временных затрат и требований

кисходным данным.

Кнедостаткам можно отнести следующие:

Прогноз по исходным данным возможен только на один период вперед. Если нужно сделать прогноз на более длительный срок, то в качестве влияющих факторов для расчета придется брать не реально существующий Y, а тот который рассчитан по модели, что в итоге даст прогноз на прогнозе, а значит, адекватность такого прогноза, как минимум, в два раза меньше.

С увеличением разрядности авторегрессии возникает необходимость расширять диапазон исходных данных.

4.10. ПРОГРАММНАЯ РЕАЛИЗАЦИЯ АВТОРЕГРЕССИОННЫХ МОДЕЛЕЙ В MS EXCEL

Для исследования авторегрессионных моделей используется Пакет анализа MS Excel, который располагает необходимым набором инструментов для регрессионного анализа. Данный пакет доступен при установке MS Excel. Чтобы использовать эту надстройку, необходимо сначала загрузить ее:

на вкладке Файл выбрать элемент Параметры, затем пункт Надстройки;

нажать кнопку Перейти;

в окне Доступные надстройки установить флажок Пакет анализа, а затем нажить кнопку ОК.

Инструмент Регрессия из Пакета анализа позволяет вычислить следующие данные: коэффициенты линейной функции регрессии (методом наименьших квадратов), коэффициент де-

70

Соседние файлы в папке книги