Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Статистический анализ временных рядов

..pdf
Скачиваний:
2
Добавлен:
19.11.2023
Размер:
47.02 Mб
Скачать

3 .3 . СГЛАЖИВАНИЕ 63

Слагаемое, представляющее усредненную ошибку,

имеет диспер

сию а2/(2т + 1) как среднее 2т +

1 некоррелированных перемен­

ных. Ковариации (последовательных) значений и* суть

 

( 2m +

1— h о

h — 0 , 1, . . . ,

2т,

(8)

ЫЩ+н - { (2т

+ 1)*

f

 

 

к

 

h = 2 т + 1, . . . .

Общая основа для большинства формул сглаживания состоит фактически в подборе сглаживающего полинома по (2 т + 1) по­ следовательным наблюдениям и в использовании этого полинома для оценки тренда в средней точке. Поскольку оценки коэффициен­ тов полинома зависят от наблюдаемых значений линейно, то ли­ нейной является и оценка тренда. Вследствие этого она имеет вид

(2). Предположим теперь, что тренд f (t + s) в точках t + s =

t — m, ..., t + m можно приблизить полиномом

(9)

ft (s) =

<x0 + a xs +

•••

+ aqs4, s = — m, . . . , m.

(Коэффициенты as зависят от t ,

но мы не будем отмечать этого в обо­

значениях.) В

частности,

f (t)

приближенно равно /, (0) = а 0. Ко­

эффициенты этого полинома можно оценить на основании наблюде­

ний yt-m, •••,

yt+m,

используя метод

наименьших квадратов. Нор­

мальные уравнения для оценок а0, аи ..., aq имеют вид

т

 

т

 

т

(10) а0 ^

s' +

а, 2 s/+l + •••

+

ая 2

s= — т

 

SJ= — т

 

^==— т

 

 

=

т

siyt+s, / = 0 , 1, . . . , q.

 

 

2

s==— т

В силу симметрии для любых нечетных степеней k сумма величин sk по всем значениям s от —т до + т равна нулю. Поэтому в соотно­ шении (10) для четных / равны нулю коэффициенты при аи а3, ... , а для нечетных / равны нулю коэффициенты при а0, <ц, ... . Посколь­ ку оценка для f (t) должна быть и оценкой для ft (0 ) = a 0, то до­ статочно решить (10) относительно a„. С этой целью воспользуемся уравнениями с четными /, т. е.

т т т

(11) а0 2

s2' + a2

2 s2l+2+

•••

+ a 2(#/2|

2

^ + 2[<?/2] =

s= — т

s=~/77

 

s= — m

 

 

 

=

,n

s2ly,+„

<=

0 , 1, . . . . [q/2\,

 

 

2

где

 

 

 

 

 

 

(12)

|<?/2 ] =

{ ql<2' когда

q

четное-

 

 

 

 

\ (q— l)/2 ,

когда q нечетное.

 

64

ТРЕНДЫ И СГЛАЖИВАНИЕ

Гл. 3.

Заметим, что уравнения, которые необходимо решить для опреде­ ления а0 при нечетном значении q, в точности совпадают с уравне­ ниями, которые надо решить для определения а0 при меньшем на единицу (четном) значении q. (Нам необходимо исследовать только степени 0 , 2, 4 и т. д.) Пусть [q/2] = k. Тогда (11) можно записать в виде

т т т

( l o )

(2 /п +

1) я0 + 2 2

52а2 +

•••

+

2 ^ s2ka2k =

2

Ut+s,

m

S—1

 

 

m

S—1

s = —m

 

m

 

 

 

m

 

 

2 2

s2‘a0 +

2 2 s2,'+2aa +

• • * +

2

2

s2i+2kaik = 2

s2‘(£/<—s + */<+s),

S=1

 

S=1

 

 

S=1

S—1

 

 

 

 

 

 

 

 

 

t =

1, . . . , k.

Коэффициенты в левых частях этих нормальных уравнений зависят только от т. Коэффициенты при и yt+s в правых частях совпа­ дают, s = 1, ..., т. Решением (13) относительно а0 является

 

т

(14)

а0 = 2 csyt+s

 

s— — m

с c_s = cs. Заметим, что коэффициенты cs зависят от т и k и явля­

ются полиномами от s. Из (14) вытекает, что у] = а0. Используя (14) и замечая, что если yt+s = a, s = —т, ..., т, то ft (s) == а — наи­ лучший выравнивающий полином, можно получить соотношение

т

 

 

 

 

 

 

 

2

cs = 1-

 

 

 

 

 

 

Ssa—m

 

2 и q — 2, т. е. используем для оцен­

Положим для примера т =

ки

%yt значения yt~2, yt~\, yt, yt+1,

г*+2, предполагая, что

некото­

рая

парабола хорошо

приближает значения f

(t 2 ),

f

(t 1),

I (0. M* + 1). / (t + 2). Нормальные уравнения для a0

и a2 имеют

в этом случае вид

 

2

 

 

 

 

 

 

 

yt+s,

 

 

 

 

0 +

10а2 =

2

 

 

 

(15)

 

 

s = — 2

 

 

 

10ао +

34а2 = 2

s2 (yt-$ + yt+s)-

 

 

 

 

 

Отсюда

 

S=1

 

 

 

 

 

 

 

 

 

 

 

2

2

 

 

 

 

 

(16)

Yi Ун*— fSr 2 1 s2 (yt-s + yt+s) =

 

 

 

s——2

s—1

 

 

 

 

 

= (— % < —2 + 12^_i +

17//, + 12г/<+1— 3;/,+2)/35.

 

Если k = 0 (q = 0 или 1), то в (13) имеется всего одно уравнение

 

 

 

 

 

т

 

 

относительно неизвестного а0. Его

решение а0 =

2 ^ +s/(2m + l),

 

 

 

 

 

s= — т

 

 

3 .3 .

СГЛАЖИВАНИЕ

65

т. е. cs = 1/(2т + 1), s = —m, ..., m. Другими словами, сколь­ зящее среднее с равными весами есть частный случай полино­ миального сглаживания. Он имеет место, когда степень полинома равна 0 или 1 .

Таблица 3.3

m

2

3

4

К

u

о

о

л

4

г

О

КОЭФФИЦИЕНТЫ СГЛАЖИВАЮЩИХ ФОРМУЛ ДЛЯ к= 1, 2

 

 

II

с

= с.

2 =

=

Cj

*0

 

 

*

—з

*

 

 

k —

1

 

 

 

 

 

 

 

 

 

 

 

 

3

12

 

17

 

 

 

 

 

35

35

 

35

 

 

 

 

2

3

6

 

7

 

 

 

 

21

21

21

 

' 21

 

 

21

14

39

54

 

59

 

 

231

231

231

231

 

231

36

9

44

69

84

 

89

429

429

429

429

429

 

429

k =

2

 

 

 

 

 

 

 

 

 

 

 

5

30

75

 

131

 

 

 

231

231

231

 

231

 

 

15

 

55

30

135

 

179

 

 

429

 

429

429

429

 

429

18

 

45

 

10

60

120

 

143

429

 

429

 

429

429

429

 

429

Если k — 1 (q = 2 или 3), то нормальные уравнения принимают вид (см. упр. 7)

 

Р » + 1,в . +

g?,+ " ? (,n + ')

я, =

2

й +„

 

 

 

 

s— — m

 

 

пт \

( 2 m + l ) m ( m + l )

„ , (2m + 1) т (т + 1) (Зт2 +

Зт — 1)

_

 

-----------з------------

“o i

— -------------------

 

А* =

 

 

 

 

m

 

 

 

 

 

=

2 1

S2 ( # _ s +

t/<+s) .

Их решением является

 

 

 

 

 

 

m

 

 

 

 

 

 

2

[3 (3m2 + 3m — 1) — 15s2] yl+s

 

 

(18)

s = — m ____________________

 

 

 

 

 

(2m — 1) (2m + 1) (2m + 3)

 

'

 

 

 

 

 

66

ТРЕНДЫ И СГЛАЖИВАНИЕ

Гл.

3.

В табл.

3.3 приведены значения коэффициентов cs для

k = 1

и

k = 2 и нескольких значений т. Случай k = 1 = 2 или 3) иссле­ дован выше, а случай k = 2 (q = 4 или 5) вынесен в упр. 22. Кен­ далл и Стьюарт (1966, разд. 46.5) приводят коэффициенты для дру­ гих случаев и обсуждают связанные с ними формулы сглаживания.

Необходимо отметить, что при m < £ коэффициент а0 остается неопределенным. При т = k производится подбор полинома степени

2k + 1 по + 1 =

2k + 1 точкам. Такой подбор выполняется

точно и поэтому а„ =

уг Если т > k, то скользящее среднее не­

тривиально, т. е. в него входит несколько значений yt |_s. В простей­ шем из таких случаев U, т = k + 1 ,

09)

 

 

 

,2k + 2\

 

 

 

 

 

 

 

 

(20)

с_. =

с. - < - I T С ( f ++ ,2+

s) .

* =

1.......... « .

где

 

l2k + 2\

(2 6 + 2 )!

 

 

 

 

 

 

 

 

ton

г

' * + 1 /

_ (fe+1)!2

_

(26

+ 2)13

'■ 4

 

/4Аг -f- 4 v

(46 +

4)!

 

(6 + l)!2 (46 + 4)! ‘

 

 

(26 + 2)

(26 +

2)!2

 

 

 

Мы убедимся в этом в § 3.4, после того как получим ряд результа­ тов, связанных с последовательностями разностей.

3.3.2.Свойства процедур сглаживания

Перейдем теперь к рассмотрению некоторых свойств указанных методов сглаживания. Одна из основных задач сглаживания со­ стоит в том, чтобы уменьшить случайную ошибку, т. е. сделать дис­ персию сглаженной последовательности малой по сравнению с дис­ персией исходной последовательности.

Теорема 3.3.1. Дисперсия величины у] = а0 равна

(2 2 ) о2Ь<>0= а2с0,

где Ь00 верхний левый угловой элемент матрицы В-1, обратной к матрице В коэффициентов уравнений (13), элементы которой суть

Ь0о= 2 m + 1,

(23)«

 

btj = 2 Ц

s2<‘+/>,

t + / > 0 , t,

/ =

0 , 1, , .. , k,

 

s== 1

 

 

 

 

 

i)

fh\ -

hl

 

§ -- 0» 1» **•»

h;

0! = L

 

 

 

{g}" gHh-g)! *

 

 

 

3 .3 .

 

 

 

 

СГЛАЖИВАНИЕ

 

67

Д о к а з а т е л ь с т в о .

Е с л и

обозначить

правые

части уравнений (13)

через Yi9

i =

0 , 1,

k9 то эти уравнения можно записать в виде

 

 

к

ьча2/ -

у ь

i =

 

 

 

(24)

 

2

0, 1, . . . .

6,

 

 

/==0

 

 

 

 

 

 

а их решения относительно а0 в виде

 

 

 

 

 

 

к

 

 

т

 

к

 

(25)

 

а0 =

2 т

,

= Ь°°

2

yt+i +

2

bW h

 

 

 

/=0

 

 

>=—m

 

/=1

 

Здесь (blf)

=

В-1. Поскольку У/ не содержат значения yt для / > 0,

то Ь00 является коэффициентом при yt. Общая теория

метода наи­

меньших

квадратов

утверждает, однако,

что дисперсия а0 равна

а2Ь00.

 

 

 

 

 

 

Таблица 3.4

 

 

 

ДИСПЕРСИИ СГЛАЖ ЕННЫ Х ЗНАЧЕНИЙ (о* = 1)

 

Н-

k= о

к = 1

/г = 2

/г == 3

<7

<7

q = 6,7

 

q — 0,1

и 2,3

=я 4,5

3 ■J- = 0.333

54 - = 0.200

ОЖ - 0486

7

 

=

0.143

- J -

=

0.333

| f

-

о д а

9

Т

-

0 4 1

я

-

0 -255

®

-

М 1 7

 

11

Т Г ”

11091

®

-

0'207

- i -

=

0.333

 

 

 

 

Если 6

=

0 , то дисперсия величины г*

есть

а2/(2т + 1). Для

6 = 1 она

равна

 

 

(26)

 

3 (Зт2 + 3m — 1)

 

 

 

(2т — 1) (2т + 1) (2т + 3)

 

 

 

 

 

 

а для т =

6

+ 1

 

 

 

 

(2й +

2)!4

 

 

(4* +

4)! (k + I)!4

В табл. 3.4 приведены дисперсии некоторых сглаженных значений. Для фиксированного 6 дисперсия уменьшается с ростом исполь­ зуемого числа точек. При фиксированном числе точек (т. е. при фик­ сированном т) дисперсия увеличивается с возрастанием 6 . Факти­

68 ТРЕНДЫ И СГЛАЖИВАНИЕ Гл. 3.

чески для фиксированного значения т k, которое вдвое меньше разности числа точек и числа неявно подбираемых констант, диспер­ сия увеличивается с ростом k.

Отметим также, что разность наблюдаемого и сглаженного зна­

чений (yf y*t) не коррелирована с у), поскольку оценки коэф­ фициентов регрессии не коррелированы с остатками. (См упр. 7 гл. 2.) Поэтому

(28)Var (yt y't) = а2 — Var у] = <т2(1 — с0).

Как было указано выше, последовательные сглаженные величи­

ны

являются

коррелированными.

Например, корреляции у) с

yt-1, y't-2, y’t-ъ

и y t’- 4 для

случая

k

=

1 и т — 2 равны соответст­

венно

 

 

 

 

 

 

(29)

Ц -

0.565;

0.071;

— Ц

г » -0 .1 2 1 ;

- 0.015.

Мы изучим еще это явление в'гл. 7, после того как разовьем более мощный математический аппарат.

Если yt — f (f) + ut и используется сглаживающая формула с коэффициентами cs, то систематическая ошибка сглаженной вели­ чины имеет вид

 

 

 

т

(30)

=

2 c j(t + S).

 

 

 

s=—m

Если сглаживающая формула основывается на полиноме степени q и тренд является полиномом той же (или меньшей) степени, то систематическая ошибка будет равна 0. В противном случае она отлична от нуля. Предположим, что k = 0 (q = 0 или 1) и коэффи­ циенты те же. Тогда систематическая ошибка выражается соот­ ношением

 

 

т

(31)

m - y ' i ) = f V) -

sJ L w +*).

т. e. разностью между f (f) и средним арифметическим соседних зна­

чений. Предположим,

что f (t + s), s = —m....... m,

записывается

с помощью ортогональных полиномов

степени,

не

превышающей

+

1 (ортогональных на множестве —т, ..., т), в виде

(32)

/ {t + s) = у0+

Т1ф1,2т+1 (s) +

• • •

+ Т2т+1ф2т+1.2т+1 (s),

 

 

 

 

 

s =

т, . .. , т.

Тогда

использование

сглаживающей

формулы,

основывающейся

на полиноме степени 2k или 26 +

1 , приводит к систематической

3.3.

СГЛАЖИВАНИЕ

69

ошибке

(33)%(yt - y < ) =

= Y2ft+2<P2ft+2,2m+l (°) + <'’2* + 4<*?2/!+4.2m +l ( ° ) +

* " + Ь п (Р2m,2m-fl (0 ),

поскольку выравнивающий полином состоит из элементов соотно­ шения (32) степени до 2k или 2k + 1 включительно и ф*,2т-и (0) =

=0 для нечетных i. (См. упр. 30.)

Вгл. 4 мы будем изучать случай, когда среднее значение явля­

ется функцией / (i) = cos

(Xt — 0), т.

е. косинусом с периодом

2я/Я. Если при этом коэффициенты cs =

1/(2т + 1), то ожидаемое

значение сглаженной переменной запишется в виде

1

Ш

 

(34)

 

 

/ (/), 0 < X< 2я.

(См. упр. 31.) Таким образом, операция сглаживания здесь про­ сто уменьшает амплитуду функции f (/). Если X мало (т. е. период велик), то и это уменьшение мало (упр. 32). При фиксированном X большим значениям т (удовлетворяющим неравенству (2т + + 1) X < 2л) соответствует меньший коэффициент пропорциональ­ ности (упр. 33). Если 2m + 1 = 2л/Х (длина скользящего усредне­ ния равна периоду), то сглаженное значение равно нулю.

Основная цель сглаживания состоит в оценивании тренда, или ожидаемого значения yt с наименьшей ошибкой. Ошибка склады­

вается здесь из смещения (30) и случайной составляющей и] —

2 csut+s- Первую составляющую можно измерить ее квадратом,

авторую — ее дисперсией а2Ь°° = ст2с0. При фиксированном k смещение с увеличением т в большинстве случаев возрастает, а дисперсия убывает. В то же время при фиксированном m смещение с увеличением k убывает, а дисперсия возрастает. Статистик, кото­ рому приходится использовать сглаживающую формулу, должен выбрать значения k и т. Он мог бы использовать в качестве меры ошибки среднеквадратичную ошибку, которая является суммой указанной дисперсии и среднего квадрата смещения. Если бы дис­ персия а2случайных ошибок щ была известна и если бы были извест­ ны средние квадраты смещений для каждой комбинации k и т, то статистик смог бы выбрать комбинацию k и т, минимизирующую эту меру ошибки. Однако здесь трудно дать какую-либо рекоменда­ цию, поскольку дисперсия и среднеквадратичное смещение ведут

70 ТРЕНДЫ И СГЛАЖИВАНИЕ Гл. 3.

себя в отношении k и т противоположным образом. Если а2 мало, то можно удовлетвориться относительно малым т.Чем более гладкой является f (f), тем меньшим может быть выбрано k при фиксирован­ ном т (или тем большим выбрано т при фиксированном k). В дейст­ вительности, конечно, эти характеристики не известны, а должны быть оценены по имеющимся данным. Поэтому выбор k n m является статистической задачей со многими решениями, которую трудно даже сформулировать, не говоря уже о ее строгом статистическом решении. Поэтому практик должен действовать здесь исходя из своей интуиции и накопленного опыта.

Другой подход состоит в том, чтобы выяснить, каково наимень­

шее к, такое, что средний квадрат смещения

близок или равен

нулю, когда т фиксировано или

когда т — заданная

функция

переменной k> например т = k +

1. Мы рассмотрим этот подход

в следующем параграфе.

для оценки

тренда

является

Преимуществом сглаживания

его гибкость в том смысле, что предположения, при которых его можно использовать, не очень обременительны. Однако, поскольку этот метод не основывается на явной вероятностной модели, свойст­ ва его не вполне определены и статистические выводы ограничены. Например, тренд здесь не определяется малым числом параметров, для которых можно было бы указать доверительные области. Не­ возможно проверять гипотезы относительно тренда. Нельзя непо­ средственно связать функцию, оценивающую тренд, с теорией или с моделью образования наблюдаемого ряда. При сглаживании оце­ нивающая тренд функция годится скорее для целей описания, не­ жели для целей анализа ряда и его интерпретации. Из-за того, что этот метод не базируется на явной вероятностной модели, он не может быть изложен полностью и строго в терминах математической статистики (по крайней мере кратко).

Имеется и серьезная практическая трудность в применении сгла­

живания. Для того чтобы получить величину у),

оценивающую

тренд в точке /, необходимо использовать значения

yt~m,

Уь+т*

Поскольку эта процедура основывается на наблюдениях уъ ..., ут,

то первым сглаженным значением будет Ут+\> а последним у*т-т- Тем самым, мы не имеем оценок тренда в начале периода наблюде­ ний и в его конце. Для оценки тренда в этих точках необходимо при­ влекать какие-то другие соображения.

Сглаживание само по себе, конечно, не дает средних прогнози­ рования. Экстраполяция оцененного тренда весьма ненадежна от­ части из-за того, что тренд не оценивается для последних т мо­ ментов времени.

Мы основывали сглаживание на нечетном числе членов с сим­ метричными весами. Если используется четное число членов с сим­ метричными весами, то сглаженное значение интерпретируется как

3.3. СГЛАЖИВАНИЕ 71

оценка тренда в точке, лежащей посередине между двумя средни­ ми точками. Это может оказаться неудобным.

Скользящее

усреднение с равными весами (k = 0) можно легко

осуществить

на

клавишной вычислительной машине, поскольку

т

 

 

сумма 2

l/t+s

измеряется при каждом t путем вычитания одного

s=—т

 

 

члена и добавления

другого. Эти суммы запоминаются и затем каж­

дая делится на 2т +

1 (или умножается на 1/(2т + 1)). Представляет

значительный интерес аппроксимация процедуры

сглаживания

с неравными весами последовательностью процедур

сглаживания,

использующих равные веса. Конечно, при наличии быстродействую­ щей вычислительной машины нет никакой нужды упрощать коэф­ фициенты.

Сглаживание с использованием скользящего среднего имеет длинную историю, причем к нему пришли первоначально с точки зрения, отличной от статистической. [См. Уиттекер и Робинсон (1926).] Иногда бывает необходимо интерполировать между точками, в которых наблюдения производились. В интерполяционных форму­ лах используются последовательные разности. Для того чтобы эти разности вели себя гладким образом, перед интерполированием можно применить формулы сглаживания. С этой точки зрения две сглаживающие процедуры эквивалентны с точностью до некоторого порядка, если разности этого порядка согласуются для каждой пары сглаженных рядов, полученных в результате применения этих двух процедур. (См. § 3.4.) Говорят, что процедура является точ­ ной до разностей некоторого порядка, если она не нарушает разно­ стей этого порядка для полиномов. Одной из часто используемых процедур, точных до разностей третьего порядка, является 15-то­ чечная формула Спенсера. Эта процедура выполняется таким обра­ зом. Сначала вычисляются величины

(35)у\ = (— 3t//_2 + 3yt—\ + 4yt -f- 3yt+] —3 r/*_j-2)/4,

затем усредняются (с равными весами) 5 последовательных у), да­ лее — 4 последовательных члена полученного ряда и, наконец, усредняются 4 последовательных члена последнего ряда. Другой процедурой, сохраняющей разности третьего порядка, является 21-точечная формула Спенсера, соответствующая вычислению ве­ личин

(36)

у* = (— yt—з + yt—i + 2у1+ yt+\ yt+з)/2

и поочередному усреднению 7, затем 5 и 5 членов получающихся рядов. Обе эти процедуры сравнительно легко реализуются,

72

ТРЕНДЫ И СГЛАЖИВАНИЕ

Гл. 3.

3.3.3. Сезонные изменения

Если на временной ряд накладываются регулярные периоди­ ческие изменения, то полезным оказывается иной подход. Во многих ежемесячных временных рядах проявляется, например, сезонный фак­ тор. Изучаемую функцию времени можно записать при этом в виде

(37)

&/, = т = £ ( о + м о ,

где функция g (t) имеет период п (12 для

ежемесячных данных, 4

для ежеквартальных и т. д.), т. е.

 

 

(38)

g(t + n) = g(t),

t =

1, . . .

, Г — п.

Мы можем нормировать g (t) таким образом, чтобы

(39)

2 g ( 0 =

0.

 

 

t=1

 

 

 

Из периодичности g (t) следует при этом, что и

(40)

2 ig ( t + s) = 0,

5 =

0.......... Т — п.

 

t=1

 

 

 

Обычно Т выбирается таким, чтобы оно делилось нацело на п9Т = = Нп. (Например, при ежемесячных данных за h лет Т = 12А.) При произвольном выборе f(t) данное выше описание не позволяет однозначно определить g (t) до тех пор, пока не будут наложены определенные условия на функцию h (t). Обычно предполагается, что она или является медленно меняющимся трендом, или цикли­ ческая.

Скользящее среднее с п членами и равными коэффициентами бу­

дет устранять сезонное колебание g

(t) в том смысле, что

(41)

8 -jr 2

tJt+s = - ~ 2 h(t + s).

 

п s= 1

п

s=l

Если п четное, п = 2т, что обычно имеет место в экономических данных, то используем

(42)t f — sk

Тогда

<43) « * « - £ -

_ L

2m

 

Ut-\-s "1“

o

Ut—п"1“ 9 yt^ftn »

 

 

 

 

 

t= z m + l,

...

, T ~ m .

m—\

f (t +

s) +

-9“ f (t — тп) + -«г /

+

m)

2

=—(m-1)

 

 

 

 

m—1

2(m-1) h(t + s) + ~ - h (t~ m ) + ^ - h (i + tn)