Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

грамме. Самое большое значение периодограммы в таблице (1394,524) соответствует этой частоте.

Следующее по величине значение с периодограммой 94,1 находится на частоте 0,50. Остальные значения меньше и, скорее всего, не окажут какого-либо влияния на прогноз.

Спектральная плотность. Обычно для получения оценок плотности используется сглаживание периодограммы, при котором также происходит исключение случайных флуктуаций [64]. Вид взвешенного скользящего среднего и ширина окна сглаживания выбираются в поле «Спектральные окна», которое появляется при включении расширенной опции «Дополнительно» [80]. Так как значения периодограммы – объект существенного случайного колебания, можно столкнуться с проблемой многих хаотических пиков периодограммы. В этом случае хотелось бы найти частоты с большими спектральными плотностями, т.е. частотные области, состоящие из многих близких частот, которые вносят наибольший вклад в периодическое поведение всего ряда. Чтобы убрать случайные колебания, периодограмму сглаживают, например методом взвешенного скользящего среднего. Получаемые при этом значения называются спектральной плотностью (spectral dencity) [64]. Ширина окна скользящего среднего равна m (должно быть нечетным числом, далее p = (m – 1) / 2). В программе Statistica используются следующие преобразования временных рядов [21]:

Daniell – окно Даниэля – самое простое (равных весов) сглаживание скользящим средним значений периодограммы. Каждая оценка спектральной плотности вычисляется как среднее m / 2 предшествующих и последующих значений периодограммы.

Tukey – окно Тьюки, Hamming – окно Хемминга, Parzen – окно Парзена, Bartlett – окно Бартлетта. За исключением окна Даниэля все весовые функции приписывают больший вес сглаживаемому наблюдению, находящемуся в центре окна, и меньшие веса – значениям по мере удаления от центра. Во многих случаях все эти окна данных получают очень похожие результаты. Эти же фильтры используются и при прямом/обратном пре-

201

образованиях Фурье. Поэтому в этом режиме фазочастотные характеристики выглядят нагляднее [64]. Для нашего примера оставим выбранное по умолчанию окно Хемминга ширины 5, выделим поле «Период» в разделе «График» и выведем график «Спектральной плотности» (рис. 6.16).

На выведенном графике представлена зависимость спектральной плотности от периода (в кварталах), откуда ясно виден четкий 4-квартальный цикл в повышении концентрации рассолов.

Автокорреляционная функция, представленная на рис. 6.12, даёт аналогичные результаты: она имеет высокие значения с шагом 4 лага как в области положительных корреляций, так и в области отрицательных значений, что подтверждает циклический характер изменения суммарного содержания солей в рассолах в разное время года. На графике автокорреляционной функции высокие корреляции отмечены и на втором лаге. Спектральная плотность на периоде 2 также имеет высокое значение

(см. табл. 6.3).

Рис. 6.16. График спектральной плотности

Автокорреляционная функция полезна во многих случаях, поскольку она дает наглядную картину того, как зависимость в ряде затухает с увеличением задержки или разделяющего про-

202

межутка и между точками ряда. Однако иногда автокорреляционная функция с трудом поддается интерпретации, так как соседние значения могут быть сильно коррелированы. Это означает, что выборочная автокорреляционная функция может иметь видимые искажения и вместо неё используют частную АКФ. Спектральный анализ в данных обстоятельствах предпочтительнее АКФ. Причиной тому несколько фактов:

а) оценки спектра на соседних частотах независимы, поэтому его легче интерпретировать, чем АКФ;

б) во многих задачах спектр представляет непосредственный интерес.

Спектральная плотность определяет распределение энергии исследуемого сигнала по частоте. Например, при исходном сигнале, представляющем собой гармонический сигнал (синусоиду определенной частоты), его показывает только одну вертикальную составляющую, как в нашем примере: вся энергия сосредоточена на одной частоте. Если сигнал – белый шум, то график такого сигнала представляет собой горизонтальную линию – равномерное распределение энергии [64]. На графике спектральной плотности после 5-го наблюдения сигнал представляет собой такую горизонтальную линию (см. рис. 6.16).

Остатки выведены на рис. 6.26. На графике можно заметить два значительных пика отклонения остатков от нуля на 10-м и 34-м лагах.

Для выяснения причин таких отклонений требуется выполнить детальный анализ метеоусловий на эти периоды, что выходит за рамки настоящей работы.

6.2.3.4.Оценка качества в анализе временных рядов

Ванализе временных рядов (ВР) наиболее разработанными критериями являются критерии случайности. Они дают возможность определить, является ли ряд чисто случайным либо в его поведении проявляются некоторые тенденции, наличие которых позволяет выполнять предсказания. В литературе встречается выражение «чисто случайный ряд», это термин, отсутствие каких-либо закономерностей. Это изречение может подра-

203

зумевать ряд, состоящий из независимых и одинаково распределенных наблюдений (что соответствует понятию выборки в обычной статистике), либо белый шум. Среди различных временных рядов редко встречаются такие, которые подходят под это описание. Типичный временной ряд характеризуется наличием тенденции, возможно сезонности и других компонентов ВР. В связи с этим применение критериев случайности по прямому назначению не имеет особого смысла. Тем не менее критерии случайности играют очень важную роль в анализе временных рядов и особенно применительно к остаткам от модели, а не к самому исходному ряду. Пусть, например, была оценена модель вида «тренд плюс сезонность». После вычитания из ряда выявленных компонентов получаются остатки, которые можно рассматривать как оценки случайной составляющей. Наличие в остатках каких-либо закономерностей свидетельствует о том, что модель неполна либо в принципе некорректна. Поэтому критерии случайности можно использовать в качестве диагностических критериев при моделировании. В качестве критерия, основанного на автокорреляционной функции, используется её значимость.

Для оценки тренда используются статистики, изложенные в работе [33]. Остатки проверяются на нормальность закона распределения.

6.2.3.5. Рекомендации по выявлению модели тренда и методы его выделения из временного ряда

Не существует определённого «автоматического» способа обнаружения тренда в случайной функции. Однако если тренд является монотонным (устойчиво возрастает или устойчиво убывает), то анализировать такую СФ обычно нетрудно [32].

Такие монотонные графики СФ можно хорошо приблизить линейной функцией. Если же имеется явная монотонная нелинейная компонента, то данные сначала следует преобразовать, чтобы устранить нелинейность. Обычно для этого используют логарифмическое, экспоненциальное или полиномиальное преобразование данных, частично изложенное в работе [33; 38].

204

Если АКФ установлено наличие периодической зависимости, используется другой общий тип компоненты временного ряда. Периодическая зависимость может быть формально определена как корреляционная зависимость между каждым последующим (i-м) и предыдущим или несколькими предыдущими (i-k-м) элементом ряда (Kendall, 1976) [35]. Ее можно измерить с помощью автокорреляции (т.е. корреляции между самими членами ряда); k обычно называют лагом (иногда используют эквивалентные термины «сдвиг», «запаздывание»). Если ошибка измерения не слишком большая, то периодичность можно определить по графику АКФ визуально, рассматривая поведение членов ряда через каждые k интервалов.

Коррелограмма (автокоррелограмма) показывает численно и графически автокорреляционную функцию, иными словами, коэффициенты автокорреляции (и их стандартные ошибки) для последовательности лагов из определенного диапазона. На коррелограмме обычно отмечается диапазон в размере двух стандартных ошибок на каждом лаге. Обычно величине автокорреляции уделяют большее внимание, чем ее надежности, потому что интерес в основном представляют очень сильные (а следовательно, высокозначимые) автокорреляции.

При изучении коррелограмм следует помнить, что автокорреляции последовательных лагов формально зависимы между собой. Если первый член ряда тесно связан со вторым, а второй с третьим, то первый элемент должен также каким-то образом зависеть от третьего и т.д. Высокие корреляции предполагают наличие мультиколлинеарности данных. Это приводит к тому, что периодическая зависимость может существенно измениться после удаления автокорреляций первого порядка (т.е. после взятия разности с лагом 1).

Другой полезный метод исследования периодичности состоит в исследовании частной автокорреляционной функции, в которой устраняется зависимость между промежуточными наблюдениями (наблюдениями внутри лага). Другими словами, частная автокорреляция на данном лаге аналогична обычной автокорреляции, за исключением того, что при вычислении из

205

нее удаляется влияние автокорреляций с меньшими лагами. На лаге 1 (когда нет промежуточных элементов внутри лага), частная автокорреляция равна, очевидно, обычной автокорреляции. На самом деле частная автокорреляция дает более «чистую» картину периодических зависимостей (см. рис. 6.5) [80].

При прогнозировании тренд используют в первую очередь для долговременных прогнозов. Точность краткосрочных прогнозов, основанных только на подобранной кривой тренда, как правило, недостаточна.

Для оценки и удаления трендов из временных рядов чаще всего используется метод наименьших квадратов. Этот метод достаточно подробно рассматривается в задачах линейного регрессионного анализа [1; 27]. Значения временного ряда рассматривают как отклик (зависимую переменную), а время t – как фактор, влияющий на отклик (независимую переменную).

Для временных рядов характерна взаимная зависимость его членов (по крайней мере недалеко отстоящих по времени), и это является существенным отличием от обычного регрессионного анализа, для которого все наблюдения предполагаются независимыми. Тем не менее оценки тренда и в этих условиях обычно оказываются разумными, если выбрана адекватная модель тренда и если среди наблюдений нет больших выбросов. Упомянутые выше нарушения ограничений регрессионного анализа сказываются не столько на значениях оценок, сколько на их статистических свойствах. Так, при наличии заметной зависимости между членами временного ряда оценки дисперсии, основанные на остаточной сумме квадратов, дают неправильные результаты. Неправильными оказываются и доверительные интервалы для коэффициентов модели. В лучшем случае их можно рассматривать как очень приближенные [1].

6.2.4.Инструменты обработки временных рядов

6.2.4.1.Общие сведения

Задача анализа заключается в выявлении компонентов исходного временного ряда, а также принципов изменения закономерностей во времени (тренда во всех компонентах его про-

206

явления). Некоторые ряды требуют сгладить сильные колебания, при этом уменьшается разброс значений за счет их усреднения. Наличие сезонной и циклической составляющих выявляется с использованием АКФ и СФ.

Прогнозная модель тренда строится методом МНК по значениям временного ряда, которые рассматриваются как отклик (зависимая переменная), а время t – как фактор, влияющий на отклик (независимая переменная). Для временных рядов характерна взаимная зависимость его членов (по крайней мере недалеко отстоящих по времени), и это является существенным отличием от обычного регрессионного анализа, для которого все наблюдения предполагаются независимыми. Высокие корреляции предполагают наличие мультиколлинеарности данных.

Это положение может быть частично исправлено, если применять модифицированные алгоритмы метода наименьших квадратов, такие как взвешенный метод наименьших квадратов. Однако для этих методов требуется дополнительная информация о том, как меняется дисперсия наблюдений или их корреляция. Если же такая информация недоступна, исследователям приходится применять классический метод наименьших квадратов, несмотря на указанные недостатки [32]. Такие модели базируется на гипотезе, которая предполагает, что закономерности, выявленные по фактическим данным, сохраняются и в будущем. Значит, линия, построенная по уравнению регрессии или графической экстраполяцией, на прогнозном участке будет иметь такой же наклон, как и в предыдущей истории. В настоящее время в промышленности, экономике и других отраслях часто встречаются короткие статистические ряды или наблюдения, в которых значения на каком-либо этапе претерпевают коренные изменения. Такие методы не смогут учесть изменение тенденции тренда.

Быстрое изменение процесса требует понимания не столько его развития в среднем, сколько характера развития его тенденции, существующей в текущий момент с прицелом на прогноз будущего. Значит, надо строить модели, опираясь в основном на малое количество самых свежих данных [32]. Такому

207

требованию отвечают адаптивные модели временного ряда – модели, в которых коэффициенты уточняются с учетом новых порций поступающей информации об уровнях ряда.

6.2.4.2. Сглаживание временного ряда

Общие сведения. Изложенные ранее методы выделения тренда используют функции и являются детерминированными (функциональными). Одним из альтернативных по отношению к функциональному описанию тренда вариантов сглаживания временного ряда xt является метод скользящих, или подвижных, средних [80]. В отличие от регрессионных моделей, основанных на предположениях о структуре тренда или шума, методы сглаживания временных рядов предназначены для адаптации к изменениям данных во времени. Сглаживание уменьшает шум за счет усреднения наблюдений за многократными периодами. Суть различных приемов сглаживания сводится к замене фактических уровней временного ряда расчетными уровнями, которые в меньшей степени подвержены колебаниям. Этот приём способствует более четкому проявлению тенденции развития, после проведения которого характер изменения тренда легче визуально установить. В дальнейшем для описания временного ряда используется один из методов регрессии данных ряда на временную ось, и полученное регрессионное уравнение используется в целях прогнозирования. Сглаживание заключается в последовательном усреднении данных на небольшом участке, при котором положительные и отрицательные колебания от средней линии (точки) взаимно погашают друг друга. Рассмотрим простейшие виды сглаживания: метод скользящего среднего (MA – Moving Average), медианное сглаживание, экспонен-

циальное сглаживание (EMA – Exponential Moving Average).

Методы сглаживания могут использоваться последовательно. Несколько последовательных преобразований в программе Statistica объединены в фильтр, который именуется «4253H фильтр». Рассмотрим временной ряд, который имеет регулярную составляющую нелинейной формы. Случайная составляющая, кроме мелких случайных флуктуаций, имеет редкие вы-

208

бросы достаточно большой амплитуды. Целью сглаживания является получение плавной сглаженной кривой тренда.

Метод скользящего среднего. Метод скользящего средне-

го предполагает выбор окна усреднения k, и для каждого ti рассчитывается значение как среднее значение функции на этом интервале. Механизм сглаживания простой скользящей средней может быть представлен в виде следующей последовательности шагов [80].

Определяют длину интервала сглаживания k, включающего в себя несколько последовательных точек ряда (k < n). При этом надо иметь в виду, что чем шире интервал сглаживания, тем в большей степени погашаются колебания, тенденция формируется с меньшими колебаниями и обладает сглаженным характером. Чем сильнее колебания, тем шире должен быть интервал сглаживания [80].

Разбивают весь период наблюдения на участки, при этом интервал сглаживания как бы скользит по ряду с шагом, равным единице.

Рассчитывают средние арифметические из уровней ряда, образующих каждый участок, и заменяют фактические значения ряда, стоящие в центре каждого участка, на соответствующие средние значения. К примеру, для окна сглаживания по пяти точкам (рис. 6.17) формула примет вид

yвt = (yt–2 + yt–1 + yt + yt+1 + yt+2) / k,

где t – точка ряда на середине окна сглаживания; yвt – вычисленное значение центральной точки окна; k – размер окна сглаживания.

Этот метод позволяет сгладить случайную составляющую зависимости и избавиться от высокочастотных отклонений.

При этом фильтрация высоких частот зависит от длины интервала усреднения k. Высокая амплитуда выбросов сильно влияет на среднее значение, каждый выброс искажает среднее значение. В случае когда выбросы имеют редкий и случайный характер, для выделения регулярной составляющей метод скользящего среднего неприемлем.

209

Рис. 6.17. Усреднение по пяти точкам (справа – усреднённое значение)

Рис. 6.18. Сглаживание временного ряда скользящим средним по пяти точкам

Если при сглаживании мы в меньшей степени доверяем удалённым от центра окна сглаживания значениям, можно использовать веса, прописывая их значения для каждой точки окна. Сумма весов должна быть равна единице. Обычно веса симметричны относительно серединного значения. При сглаживании используемые формулы не позволяют вычислить значения

210

Соседние файлы в папке книги