Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Прикладной статистический анализ в горном деле (Многомерная математическая статистика)

..pdf
Скачиваний:
9
Добавлен:
12.11.2023
Размер:
11.62 Mб
Скачать

во времени возрастающий линейный тренд и повторяющеюся сезонность, то целью декомпозиции и корректировки является отделение этих компонентов, т.е. разложение ряда на составляющую тренда, сезонную компоненту и оставшуюся нерегулярную составляющую. Классический прием, позволяющий выполнить такую декомпозицию, известен как метод Census I [80].

При наличии сезонности и соответствующего ей лага стоит использовать комбинацию из упомянутых методов анализа: вначале построить график, после чего – коррелограмму по ряду. Такой подход поможет более точно выявить наличие сезонности и определить лаг сезонности в любом ряде данных, в котором она действительно есть. После определения лага сезонности переходят к формированию различных методов декомпозиции (разделения на компоненты) временных рядов и построения тренд-сезонных моделей. Стоит отметить, что все используемые методы сезонной декомпозиции так или иначе сводятся к тому, чтобы для начала исключить из исходного ряда сезонные компоненты и выбросы, после чего – оценить тренд, а уже затем – вычислить сезонные коэффициенты. Поэтому методы и называются декомпозиционными, позволяющими заменить решение одной большой задачи решением серии меньших, более простых, взаимосвязанных задач [57; 63].

Исходный ряд данных сглаживается простой скользящей средней порядка не меньше лага сезонности для того, чтобы «убрать» ошибки и сезонность и оставить лишь тренд, лежащий в основе ряда. Например, в случае с ежеквартальными данными лаг сезонности s будет равен 4 (повторяемость роста/спадов каждые 4 квартала), а значит, для устранения влияния ошибок и сезонности надо сгладить исходный ряд SMA(4) [57; 70]. Однако применение четных порядков не позволяет получить центрированные скользящие средние (в результате этого на концах ряда данных будет неодинаковое число наблюдений), поэтому обычно при сглаживании берут ближайшее к s нечетное число, большее s. В случае с месячными данными для сглаживания стоит использовать SMA(5). Альтернативный вариант, решаю-

231

щий проблему четности, – при расчете SMA(4) включить 5 значений, первому и последнему задать веса по 1/2 от общего веса.

Получив его, мы можем рассчитать сезонные компоненты. Очевидно, что эти компоненты будут содержать в себе остатки. Чтобы избавиться от них, компоненты усредняют по периодам, в результате чего получается – случайные отклонения, t – набор «универсальных» сезонных компонент. Например, для получения компоненты в 1-м квартале считается среднее значение компоненты по всем первым кварталам. Полученные новые сезонные компоненты могут быть использованы в прогнозировании.

Метод классической декомпозиции довольно прост. Однако у него есть ряд недостатков: при сглаживании исходного ряда исследователь теряет несколько первых и последних значений. Вычленить всплески, вызванные праздничными днями, в рамках классической декомпозиции проблематично. Классическая декомпозиция предполагает, что сезонная компонента несильно меняется во времени, что на практике может не выполняться, в результате чего метод становится неприменимым [63]. Если некорректно сгладить (или убрать) выбросы, сезонные компоненты будут искажены, что в итоге приведет к неточным прогнозам.

Для того чтобы решить часть проблем, присущих методу классической декомпозиции, был разработан метод X-11, а после некоторых дополнений X-12 – ARIMA, который основан на применении в декомпозиции моделей авторегрессии со скользящей средней и считается стандартом на данный момент. Детально эти методы не будут рассматриваться, поскольку методология АRIMA была уже рассмотрена, а пример обработки ряда будет рассмотрен в дальнейшем.

6.2.8. Примеры моделирования и прогноза временных рядов

6.2.8.1. Анализ временных рядов с разложением их на компоненты

В разделе 6.2.2 приведён пример временного ряда с изменением концентрации солей в рудничных рассолах. Временной ряд почти стационарный, для приведения к полностью стацио-

232

нарному виду из него можно удалить тренд. Тренд представлен линейным уравнением со слабым подъёмом. На рис. 6.23 показан остаток после удаления линейного тренда, он по-прежнему имеет циклический характер, но колебания уже относительно нулевого среднего значения. Границы циклических колебаний значений относительно нуля на всём протяжении графика и среднее значение на разных участках графика не имеют строго линейный характер, что свидетельствует о необходимости использования в дальнейшем более сложного нелинейного уравнения для тренда. Построим автокорреляционную функцию для временного ряда с удалённым трендом (рис. 6.24). В заголовке появившегося окна представлена информация о том, с какой переменной обрабатывается ряд, из названия ряда видны параметры линейного тренда.

15

10

5

0

5

10

15

Рис. 6.23. Временной ряд с удалённым линейным трендом, С – концентрация солей

Линии красного цвета на графиках выборочных автокорреляционной и частной автокорреляционной функций удалены от оси соответствующего графика на одинаковые расстояния, они показывают стандартные ошибки. Если какое-либо значение выборочной автокорреляционной (либо частной автокорре-

233

ляционной) функции находится внутри данного интервала, то можно говорить о том, что соответствующий коэффициент корреляции незначим. В столбце «Корр.» представлены графики выборочных автокорреляционной и частной автокорреляционной функций с соответствующими доверительными интервалами.

Рис. 6.24. График автокорреляционной функции с удалённым трендом

На графике автокорреляции достигают пиков на лагах, кратных двум, и, хотя период колебаний автокорреляционной функции равен четырем, что очевидно из соображений сезонности, практический расчет показывает, что более корректные результаты достигаются при сезонном лаге, равном шести. В столбцах Q и P приведены значения Q-статистики Льюнга – Бокса (Ljung – Box) и p-значения для этой статистики. Статистика Льюнга – Бокса позволяет проверить нулевую гипотезу об отсутствии автокорреляции порядка, меньшего либо равного k (т.е. о равенстве коэффициентов автокорреляции нулю).

Из графика видно, что автокорреляционная функция имеет высокие значения с шагом 4 лага как в области положительных корреляций, так и в области отрицательных значений, что

234

подтверждает циклический характер изменения суммарного содержания солей в рассолах в разное время года. Корреляция уменьшается с – 0,689 (лаг 2) до – 0,578 (лаг 14). В области положительных значений наблюдается аналогичный спад корреляций по мере увеличения лага.

По рис. 6.24 можно сделать вывод о стационарности ряда (автокорреляция постепенно уменьшается). Однако длина ряда всего 56 наблюдений, а на графике отображается всего четвёртая часть от всех наблюдений. Малый объём наблюдений не позволяет делать уверенных выводов, так как большинство рядов являются асимптотически стационарными, т.е. не сразу, а через продолжительный промежуток времени. Проверяя гипотезу о равенстве нулю автокорреляции k порядков (статистика Льюнга – Бокса), приходим к выводу, что присутствует сезонность и автокорреляция всех порядков. Можно говорить о возможности применения авторегрессионных моделей.

Рис. 6.25. Описание циклической составляющей

Вычислим сезонную композицию временного ряда с удалённым трендом. Результаты расчётов выдаются в новом окне, создадим в исходной таблице новые пустые переменные и скопируем в одну из них значения сезонной составляющей. Выведем их на график (рис. 6.25).

235

График представлен в виде строгих циклических колебаний от нулевого среднего. График остатков выведен на рис. 6.26 и показывает два пика в отрицательной области, на 10-м и 34-м лагах, именно они на рис. 6.23 имеют значительные отклонения от нуля. В положительной области также отмечаются два пика с отклонениями порядка пяти единиц. Установим границы отклонений как среднее ± 2∙σ, тогда минимум равен 0 – 2∙2,87 = – 5,74; максимум равен 0 + 2∙2,87 = 5,74. Получаем два отклонения, далеко выходящие за установленные границы, и два приграничных (табл. 6.5).

Таблица 6.5 Характеристики остатков временного ряда

Для выяснения причин таких отклонений требуется выполнить детальный анализ метеоусловий на эти периоды, что выходит за рамки настоящей работы.

Рис. 6.26. График остатков временного ряда

236

Таким образом, изменение значений солей в рассолах может быть описано трендом, циклической составляющей и остатком:

Пер 7 = T + S + E = (45,27 + 0,0038t) + S + E.

В качестве тренда была выбрана линейная функция, которая не способна учесть изменения концентрации солей на отдельных временных интервалах. Можно попробовать описание тренда нелинейной функцией, к примеру полиномом. Используем возможности фиксированной нелинейной регрессии, выбирая зависимые переменные, указанные в первом столбце табл. 6.6. Переменные получены путём соответствующих преобразований.

Выполним вычисления параметров уравнения регрессии, основные итоги приведены в табл. 6.6.

Таблица 6.6 Итоги вычисления параметров уравнения регрессии

Полученные результаты неутешительны, регрессия незначима, а новые переменные имеют высокий p-уровень, что не позволяет использовать выведенное уравнение. На графике остатков (рис. 6.27), которые можно было бы использовать в анализе, совмещённом с остатками от линейного тренда, видно, что разброс значений от нелинейного тренда даже увеличился, поэтому вернёмся к линейному тренду.

237

Рис. 6.27. Графики остатков: после удаления линейного тренда (v7-NT); после удаления нелинейного тренда (v7-LT)

А для проверки адекватности созданной линейной модели выполним анализ остатков. График остатков, построенный на рис. 6.26, показал наличие двух пиков в области отрицательных значений. Заметно, что в остатках остаётся некая нелинейная функция.

Рис. 6.28. График автокорреляционной функции остатков

238

Рис. 6.29. График частной автокорреляционной функции остатков

Автокорреляционная функция, график которой представлен на рис. 6.28, свидетельствует об отсутствии значимых корреляций. Отсутствуют они и на графике частной автокорреляционной функции (рис. 6.29). На гистограмме остатков (рис. 6.30) выделяется основная часть столбцов без пропусков. Отдельно от центра распределения стоит пара значений в интервале от – 8 до – 10.

Рис. 6.30. Гистограмма распределения остатков регрессионного уравнения линейного тренда вариационного ряда

239

Рис. 6.31. Нормальный вероятностный график распределения остатков

Эти наблюдения отображены и на нормальном вероятностном графике (рис. 6.31). Если не получается найти объяснения этим наблюдениям, можно считать их выбросом и сгладить. Таким образом, выборочная плотность распределения остатков аппроксимируется нормальным законом распределения, что является признаком адекватности построенной модели прогноза (если убрать выбросы).

Кроме того, в подобранной модели остатки очень похожи на белый шум: в них отсутствуют значимые периодические колебания; нет систематических смещений; отсутствует явно выраженный тренд; дисперсия остатков примерно одинакова на всем протяжении ряда (если убрать выбросы или их объяснить);

востатках нет значимых автокорреляций.

6.2.8.2.Анализ временного ряда с интервенцией

На рис. 6.32 приведены данные о суммарной концентрации солей в составе рассолов восточного крыла одного из рудников ПАО «Уралкалий». Результаты начального этапа наблюдений (до 19-го квартала) практически не отличаются от ранее рассмотренного графика суммарной концентрации солей в со-

240

Соседние файлы в папке книги