Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

569

.pdf
Скачиваний:
2
Добавлен:
06.12.2022
Размер:
2.09 Mб
Скачать

2.H(X) = max при k = const, если p1 = p2 = … = pk = 1/k.

3.Hmax(X) = logk. Hmax(X) увеличивается при возрастании k. Рассмотрим пример (скачки). В заезде участвуют четыре

лошади с равными шансами на победу, т.е. вероятность победы каждой лошади равна 1/4. Введем дискретную случайную величину X, равную номеру победившей лошади. Здесь энтро-

пия H(X)=

4

1

log2

1

=2. После каждого заезда по каналам

 

4

 

4

 

 

связи достаточно будет передавать два бита информации о номере победившей лошади. Кодируем номер лошади следующим образом: 1 — 00; 2 — 01; 3 — 10; 4 — 11. Если ввести функцию L(X), которая возвращает длину сообщения, кодирующего заданное значение X, то математическое ожидание M(L(X)) — это средняя длина сообщения, кодирующего X. Можно формально определить L(X) через две функции

L(X) = length(code(X)), где функция code(X) каждому зна-

чению X ставит в соответствие некоторый битовый код, причем взаимно однозначно, а функция length возвращает длину в битах для любого конкретного кода. Вычислим M(L(X)) =

1

= 4 2 4 = 2. В данном случае M(L(X)) = H(X).

Пусть теперь дискретная случайная величина X имеет следующее распределение: P(X = 1) = 3/4; P(X = 2) = 1/8;

P(X = 3) = P(X = 4) = 1/16, т.е. лошадь с номером 1 — это

фаворит. Тогда

H(X)

3

log2

4

 

1

log2

8

1

log2 16

 

3

 

 

 

4

 

8

 

8

 

19 3 log2 3 1,186 бит/символ. 8 4

Закодируем номера лошадей: 1 — 0; 2 — 10; 3 — 110; 4 — 111, т.е. так, чтобы каждый код не был префиксом другого кода. В среднем в шестнадцати заездах первая лошадь должна победить в двенадцати из них, вторая — в двух, третья — в одном и четвертая — в одном. Таким образом, средняя длина сообщения о победителе или математическое ожидание

M(L(X)) = (1∙12 + 2∙2 + 3∙1 + 4∙1)/16 = 1,4375 бит/символ.

71

Действительно, L(X) сейчас задается следующим распределе-

нием вероятностей: P(L(X) = 1) = 3/4; P(L(X) = 2) = 1/8;

P(L(X) = 3) = 1/8. Следовательно, M(L(X)) 3 2 3 4 8 8

11 1,375 бит/символ. Итак, получили M(L(X)) > H(X). 8

Таким образом, кодирование вторым способом является более эффективным, чем первым.

7.2. Энтропия сложной системы

Пусть сложная система образована двумя подсистемами X и Y с возможными состояниями {x1, x2, …, xn} и {y1, y2, …, ym}. Тогда закон распределения сложной системы задается таблицей (табл. 9).

n m

Причем имеет место pij 1. Если X и Y независимы,

i 1 j 1

то pij = pipj, иначе pij = P(X = xi и Y = yj).

Таблица 9

Закон распределения сложной системы

X

 

 

Y

 

y1

y2

 

ym

 

 

x1

p11

p12

 

p1m

x2

p21

p22

 

p2m

 

xn

pn1

pn2

 

pnm

Энтропия сложной системы вычисляется по формуле

n m

H(X,Y) pij log2 pij. Если X и Y независимы, то

i 1 j 1

H(X,Y) = H(X) + H(Y).

7.3. Зависимые системы и условная энтропия

Пусть P(xi/yj) вероятность события X = xi при условии,

что Y = yj.

Условная энтропия системы X при условии, что Y = yj, рав-

n

на H(X/yi) p(xi /yj)log2 p(xi /yj).

i 1

72

Определим полную энтропию системы X относительно сис-

m

темы Y по формуле H(X/Y) p(yj)H(X/yj ), где p(yj)

j 1

вероятность, что система Y примет состояние yj. Иначе эту формулу можно переписать следующим образом:

n m

H(X/Y) p(yj )p(xi /yj)log2 p(xi /yj).

i 1 j 1

Полная условная энтропия H(X/Y) характеризует среднюю степень неопределенности системы X после того как будет известно состояние системы Y.

Если X и Y независимы, то H(X,Y) = H(X) + H(Y/X). При-

чем H(X,Y) H(X) + H(Y).Справедливо H(X/Y) H(Y).

Полная условная энтропия H(X/Y) системы X относительно системы Y удовлетворяет свойству H(X/Y) = 0, если состояние одной системы X полностью определяется состоянием другой системы Y.

Энтропия сложной системы достигает максимума, когда ее составные части независимы. H(X1, X2, …, Xn) = H(X1) +

+H(X2/X1) + H(X3/X2X1) + … + H(Xn/Xn–1X2X1).

Таким образом, условная энтропия может выступать коли-

чественным показателем зависимости двух качественных факторов.

7.4.Информация

Естественно количество информации измерять уменьшением энтропии той системы, для уточнения состояния которой предназначена другая. Обозначим через Ix информацию, полученную при полном выяснении состояния системы X. Ин-

формация вычисляется по формуле Ix H(X) 0 H(X)

n

 

pi log2 pi. Здесь отдельное слагаемое Ixi

log2 pi есть

i 1

 

частная информация, получаемая от сообщения, что система X находится в состоянии xi, т.е. Ix есть математическое ожида-

ние по всем состояниям (Ixi 0 ). Чем меньше pi, тем больше

Ixi . Здесь предполагается, что наблюдение ведется над самой системой X.

73

Пусть наблюдаемая система Y, а интересующая нас система X. Полной информацией о системе X, содержащейся в системе Y, будет величина IX Y =H(X) – H(X/Y). Справедливо IX Y =

=IY X = IX Y. Величину IX Y называют полной взаимной информацией между системами X и Y. Можно доказать, что IX Y =

=H(X) + H(Y) – H(X,Y) > 0. Иногда важно знать частотную информацию о системе X, содержащуюся в сообщении

Y = yj: Iyj X

p(xi /yj ) log2 pj(xi) 0. Здесь отдельное

 

n

 

 

 

 

 

i 1

p(xi /yj )

pi

слагаемое Iyj

log2

есть частная информация о со-

 

 

p

 

 

 

 

бытии X = xi, содержащаяся в сообщении Y = yj.

Заметим, что эта информация может быть любого знака и зависит от того, имеет ли место P(xi/yj) > pi или нет. Все эти понятия можно распространить на непрерывные системы (X,Y), когда заданы соответствующие функции плотности вероятности.

Контрольные вопросы к разделу 7

1.Понятие энтропии.

2.Энтропия простой системы.

3.Энтропия сложной системы и условная энтропия.

4.Понятие количества информации.

5.Какая характеристика может выступать количественной оценкой зависимости двух качественных факторов?

8. СЛУЧАЙНЫЕ ПРОЦЕССЫ И ВРЕМЕННЫЕ РЯДЫ

Все изложенные выше методы были разработаны для случайных величин, каждая из которых в результате опыта принимала некоторое определенное заранее неизвестное, но единственное значение. Таким образом, случайные явления изучались в фиксированных условиях отдельного опыта. На практике зафиксировать все условия опыта невозможно; опыт протекает во времени, в пространстве, при непрерывном действии посторонних причин. Поэтому чаще приходиться иметь дело со случайными величинами, которые принимают в процессе опыта множество заранее неизвестных значений. Изменяющиеся в процессе опыта случайные величины называют случайными функциями (случайными процессами). Мы будем

74

рассматривать случайную функцию одного аргумента. Чаще всего этим аргументом является время. Обозначают случайную функцию X(t), Y(t)…

Рассмотрим случайную функцию X(t). Произведем m независимых опытов и получим реализации x1(t), x2(t), …, xm(t). Каждая реализация — это обычная неслучайная функция

(рис. 32).

X(t)

0

Рис. 32. Реализации случайной функции X(t)

Зафиксируем некоторое значение аргумента t = tk и найдем значения n реализаций для tk: x1(tk), x2(tk), …, xm(tk) Эти реализации называют сечением m реализации случайной функ-

ции при t = tk.

Причем математическое ожидание случайной функции M[X(t)] — это не случайная функция.

Часто мы имеем данные для одной случайной функции по одной реализации, когда аргумент функции t [0,T]. Разобьем интервал [0,T] на n равных частей длинной t (рис. 33).

Получим n значений для реализации x(t1), x(t2), …, x(tn) или временной ряд, т. е. совокупность значений за несколько последовательных значений времени.

В общем случае каждый уровень временного ряда формируется из трендовой X*(ti), циклической S(ti) и случайной i компонент. Модели, в которых временной ряд представлен как сумма перечисленных компонент, — аддитивная модель, как произведение — мультипликативная модель. При построении модели устраняется сезонная компонента из исходных уровней ряда.

75

Рис. 33. Одна реализация случайной функции

Рассмотрим аддитивную модель без сезонной компоненты. Этот временной ряд можно представить как функциональную

X*(ti) и случайную составляющие i: x(ti) X*(ti) i, i 1,n. Под трендом (сигналом) временного ряда понимают составляющую X*(t), которая является неслучайной функцией. Случайная составляющая i называется шумом или ошибкой. Для случайной составляющей верно утверждение M( i) = 0. Иначе это была бы неслучайная составляющая и ее можно учесть в X*(t).

8.1. Трендовыемодели временного ряда

Виды тренда:

1.Линейный тренд X*(t) = a + bt.

2.Квадратичный тренд X*(t) = a + bt + ct2.

3.Экспоненциальный тренд X*(t) = ea+bt.

4.S-кривая X*(t) = ea+b/t.

5.Гипербола X*(t) = a + b/t.

6.Степенной тренд X*(t) = atb.

7.Параболический тренд X*(t) = a + b1t + b2t2 + … .

Для построения модели линейного тренда используется

n

МНК минимизации функционала Ф(a,b) [xi* xi]2, где

i 1

xi* x*(ti); xi x(ti).

Аналогично регрессионному анализу для минимизации функционала находят частные производные и приравнивают их к нулю:

76

Ф 0,а

Ф 0.b

Если модель не линейна, то перед применением МНК необходимо применить метод выравнивания (линеризации).

Для квадратичной модели необходимо проделать следующие выкладки:

X* a bt ct2; X*

a bt ct2;

 

 

0

0

0

 

X*

X* b(t t ) c(t2 t2);

X* X*

0

b c (t t ).

 

 

0

0

0

0

~

~

 

 

t t0

— линейная модель. Обратная замена перемен-

X

A Bt

ных позволяет найти значения b и c по формулам: b = A; c = B. Экспоненциальная модель выравнивается следующим об-

разом:

* a bt; ln * ; ~* .

X e X a bt X a bt S-кривая приводится к линейной по формулам:

* a b/t; ln * / ; ~* ~.

X e X a b t X a bt

Гиперболическая модель приводится к линейной следующим образом:

X* a b; X* a bt~. t

Степенной тренд преобразуется в линейную модель следующим образом:

*( ) b; lg( *) lg( ) lg( ); ~* ~; 10A.

X t at X a b t X A bt a

В качестве примера случайного процесса можно рассмотреть доходы предприятия X за период 1 t m. Имеем статистику изменения доходов n предприятий за данный период. Каждое предприятие рассматривается как отдельная реализация случайного процесса за указанный период. Существует тенденция изменения доходов предприятий в среднем. Использовать усредненную характеристику как средний доход предприятия для прогнозирования поведения X на упреждающий период t > m неэффективно.

77

Пример. Рассмотрим в качестве случайного процесса вес кролика и, в частности, отдельную реализацию данного случайного процесса. В начале исследований кролик набрал вес, затем заболел и похудел. С помощью построенных моделей пытаемся предсказать значения фактора «вес кролика» (рис. 34). Модель предсказания для большого периода предсказания оказалась физически неверной (отрицательный вес).

Рис. 34. Тренд временного ряда

8.2. Числовые характеристики случайных процессов

Для характеристики поведения случайных процессов обычно используется более широкий спектр характеристик. Важными характеристиками являются математическое ожидание(t) = M[x(t)] и дисперсионная функция 2(t) = = M[(x(t) – (t))2]. С дисперсионной функцией связана и

функция стандартного отклонения 2(t).

Качественно новой характеристикой случайного процесса x(t), в отличие от случайной величины X, является автокорре-

ляционная функция: r(ti,tj ) M[(x(ti) (ti))(x(tj ) (tj )),(ti) (tj)

где ti > tj. Величина r(ti, tj) может характеризоваться как коэффициент корреляции r значений одного и того же фактора X в различные моменты времени (ti, tj). Причем –1 r(ti, tj) +1.

Автокорреляция уровней ряда — корреляционная зависимость между последовательными уровнями временного ряда — определяется по формуле

78

 

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x(ti)

xj

)(x(ti 1)

xj 1

)

 

 

rj

 

 

i j 1

 

 

 

 

 

 

 

 

 

 

 

 

,

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

(x(ti)

xj

)2 (x(ti 1)

xj 1

)2

 

 

 

 

 

 

 

i j 1

 

 

 

 

 

i j 1

 

 

 

 

 

 

 

 

 

 

n

 

 

 

 

 

n

 

 

 

 

 

 

 

 

 

 

x(ti)

 

 

x(ti 1)

 

 

 

 

 

 

 

 

 

 

i j 1

 

;

 

 

i j 1

, j = 1, 2, … .

где xj

 

xj 1

 

 

 

 

 

 

n j

 

 

 

 

n j

 

 

 

 

 

 

 

Последовательность коэффициентов автокорреляции уровней первого (j = 1), второго (j = 2) и так далее порядков называется автокорреляционной функцией временного ряда, а график зависимости ее значений от величины лага (порядка коэффициента автокорреляции) — коррелограммой.

На языке значений r(ti, tj) можно дать некоторую классификацию процессов. Случайный процесс называется Марковским, если r(ti, tj) = 0, при (tj – ti) > 1. Здесь предполагается, что t принимает целочисленные значения. Такие процессы еще называют процессами без предыстории, т. е. состояние процесса в момент времени tj не зависит от состояния процесса в момент времени ti.

Если r(ti, tj) = r( ), где = tj – ti, то процесс называется стационарным. То есть значение коэффициента автокорреляции зависит от длины временного интервала и не зависит от места положения отрезка времени длины .

Процесс x(t) называется Гауссовым, если при каждом значении t величина X подчинена нормальному закону распределения.

Если время t принимает равноотстоящие значения, то такой процесс называется временным рядом. Не умаляя общности рассмотрения, в этом случае можно считать t {1, 2, 3, …}. Именно с исследованием временных рядов сталкивается специалист, анализируя экономико-хозяйственные процессы. В этом случае статистический материал представляется по годам, месяцам, дням. Выборочная совокупность данных V в этом

случае есть множество значений V = {xij}, где i 1,m;

j 1,p;

 

 

 

 

t 1, . Здесь p — количество анализируемых факторов X, а

79

— анализируемый период. На основе выборки V методами обычного статистического анализа могут быть найдены выборочные оценки величин { , , r, …}.

Марковские процессы для временного ряда называются цепью Маркова.

8.3. Методы устранения тенденции в трендовых моделях

При построении трендовой модели по временному ряду для устранения тенденции (циклической составляющей) используют метод отклонения от тренда и метод последовательных разностей.

Метод последовательного отклонения от тренда предполагает вычисление трендовых значений для каждого временного ряда модели, например, yi* и xi*, и расчета отклонений от трендов yi – yi* и xi – xi*. Для дальнейшего анализа используются не исходные данные, а отклонения от трендов.

Метод последовательных разностей заключаются в следующем: если ряд содержит линейный тренд, тогда исходные данные заменяются левыми (или правыми) разностями пер-

вого порядка: i = xi xi–1 = b + ( i i–1) при t = 1; если параболический тренд — вторыми разностями, например, ле-

выми: i2 = i i–1 = 2b2 + ( i 2 i–1 + i–2). В случае экспоненциального или степенного тренда метод последовательных

разностей применяется к логарифмам исходных данных (к данным после линеризации).

8.4. Модели, включающие фактор и время

Рассмотрим линейную модель, включающую фактор и время: Yt* = a + b1t + b2Xt + t. Параметры данной модели находятся по методу наименьших квадратов.

Введем понятие автокорреляции в остатках — корреляционная зависимость между значениями остатков t за текущий и предыдущий момент времени.

Для определения автокорреляции в остатках используют критерий Дарбина—Уотсона, определяемый по формуле

n

( i i 1)2

d

i 1

 

 

 

, 0 d 4.

 

n

 

 

 

 

i

2

 

 

 

i

1

 

 

80

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]