Добавил:
Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:

книги / Математическая теория энтропии

..pdf
Скачиваний:
17
Добавлен:
12.11.2023
Размер:
19.07 Mб
Скачать

82

Гл. 1. Сведения из теории вероятностей

где 1 ^ = ЛГ-i V /lrtТ /§. Это разбиение называется хвостовым

разбиением случайного процесса (Т, £) (а отвечающая ему а-ал- гебра — хвостовой). События, лежащие в хвостовой а-алгебре случайного процесса, определяются лишь его поведением в бес­ конечно далеком будущем. Например, хвостовым является со­ бытие

|(0 : Hm sup £ \Ао Т/ (со) <

<хJ .

Поскольку преобразование Т обратимо,

по Т можно опре­

делить и другую о-алгебру, содержащую события, которые

определяются бесконечно

далеким

прошлым. Напомним, что

х е Т ~1Е тогда

и только

тогда, когда Т х е £ . Поскольку точка

Тх отвечает исходу испытания, проводящегося завтра,

 

Т

означает, что событие Е

произойдет завтра '). Таким

обра­

зом, Т-1£ —это

событие, определяемое исходом завтрашнего

испытания. Аналогичным

образом

ТЕ — это

событие,

опреде­

ляемое исходом вчерашнего испытания. Хвостовое

разбие­

ние случайного

процесса

(Т-1, |)

отвечает

бесконечно

дале­

кому прошлому процесса (Т, £). Из определения хвостового

разбиения

легко

видеть,

что

бесконечно далекому

прош­

лому

случайного

процесса (Т,

£)

соответствует

разбиение

ЛГ-1

V /ln Т*£. Вновь применяя

следствие

1.27, получим, что

условная

вероятность;относительно

бесконечно далекого

прош-

лого процесса (Т, £) равна

lim Р

v ~

т^£

(со,

•).

 

 

1~п

 

 

 

 

 

 

П-+со

 

 

 

 

 

 

]) Здесь считается, что событие Е является

 

измеримым,

т. е. «про­

исходит сегодня». — Прим, перев.

 

 

 

 

 

 

 

Глава 2

ЭНТРОПИЯ И ИНФОРМАЦИЯ

В этой главе даются формальные определения количества ин­ формации, заключенной в случайном событии, и энтропии испы­ тания со счетным числом исходов. Мы также покажем, в каком смысле энтропия является мерой неопределенности, и приведем затем основные свойства информации и энтропии. Далее опре­ деление энтропии будет расширено, с тем чтобы охватить испы­ тания с произвольным числом исходов, а свойства энтропии будут доказаны и для этого случая. Наконец, мы дадим опре­ деления скорости создания информации и энтропии динамиче­ ской системы и установим их наиболее важные свойства. В за­ ключение будет приведено несколько примеров и кратко об­ суждены два полезных обобщения этих определений.

2.1. ИНФОРМАЦИЯ И НЕОПРЕДЕЛЕННОСТЬ СОБЫТИИ

Пусть (£2, ЗГ, Р)— пространство Лебега, а Е — событие из Рассматривая это пространство Лебега как математическую модель некоторого случайного испытания, предположим, что ре­ зультатом этого испытания явилось событие Е. Коль скоро мы узнали, что Е произошло, тем самым мы получили некоторую информацию. Цель этого раздела состоит в том, чтобы опреде­ лить на множестве событий в пространстве Лебега функцию /, значение которой 1(E) будет количественной мерой информации, получаемой, если результатом испытания является событие Е. Неопределенность в наступлении события Е, имеющаяся до осуществления испытания, должна совпадать с количеством ин­ формации, получаемой, если событие Е действительно происхо­ дит. Таким образом, количество информации, заключенной в со­ бытии, будет также служить и количественной мерой неопреде­

ленности этого события.

Определение 2.1. Информацией или неопределенностью на­ зывается вещественнозначная функция событий, зависящая только от вероятностей событий и удовлетворяющая следующим условиям:

84

Гл. 2. Энтропия и информация

2.1.1.Событие, наступающее с вероятностью единица, имеет нулевую неопределенность.

2.1.2.Если одно событие имеет меньшую вероятность, чем другое, то неопределенность первого события больше неопреде­

ленности второго.

2.1.3. Неопределенность одновременного наступления двух независимых событий равна сумме их неопределенностей.

Насколько это возможно, постараемся теперь выразить ко­ личество неопределенности через известные функции. Поскольку / должно зависеть только от вероятностей событий, нам надо найти такую определенную на отрезке [0, 1] функцию Л с ве­ щественными значениями, что j если мы положим 1(E) — = А(Р(Е)), то / будет удовлетворять условиям 2.1.1, 2.1.2 и 2.1.3. Легко видеть, что если Л монотонно убывает на [0, 1] и Л(1) = 0, то условия 2.1.1 и 2.1.2 выполнены. Остается найти условие на Л, обеспечивающее выполнение 2.1.3.

Пусть события Е и F независимы. Тогда из 2.1.3 следует, что I(E()F) = I(E) + I(F), и поскольку P(Ef\F) = P(E)P (F),

условие 2.1.3 равносильно равенству А (Р (Е) Р (F)) — А (Р (£))+ -+-Л (Я (Е)). Таким образом, функция Л должна удовлетворять функциональному уравнению

А (ху) = А (х) + А (у).

(2. 1)

То, что монотонные решения уравнения (2.1) исчерпываются кратными натурального логарифма, — классический результат; поэтому мы должны взять A(f) = Clogf. Эта функция обра­ щается в нуль при t = 1 .для любого значения константы С, но является монотонно убывающей лишь при отрицательных С. Итак, если мы определим Л соотношением

где Ь— любое положительное вещественное число, то функция

/, заданная для всякого события Е е ? "

равенством

1(Е) = А,(Р(Е)),

(2.3)

обладает всеми свойствами неопределенности. Более того, это — единственная функция, удовлетворяющая свойствам, указанным в определении 2.1.

2.2.ИНФОРМАЦИОННАЯ ФУНКЦИЯ ИСПЫТАНИЯ И ЭНТРОПИЯ

Впервой главе мы видели, каким образом измеримые раз­ биения некоторого заданного пространства Лебега могут слу­ жить математической моделью случайных испытаний. Введем

2.2. Информационная функция

85

теперь на множестве разбиений информационную функцию, зна­ чения которой будут определять количество информации, содер­ жащейся в отвечающих этим разбиениям случайных испытаниях.

Пусть £ — счетное

измеримое

разбиение

пространства

(Q,

, Р). Через I (£) будем обозначать информационную функ­

цию разбиения £ — заданную на Q функцию, значение которой

для

любого исхода

O E Q равно

количеству

информации,

получаемой при реализации содержащего со элемента А раз­

биения

Таким образом,

 

 

 

 

/(£)(<*) =

- &

Е 1„1ое Р(Л),

(2.4)

 

 

 

A s С

 

где \ А

обозначает индикатор

(характеристическую

функцию)

множества А. Исходы отвечающего разбиению 5 испытания — это элементы £. На каждом из них функция /(£) принимает

постоя!!н^е значение,

равное количеству информации, получа­

емой при реализации

исхода,

или же связанной с этим исходом

неопределенности. На языке факторпространств I (£) есть функ­

ция на факторпространстве (Q;,

Pj), дающая количественную

меру неопределенности каждого элементарного события этого

факторпространства.

и конечна

почти

всюду

Ясно, что функция /(£) определена

на Q; кроме того, она ^-измерима. Иначе

говоря, /(£ )— слу­

чайная величина на пространстве (Q,

Р),

и в

силу

неотри­

цательности для нее определен интеграл (возможно, имеющий бесконечное значение).

Определение 2.2. Энтропией счетного измеримого разбиения £ пространства Лебега (Q, 9Г, Р) называется математическое ожидание информационной функции разбиения. Энтропия раз­ биения £ обозначается Я (£) и составляет

Я (£ )= J P(rfo)/(£)(«) = - Ь £ Р(А) logР (Л)

(мы полагаем Hog* = 0 при t = 0).

Таким образом, энтропия счетного разбиения — это среднее количество неопределенности или среднее количество информа­ ции, заключенных в отвечающем разбиению испытании.

Теорема 2.3. Если разбиение £ имеет k элементов, то

0 < tf( £ )< M o g £ .

Более того, Я (£) = 0 тогда и только тогда, когда £ содержит элемент вероятности единица, и Н (Q = blogk тогда и только

тогда, когда £ — равномерное разбиение, т. е. P(A) = k~l для каждого элемента Л е £ .

86

Гл, 2. Энтропия и информация

 

 

Доказательство. Из определения ясно, что

причем

равенство достигается тогда и только тогда, когда £ содержит элемент вероятности единица. Для получения другого неравен­ ства заметим, что

Ьlog k - Н (£) =

Ь £

Р (A) [log kP (А)].

 

 

 

А

 

Поскольку log t

1 Г "1,

причем

равенство достигается тогда

и только тогда,

когда

t =

1, то Р (A) log kP (A) Р {А) {1 —

— [&Р(у4)]-1}. Таким образом,

 

 

b l o g k - H ( 0 > 0 ,

и равенство достигается тогда и только тогда, когда kP (А) = 1 для всех A s J .

Эта теорема поясняет то обстоятельство, что энтропия испы­ тания служит мерой степени его «случайности». Наиболее «слу­ чайным» испытанием \с k исходами должно быть испытание, в котором все исходы равновероятны. Ему отвечает равномерное разбиение с k элементами, а энтропия таких разбиений макси­ мальна. Наименее случайным испытанием должно быть такое, в котором наверняка происходит некоторое конкретное событие.

Теорема 2.3 также позволяет нам интерпретировать и число Ь. Если некоторое испытание имеет k исходов, то его неопреде­ ленность не превосходит Mogfe. Поэтому если положить Ь =

=(log&)-1, то неопределенность такого испытания не будет превосходить 1, причем это значение достигается для наиболее случайного распределения k исходов. Таким образом, можно сказать, что для испытаний с k исходами за единицу измерения неопределенности принимается неопределенность испытания с самым случайным распределением исходов. Тем самым выбор значения k определяет выбор единицы неопределенности.

Заметим, что (logk)~l log/ = log*/, так что если количество информации выражается через логарифмы по основанию k,

т. е. если I (Е) = — log* Р (£), то единица неопределенности основана на испытаниях с k исходами. Поскольку наименьшее нетривиальное пространство исходов (или разбиение) должно содержать два элемента, информация и энтропия весьма часто определяются с помощью логарифмов по основанию 2. Связан­ ная с этим основанием единица количества информации назы­ вается битом.

Рассмотрим для примера испытание, заключающееся в из­ влечении разноцветных шаров из урны, содержащей 3 красных, 2 белых и 5 синих шаров. Этому испытанию отвечает разбиение

2.3. Пример

87

единичного отрезка на 3 отрезка длины 0,3, 0,2 и 0,5 соответ­ ственно; измеряя в битах, получаем

( — log20,3,

сое [0,0,3],

/(£)(©) = < — log2 0,2,

со е

(0,2,

0,5],

. — log20,5,

со е

(0,5,

1]

Я (?) = —0,3 log2 0,3 — 0,2 log2 0,2 — 0,5 log2 0,5 = 1,49 бит.

В этой книге выбор единицы измерения количества инфор­ мации является, как правило, несущественным и мы будем счи­ тать 6 = 1. Иногда единицы измерения, получающиеся при этом значении Ь, называют натами, поскольку в их определении ис­ пользуются натуральные логарифмы. Для перехода от натов к единицам, основанным на испытаниях с k исходами, достаточно

умножить на

(logЛ)-1; так,

например, для перехода

от натов

к битам надо умножать на (log2)_l.

 

Итак, информационная функция счетного разбиения £ про­

странства Л

е б е г а Р)

обозначается через /(£)

и опреде­

ляется равенством

 

 

 

 

/(£ )(«> ) = -

Е l„(<D)logР(А).

(2.5)

 

 

 

л«=С

 

Энтропия

разбиения

обозначается через Я(£) и имеет зна-

Ч 6 Н И 6

я (£) =

-

Е Р (A) log Р (Л).

(2.6)

 

 

 

 

А е=С

 

2.3. ПРИМЕР.

На этом примере мы покажем, что измеренное в битах зна­ чение энтропии дает оценку снизу среднего числа вопросов, не­ обходимых для определения исхода испытания с конечным чис­ лом исходов, при любой системе «постановки вопросов» (здесь и ниже имеется в виду, что на вопросы можно отвечать только «да» или «нет»). Это свойство энтропии в более строгой форме обосновывается «теоремой о кодировании для канала без шуМа» (первая часть теоремы 3.5). В действительности приводимые здесь рассуждения с незначительными изменениями и состав­ ляют доказательство теоремы о кодировании для канала без шума.

Мы также покажем, каким образом энтропия может быть использована для построения некоторого вопросника — страте­ гии задавания вопросов (questioning scheme). Хотя для этого вопросника среднее число вопросов, необходимых для опреде­ ления исхода испытания, и не является наименьшим возмож­ ным, его структура иллюстрирует наше понимание энтропии как

88

Гл. 2. Энтропия и информация

меры неопределенности. На каждом шаге очередной вопрос за­ дается таким образом, чтобы отвечающее этому вопросу разбие­ ние имело максимальную энтропию. Иначе говоря, задаются такие вопросы, ответы на которые каждый раз устраняют наи­ большую возможную долю неопределенности относительно ис­ хода испытания. Заинтересованный читатель может найти более подробное обсуждение теории вопросников у Ацела и Дароци

[4].

Пусть задано некоторое испытание с п исходами, и мы хотим построить вопросник, для которого среднее число вопросов, не­ обходимых для определения исхода испытания, было бы мини­ мальным. Ответами на любой вопрос могут быть только «да» или «нет», поэтому прежде всего мы должны разбить простран­ ство исходов испытания на два подмножества, Ех и £ 2, после чего можно задать первый вопрос: «Лежит ли исход испытания в £i?» Множества £j и Е2 следует выбирать таким образом,

чтобы их вероятности были как можно ближе к -j- Это озна­

чает, что разбиение {£ь Е2} должно обладать наибольшей эн­ тропией среди всех двухэлементных разбиений множества всех исходов. Тогда ответ на первый , вопрос будет устранять наи­ большую возможную долю неопределенности относительно ис­

хода испытания.

\

Если ответ на

вопрос «Лежит] ли исход испытания в £,?»

утвердительный, то мы повторяем описанную в предыдущем абзаце процедуру, применяя ее теперь только к исходам мно­ жества Е\ с условными вероятнобтями относительно £(. Иначе говоря, Ei делится на два множества, £,, и £ 12, таким образом, чтобы энтропия разбиения {£и, £ 12} пространства (Еи Р (-|£ |)) была максимальной, после чего задается второй вопрос: «Лежит ли исход испытания в £ц?».

Отрицательный ответ на первый вопрос означает, что исход

испытания

лежит в

множестве

£ 2, поэтому в этом

случае

во втором

вопросе мы должны интересоваться только исходами

из £ 2, т. е. для того,

чтобы задать второй вопрос, следует

разбить пространство (£2, Р ( -|£ 2))

на два множества, £ 2J

и Ею,

так чтобы энтропия этого разбиения была максимальна. Продолжая действовать описанным способом, мы со време­

нем придем ко множествам, содержащим только один исход, который тем самым и будет определен соответствующей после­ довательностью вопросов1).

‘) По существу построение вопросника заключается в сопоставлении каждому исходу испытания конечной последовательности символов двухбук­ венного алфавита {1, 2}, т. е. в задании некоторого кода. Построенный в тексте вопросник отвечает так называемому коду Шеннона—Фано. — Прим.

перев.

2.3. П рим ер,

89

Покажем теперь, что измеренное в битах значение энтропии испытания с конечным числом исходов дает оценку снизу сред­ него числа вопросов, необходимых для определения исхода испытания, при использовании любого вопросника. Каждому вопроснику отвечает возрастающая последовательность разбие­ ний пространства исходов, причем число элементов каждого разбиения не превосходит удвоенного числа элементов предыду­ щего разбиения, а последнее разбиение состоит из одноточечных

Исходы

' • ч

множеств (т. е. является точечным разбиением). Для иллюстра­ ции сказанного на рис. 2.1 приведена схема вопросника для испытания с четырьмя исходами {хи хг, Хз, х*} (вероятности ис­ ходов опущены). Этому вопроснику отвечает последовательность разбиений

£i=

1=

{^i>

Хг)> ^2 === {-^4}}>

£2 =

{Еп == {*i}> Е\2 == {^2»*з}> ^ 2},

1э=

{Ец,

Е\2\ =

{д^г}. ^122 = {%}, Е2).

Рассмотрим теперь испытание с п возможными исходами

{хи *2,

хп)- Пусть задан некоторый вопросник, которому

отвечает

возрастающая

последовательность разбиений £1э | 2,

£з, .... где / — максимальное число вопросов,

необходимых

для определения исхода

испытания с помощью

заданного во­

просника.

Заметим, что

если для

некоторого

k множество

Eiv it..... ik состоит из единственного

исхода (обозначим его де,),

то для определения этого исхода требуется ровно k вопросов. Для каждого /==1, 2, ... , п обозначим через Nt количество

вопросов, необходимых для определения исхода Xj с помощью заданного вопросника. (На рис. 2.1 Ni — 2, Ыг — Мг — 3 и Nt = 1.)

90

 

 

 

 

Гл. 2. Энтропия и информация

 

 

Для

t =

1, 2........ п! обозначим

через

 

р{ вероятность исхода х1г

так

что

математическое

ожидание

E ( N ) = ' £ f

l P[Nt

является

средним

числом

вопросов,

необходимых

для определения ис­

хода

испытания.

 

В|

этих

обозначениях

мы

хотим

доказать,

что Н — — £ р,-log2 pt ^

£ (Я) = £

PiNt. Для

этого

заметим

сначала, что Nt = —;log22_A,<, и положим В —

 

Теперь

если

q{ — 2~Nil В для

i — 1, 2........ ft,

то

 

 

=

и> ПРИ"

меняя лемму 2.8,

получаем

 

 

 

 

 

 

 

 

 

- I . P t

log2 P i < ~ £

Pi 1о& 4l =

-

f i cl log2 2~Ni/B =

 

i-1

 

 

 

i-1

 

 

 

 

f - l

 

 

 

 

 

=

— E

Pi log2 2~Ni +

( i l p<)log2 B.

 

 

 

 

 

 

i-1

 

 

 

 

\ i - l

 

/

 

 

Иными словами,

 

 

# < £ ( W ) + logfi,

 

 

 

 

 

 

 

 

 

 

 

 

причем

равенство

достигается

тогда

и

только тогда, когда

Pi — qt при

всех i.

 

 

 

 

 

 

осталось только

показать,

Для

завершения доказательства

 

что log В <

0 или

что В ^ 1 .

Для

 

этого

обозначим

через aif

i — 1, 2,

... ,

/, количество

исходов испытания, для определения

которых

необходимо

в

точности

i

вопросов.

(Для

примера

на рис.

2.1

aj =

l,

a2= l ,

Оз =

2 и / =

3.)

Заметим теперь, что

В =

 

2”iV*=

 

 

 

 

Разбиение £/ в принципе могло бы

содержать 2* элементов, но поскольку у нашего испытания ровно п исходов, to и %t содержит в точности п элементов. Каждому исходу, определяемому за i вопросов, отвечает уда­ ление из разбиения if 2l~l возможных элементов. Таким образом,

число исходов, определяемых

за I вопросов, at удовлетворяет

неравенству

 

i-i

 

 

 

; a j < 2 ' -

 

 

 

Z a t2‘- 1.

 

 

 

 

i-1

 

 

 

Иными словами, at2~l ^

1 — Ег-1а<2~г,

или

ai2~i ^

1,

что и завершает доказательство. Если

H = E(N),

то 5 = 1

и

P i = p { — 2~Ni для всех i

')•

 

 

разбиение

£,

В качестве конкретного примера рассмотрим

отвечающее извлечению шаров из урны (гл. 1). У этого испы­ тания три исхода с вероятностями Р(Р) = 0,3, P(W) = 0,2 и Р (В) — 0,5. В предыдущем разделе мы нашли, что Я (£)=1,49 бит.

*) Из приведенного рассуждения видно, что в действительности всегда

В = 1. — Прим. перев.

2.4. Условная информация и условная энтропия

91

Описанная выше процедура приводит к вопроснику с разбие­ ниями | 1= {{В), {Р, IT}}, 12 = {{Я}. {/?}, {Н7}}- Если W обозна­ чает число вопросов, необходимых для определения исхода, то

его математическое ожидание составляет Е (N) = 0,5 +

2 • 0,3+

+ 2 - 0 , 2 = 1,5. Прямым подсчетом нетрудно убедиться

в том,

что это значение среднего числа вопросов является наименьшим возможным для любого вопросника.

2.4.УСЛОВНАЯ ИНФОРМАЦИЯ И УСЛОВНАЯ ЭНТРОПИЯ

Впримере, обсуждавшемся в разд. 2.3, мы столкнулись с не­ обходимостью рассматривать заключенную в событиях инфор­ мацию в предположении, что наступило некоторое выделенное событие. Так, получив утвердительный ответ на первый вопрос,

мы

узнали,

что произошло событие Еь После этого энтро­

пию

можно

было рассматривать только для пространства

(Еи Р ( • |£"i)). В этом разделе подобные соображения будут ис­ пользованы для определения условной информации /(£/£) изме­ римого разбиения | относительно разбиения £ и условной энтро­ пии #(£/£) разбиения £ относительно разбиения £.

Пусть | — счетное измеримое разбиение пространства Лебега (Q, Р), а £ — произвольное измеримое разбиение того же пространства. Для Р;-почти всех элементов С разбиения £ пространство (С, У (С), Ps (©, •)). где© —любая точка С, является пространством Лебега. Если извест1юГчто произошло событие С, то для описания исходов испытания следует исполь­ зовать именно это пространство (см. разд. 1.5). Разбиение £ порождает в этом пространстве разбиение £ П С = {A f| С : А е £}. Условная информация разбиения 1 относительно разбиения £ задается информационной функцией, значение которой в точке © равно информации, заключенной в событии ЛПС из про­ странства (С, ЗГ(С), Pt(©, •)), где Л ПС —тот единственный элемент разбиения £V£, который содержит ©. Итак, условной информацией разбиения £ относительно разбиения £ назы­

вается функция /(£/£) на пространстве (Q,

Р),

определенная

п. в. соотношением

 

 

/ (I/O (©) = - Е 1Д (©) log p t (©, Л).

(2.7)

Условная информация является вещественной случайной вели­ чиной. Математическое ожидание этой случайной величины на­ зывается условной энтропией разбиения | относительно разбие­ ния £. Условная энтропия обозначается через #(£/£), и в силу соотношения (2.7) ее значение составляет

Я (£/£) = £ [ —

1 л (©) logР; («>, Л)] •

(2.8)

Соседние файлы в папке книги