книги / Математическая теория энтропии
..pdf82 |
Гл. 1. Сведения из теории вероятностей |
где 1 ^ = ЛГ-i V /lrtТ /§. Это разбиение называется хвостовым |
разбиением случайного процесса (Т, £) (а отвечающая ему а-ал- гебра — хвостовой). События, лежащие в хвостовой а-алгебре случайного процесса, определяются лишь его поведением в бес конечно далеком будущем. Например, хвостовым является со бытие
|(0 : Hm sup £ \Ао Т/ (со) < |
<хJ . |
Поскольку преобразование Т обратимо, |
по Т можно опре |
делить и другую о-алгебру, содержащую события, которые
определяются бесконечно |
далеким |
прошлым. Напомним, что |
||||
х е Т ~1Е тогда |
и только |
тогда, когда Т х е £ . Поскольку точка |
||||
Тх отвечает исходу испытания, проводящегося завтра, |
|
Т |
||||
означает, что событие Е |
произойдет завтра '). Таким |
обра |
||||
зом, Т-1£ —это |
событие, определяемое исходом завтрашнего |
|||||
испытания. Аналогичным |
образом |
ТЕ — это |
событие, |
опреде |
||
ляемое исходом вчерашнего испытания. Хвостовое |
разбие |
|||||
ние случайного |
процесса |
(Т-1, |) |
отвечает |
бесконечно |
дале |
кому прошлому процесса (Т, £). Из определения хвостового
разбиения |
легко |
видеть, |
что |
бесконечно далекому |
прош |
|||||
лому |
случайного |
процесса (Т, |
£) |
соответствует |
разбиение |
|||||
ЛГ-1 |
V /ln Т*£. Вновь применяя |
следствие |
1.27, получим, что |
|||||||
условная |
вероятность;относительно |
бесконечно далекого |
прош- |
|||||||
лого процесса (Т, £) равна |
lim Р |
v ~ |
т^£ |
(со, |
•). |
|
|
|||
1~п |
|
|
||||||||
|
|
|
|
П-+со |
|
|
|
|
|
|
]) Здесь считается, что событие Е является |
|
измеримым, |
т. е. «про |
|||||||
исходит сегодня». — Прим, перев. |
|
|
|
|
|
|
|
Глава 2
ЭНТРОПИЯ И ИНФОРМАЦИЯ
В этой главе даются формальные определения количества ин формации, заключенной в случайном событии, и энтропии испы тания со счетным числом исходов. Мы также покажем, в каком смысле энтропия является мерой неопределенности, и приведем затем основные свойства информации и энтропии. Далее опре деление энтропии будет расширено, с тем чтобы охватить испы тания с произвольным числом исходов, а свойства энтропии будут доказаны и для этого случая. Наконец, мы дадим опре деления скорости создания информации и энтропии динамиче ской системы и установим их наиболее важные свойства. В за ключение будет приведено несколько примеров и кратко об суждены два полезных обобщения этих определений.
2.1. ИНФОРМАЦИЯ И НЕОПРЕДЕЛЕННОСТЬ СОБЫТИИ
Пусть (£2, ЗГ, Р)— пространство Лебега, а Е — событие из Рассматривая это пространство Лебега как математическую модель некоторого случайного испытания, предположим, что ре зультатом этого испытания явилось событие Е. Коль скоро мы узнали, что Е произошло, тем самым мы получили некоторую информацию. Цель этого раздела состоит в том, чтобы опреде лить на множестве событий в пространстве Лебега функцию /, значение которой 1(E) будет количественной мерой информации, получаемой, если результатом испытания является событие Е. Неопределенность в наступлении события Е, имеющаяся до осуществления испытания, должна совпадать с количеством ин формации, получаемой, если событие Е действительно происхо дит. Таким образом, количество информации, заключенной в со бытии, будет также служить и количественной мерой неопреде
ленности этого события.
Определение 2.1. Информацией или неопределенностью на зывается вещественнозначная функция событий, зависящая только от вероятностей событий и удовлетворяющая следующим условиям:
84 |
Гл. 2. Энтропия и информация |
2.1.1.Событие, наступающее с вероятностью единица, имеет нулевую неопределенность.
2.1.2.Если одно событие имеет меньшую вероятность, чем другое, то неопределенность первого события больше неопреде
ленности второго.
2.1.3. Неопределенность одновременного наступления двух независимых событий равна сумме их неопределенностей.
Насколько это возможно, постараемся теперь выразить ко личество неопределенности через известные функции. Поскольку / должно зависеть только от вероятностей событий, нам надо найти такую определенную на отрезке [0, 1] функцию Л с ве щественными значениями, что j если мы положим 1(E) — = А(Р(Е)), то / будет удовлетворять условиям 2.1.1, 2.1.2 и 2.1.3. Легко видеть, что если Л монотонно убывает на [0, 1] и Л(1) = 0, то условия 2.1.1 и 2.1.2 выполнены. Остается найти условие на Л, обеспечивающее выполнение 2.1.3.
Пусть события Е и F независимы. Тогда из 2.1.3 следует, что I(E()F) = I(E) + I(F), и поскольку P(Ef\F) = P(E)P (F),
условие 2.1.3 равносильно равенству А (Р (Е) Р (F)) — А (Р (£))+ -+-Л (Я (Е)). Таким образом, функция Л должна удовлетворять функциональному уравнению
А (ху) = А (х) + А (у). |
(2. 1) |
То, что монотонные решения уравнения (2.1) исчерпываются кратными натурального логарифма, — классический результат; поэтому мы должны взять A(f) = Clogf. Эта функция обра щается в нуль при t = 1 .для любого значения константы С, но является монотонно убывающей лишь при отрицательных С. Итак, если мы определим Л соотношением
где Ь— любое положительное вещественное число, то функция
/, заданная для всякого события Е е ? " |
равенством |
1(Е) = А,(Р(Е)), |
(2.3) |
обладает всеми свойствами неопределенности. Более того, это — единственная функция, удовлетворяющая свойствам, указанным в определении 2.1.
2.2.ИНФОРМАЦИОННАЯ ФУНКЦИЯ ИСПЫТАНИЯ И ЭНТРОПИЯ
Впервой главе мы видели, каким образом измеримые раз биения некоторого заданного пространства Лебега могут слу жить математической моделью случайных испытаний. Введем
2.2. Информационная функция |
85 |
теперь на множестве разбиений информационную функцию, зна чения которой будут определять количество информации, содер жащейся в отвечающих этим разбиениям случайных испытаниях.
Пусть £ — счетное |
измеримое |
разбиение |
пространства |
|
(Q, |
, Р). Через I (£) будем обозначать информационную функ |
|||
цию разбиения £ — заданную на Q функцию, значение которой |
||||
для |
любого исхода |
O E Q равно |
количеству |
информации, |
получаемой при реализации содержащего со элемента А раз
биения |
Таким образом, |
|
|
|
|
/(£)(<*) = |
- & |
Е 1„1ое Р(Л), |
(2.4) |
|
|
|
A s С |
|
где \ А |
обозначает индикатор |
(характеристическую |
функцию) |
множества А. Исходы отвечающего разбиению 5 испытания — это элементы £. На каждом из них функция /(£) принимает
постоя!!н^е значение, |
равное количеству информации, получа |
|
емой при реализации |
исхода, |
или же связанной с этим исходом |
неопределенности. На языке факторпространств I (£) есть функ |
||
ция на факторпространстве (Q;, |
Pj), дающая количественную |
меру неопределенности каждого элементарного события этого
факторпространства. |
и конечна |
почти |
всюду |
|
Ясно, что функция /(£) определена |
||||
на Q; кроме того, она ^-измерима. Иначе |
говоря, /(£ )— слу |
|||
чайная величина на пространстве (Q, |
Р), |
и в |
силу |
неотри |
цательности для нее определен интеграл (возможно, имеющий бесконечное значение).
Определение 2.2. Энтропией счетного измеримого разбиения £ пространства Лебега (Q, 9Г, Р) называется математическое ожидание информационной функции разбиения. Энтропия раз биения £ обозначается Я (£) и составляет
Я (£ )= J P(rfo)/(£)(«) = - Ь £ Р(А) logР (Л)
(мы полагаем Hog* = 0 при t = 0).
Таким образом, энтропия счетного разбиения — это среднее количество неопределенности или среднее количество информа ции, заключенных в отвечающем разбиению испытании.
Теорема 2.3. Если разбиение £ имеет k элементов, то
0 < tf( £ )< M o g £ .
Более того, Я (£) = 0 тогда и только тогда, когда £ содержит элемент вероятности единица, и Н (Q = blogk тогда и только
тогда, когда £ — равномерное разбиение, т. е. P(A) = k~l для каждого элемента Л е £ .
86 |
Гл, 2. Энтропия и информация |
|
|
Доказательство. Из определения ясно, что |
причем |
равенство достигается тогда и только тогда, когда £ содержит элемент вероятности единица. Для получения другого неравен ства заметим, что
Ьlog k - Н (£) = |
Ь £ |
Р (A) [log kP (А)]. |
||
|
|
|
А |
|
Поскольку log t |
1 —Г "1, |
причем |
равенство достигается тогда |
|
и только тогда, |
когда |
t = |
1, то Р (A) log kP (A) Р {А) {1 — |
|
— [&Р(у4)]-1}. Таким образом, |
|
|
b l o g k - H ( 0 > 0 ,
и равенство достигается тогда и только тогда, когда kP (А) = 1 для всех A s J .
Эта теорема поясняет то обстоятельство, что энтропия испы тания служит мерой степени его «случайности». Наиболее «слу чайным» испытанием \с k исходами должно быть испытание, в котором все исходы равновероятны. Ему отвечает равномерное разбиение с k элементами, а энтропия таких разбиений макси мальна. Наименее случайным испытанием должно быть такое, в котором наверняка происходит некоторое конкретное событие.
Теорема 2.3 также позволяет нам интерпретировать и число Ь. Если некоторое испытание имеет k исходов, то его неопреде ленность не превосходит Mogfe. Поэтому если положить Ь =
=(log&)-1, то неопределенность такого испытания не будет превосходить 1, причем это значение достигается для наиболее случайного распределения k исходов. Таким образом, можно сказать, что для испытаний с k исходами за единицу измерения неопределенности принимается неопределенность испытания с самым случайным распределением исходов. Тем самым выбор значения k определяет выбор единицы неопределенности.
Заметим, что (logk)~l log/ = log*/, так что если количество информации выражается через логарифмы по основанию k,
т. е. если I (Е) = — log* Р (£), то единица неопределенности основана на испытаниях с k исходами. Поскольку наименьшее нетривиальное пространство исходов (или разбиение) должно содержать два элемента, информация и энтропия весьма часто определяются с помощью логарифмов по основанию 2. Связан ная с этим основанием единица количества информации назы вается битом.
Рассмотрим для примера испытание, заключающееся в из влечении разноцветных шаров из урны, содержащей 3 красных, 2 белых и 5 синих шаров. Этому испытанию отвечает разбиение
2.3. Пример |
87 |
единичного отрезка на 3 отрезка длины 0,3, 0,2 и 0,5 соответ ственно; измеряя в битах, получаем
( — log20,3, |
сое [0,0,3], |
||
/(£)(©) = < — log2 0,2, |
со е |
(0,2, |
0,5], |
. — log20,5, |
со е |
(0,5, |
1] |
Я (?) = —0,3 log2 0,3 — 0,2 log2 0,2 — 0,5 log2 0,5 = 1,49 бит.
В этой книге выбор единицы измерения количества инфор мации является, как правило, несущественным и мы будем счи тать 6 = 1. Иногда единицы измерения, получающиеся при этом значении Ь, называют натами, поскольку в их определении ис пользуются натуральные логарифмы. Для перехода от натов к единицам, основанным на испытаниях с k исходами, достаточно
умножить на |
(logЛ)-1; так, |
например, для перехода |
от натов |
|
к битам надо умножать на (log2)_l. |
|
|||
Итак, информационная функция счетного разбиения £ про |
||||
странства Л |
е б е г а Р) |
обозначается через /(£) |
и опреде |
|
ляется равенством |
|
|
|
|
|
/(£ )(«> ) = - |
Е l„(<D)logР(А). |
(2.5) |
|
|
|
|
л«=С |
|
Энтропия |
разбиения |
обозначается через Я(£) и имеет зна- |
||
Ч 6 Н И 6 |
я (£) = |
- |
Е Р (A) log Р (Л). |
(2.6) |
|
||||
|
|
|
А е=С |
|
2.3. ПРИМЕР.
На этом примере мы покажем, что измеренное в битах зна чение энтропии дает оценку снизу среднего числа вопросов, не обходимых для определения исхода испытания с конечным чис лом исходов, при любой системе «постановки вопросов» (здесь и ниже имеется в виду, что на вопросы можно отвечать только «да» или «нет»). Это свойство энтропии в более строгой форме обосновывается «теоремой о кодировании для канала без шуМа» (первая часть теоремы 3.5). В действительности приводимые здесь рассуждения с незначительными изменениями и состав ляют доказательство теоремы о кодировании для канала без шума.
Мы также покажем, каким образом энтропия может быть использована для построения некоторого вопросника — страте гии задавания вопросов (questioning scheme). Хотя для этого вопросника среднее число вопросов, необходимых для опреде ления исхода испытания, и не является наименьшим возмож ным, его структура иллюстрирует наше понимание энтропии как
88 |
Гл. 2. Энтропия и информация |
меры неопределенности. На каждом шаге очередной вопрос за дается таким образом, чтобы отвечающее этому вопросу разбие ние имело максимальную энтропию. Иначе говоря, задаются такие вопросы, ответы на которые каждый раз устраняют наи большую возможную долю неопределенности относительно ис хода испытания. Заинтересованный читатель может найти более подробное обсуждение теории вопросников у Ацела и Дароци
[4].
Пусть задано некоторое испытание с п исходами, и мы хотим построить вопросник, для которого среднее число вопросов, не обходимых для определения исхода испытания, было бы мини мальным. Ответами на любой вопрос могут быть только «да» или «нет», поэтому прежде всего мы должны разбить простран ство исходов испытания на два подмножества, Ех и £ 2, после чего можно задать первый вопрос: «Лежит ли исход испытания в £i?» Множества £j и Е2 следует выбирать таким образом,
чтобы их вероятности были как можно ближе к -j- Это озна
чает, что разбиение {£ь Е2} должно обладать наибольшей эн тропией среди всех двухэлементных разбиений множества всех исходов. Тогда ответ на первый , вопрос будет устранять наи большую возможную долю неопределенности относительно ис
хода испытания. |
\ |
Если ответ на |
вопрос «Лежит] ли исход испытания в £,?» |
утвердительный, то мы повторяем описанную в предыдущем абзаце процедуру, применяя ее теперь только к исходам мно жества Е\ с условными вероятнобтями относительно £(. Иначе говоря, Ei делится на два множества, £,, и £ 12, таким образом, чтобы энтропия разбиения {£и, £ 12} пространства (Еи Р (-|£ |)) была максимальной, после чего задается второй вопрос: «Лежит ли исход испытания в £ц?».
Отрицательный ответ на первый вопрос означает, что исход
испытания |
лежит в |
множестве |
£ 2, поэтому в этом |
случае |
во втором |
вопросе мы должны интересоваться только исходами |
|||
из £ 2, т. е. для того, |
чтобы задать второй вопрос, следует |
|||
разбить пространство (£2, Р ( -|£ 2)) |
на два множества, £ 2J |
и Ею, |
так чтобы энтропия этого разбиения была максимальна. Продолжая действовать описанным способом, мы со време
нем придем ко множествам, содержащим только один исход, который тем самым и будет определен соответствующей после довательностью вопросов1).
‘) По существу построение вопросника заключается в сопоставлении каждому исходу испытания конечной последовательности символов двухбук венного алфавита {1, 2}, т. е. в задании некоторого кода. Построенный в тексте вопросник отвечает так называемому коду Шеннона—Фано. — Прим.
перев.
2.3. П рим ер, |
89 |
Покажем теперь, что измеренное в битах значение энтропии испытания с конечным числом исходов дает оценку снизу сред него числа вопросов, необходимых для определения исхода испытания, при использовании любого вопросника. Каждому вопроснику отвечает возрастающая последовательность разбие ний пространства исходов, причем число элементов каждого разбиения не превосходит удвоенного числа элементов предыду щего разбиения, а последнее разбиение состоит из одноточечных
Исходы
' • ч
множеств (т. е. является точечным разбиением). Для иллюстра ции сказанного на рис. 2.1 приведена схема вопросника для испытания с четырьмя исходами {хи хг, Хз, х*} (вероятности ис ходов опущены). Этому вопроснику отвечает последовательность разбиений
£i= |
{Е1= |
{^i> |
Хг)> ^2 === {-^4}}> |
£2 = |
{Еп == {*i}> Е\2 == {^2»*з}> ^ 2}, |
||
1э= |
{Ец, |
Е\2\ = |
{д^г}. ^122 = {%}, Е2). |
Рассмотрим теперь испытание с п возможными исходами
{хи *2, |
хп)- Пусть задан некоторый вопросник, которому |
|||
отвечает |
возрастающая |
последовательность разбиений £1э | 2, |
||
£з, .... %и где / — максимальное число вопросов, |
необходимых |
|||
для определения исхода |
испытания с помощью |
заданного во |
||
просника. |
Заметим, что |
если для |
некоторого |
k множество |
Eiv it..... ik состоит из единственного |
исхода (обозначим его де,), |
то для определения этого исхода требуется ровно k вопросов. Для каждого /==1, 2, ... , п обозначим через Nt количество
вопросов, необходимых для определения исхода Xj с помощью заданного вопросника. (На рис. 2.1 Ni — 2, Ыг — Мг — 3 и Nt = 1.)
90 |
|
|
|
|
Гл. 2. Энтропия и информация |
|
|
||||||||
Для |
t = |
1, 2........ п! обозначим |
через |
|
р{ вероятность исхода х1г |
||||||||||
так |
что |
математическое |
ожидание |
E ( N ) = ' £ f |
l P[Nt |
является |
|||||||||
средним |
числом |
вопросов, |
необходимых |
для определения ис |
|||||||||||
хода |
испытания. |
|
В| |
этих |
обозначениях |
мы |
хотим |
доказать, |
|||||||
что Н — — £ р,-log2 pt ^ |
£ (Я) = £ |
PiNt. Для |
этого |
заметим |
|||||||||||
сначала, что Nt = —;log22_A,<, и положим В — |
|
Теперь |
|||||||||||||
если |
q{ — 2~Nil В для |
i — 1, 2........ ft, |
то |
|
|
= |
и> ПРИ" |
||||||||
меняя лемму 2.8, |
получаем |
|
|
|
|
|
|
|
|
||||||
|
- I . P t |
log2 P i < ~ £ |
Pi 1о& 4l = |
- |
f i cl log2 2~Ni/B = |
||||||||||
|
i-1 |
|
|
|
i-1 |
|
|
|
|
f - l |
|
|
|||
|
|
|
= |
— E |
Pi log2 2~Ni + |
( i l p<)log2 B. |
|
||||||||
|
|
|
|
|
i-1 |
|
|
|
|
\ i - l |
|
/ |
|
|
|
Иными словами, |
|
|
# < £ ( W ) + logfi, |
|
|
|
|||||||||
|
|
|
|
|
|
|
|
|
|||||||
причем |
равенство |
достигается |
тогда |
и |
только тогда, когда |
||||||||||
Pi — qt при |
всех i. |
|
|
|
|
|
|
осталось только |
показать, |
||||||
Для |
завершения доказательства |
|
|||||||||||||
что log В < |
0 или |
что В ^ 1 . |
Для |
|
этого |
обозначим |
через aif |
||||||||
i — 1, 2, |
... , |
/, количество |
исходов испытания, для определения |
||||||||||||
которых |
необходимо |
в |
точности |
i |
вопросов. |
(Для |
примера |
||||||||
на рис. |
2.1 |
aj = |
l, |
a2= l , |
Оз = |
2 и / = |
3.) |
Заметим теперь, что |
|||||||
В = |
|
2”iV*= |
|
|
|
|
Разбиение £/ в принципе могло бы |
содержать 2* элементов, но поскольку у нашего испытания ровно п исходов, to и %t содержит в точности п элементов. Каждому исходу, определяемому за i вопросов, отвечает уда ление из разбиения if 2l~l возможных элементов. Таким образом,
число исходов, определяемых |
за I вопросов, at удовлетворяет |
||||
неравенству |
|
i-i |
|
|
|
; a j < 2 ' - |
|
|
|
||
Z a t2‘- 1. |
|
|
|||
|
|
i-1 |
|
|
|
Иными словами, at2~l ^ |
1 — Ег-1а<2~г, |
или |
ai2~i ^ |
1, |
|
что и завершает доказательство. Если |
H = E(N), |
то 5 = 1 |
и |
||
P i = p { — 2~Ni для всех i |
')• |
|
|
разбиение |
£, |
В качестве конкретного примера рассмотрим |
отвечающее извлечению шаров из урны (гл. 1). У этого испы тания три исхода с вероятностями Р(Р) = 0,3, P(W) = 0,2 и Р (В) — 0,5. В предыдущем разделе мы нашли, что Я (£)=1,49 бит.
*) Из приведенного рассуждения видно, что в действительности всегда
В = 1. — Прим. перев.
2.4. Условная информация и условная энтропия |
91 |
Описанная выше процедура приводит к вопроснику с разбие ниями | 1= {{В), {Р, IT}}, 12 = {{Я}. {/?}, {Н7}}- Если W обозна чает число вопросов, необходимых для определения исхода, то
его математическое ожидание составляет Е (N) = 0,5 + |
2 • 0,3+ |
+ 2 - 0 , 2 = 1,5. Прямым подсчетом нетрудно убедиться |
в том, |
что это значение среднего числа вопросов является наименьшим возможным для любого вопросника.
2.4.УСЛОВНАЯ ИНФОРМАЦИЯ И УСЛОВНАЯ ЭНТРОПИЯ
Впримере, обсуждавшемся в разд. 2.3, мы столкнулись с не обходимостью рассматривать заключенную в событиях инфор мацию в предположении, что наступило некоторое выделенное событие. Так, получив утвердительный ответ на первый вопрос,
мы |
узнали, |
что произошло событие Еь После этого энтро |
пию |
можно |
было рассматривать только для пространства |
(Еи Р ( • |£"i)). В этом разделе подобные соображения будут ис пользованы для определения условной информации /(£/£) изме римого разбиения | относительно разбиения £ и условной энтро пии #(£/£) разбиения £ относительно разбиения £.
Пусть | — счетное измеримое разбиение пространства Лебега (Q, Р), а £ — произвольное измеримое разбиение того же пространства. Для Р;-почти всех элементов С разбиения £ пространство (С, У (С), Ps (©, •)). где© —любая точка С, является пространством Лебега. Если извест1юГчто произошло событие С, то для описания исходов испытания следует исполь зовать именно это пространство (см. разд. 1.5). Разбиение £ порождает в этом пространстве разбиение £ П С = {A f| С : А е £}. Условная информация разбиения 1 относительно разбиения £ задается информационной функцией, значение которой в точке © равно информации, заключенной в событии ЛПС из про странства (С, ЗГ(С), Pt(©, •)), где Л ПС —тот единственный элемент разбиения £V£, который содержит ©. Итак, условной информацией разбиения £ относительно разбиения £ назы
вается функция /(£/£) на пространстве (Q, |
Р), |
определенная |
п. в. соотношением |
|
|
/ (I/O (©) = - Е 1Д (©) log p t (©, Л). |
(2.7) |
Условная информация является вещественной случайной вели чиной. Математическое ожидание этой случайной величины на зывается условной энтропией разбиения | относительно разбие ния £. Условная энтропия обозначается через #(£/£), и в силу соотношения (2.7) ее значение составляет
Я (£/£) = £ [ — |
1 л (©) logР; («>, Л)] • |
(2.8) |