книги / Электронная информация и электронные ресурсы
..pdfЭнтропия информации
Второй закон термодинамики гласит, что в замкнутой, не подверженной внешнему воздействию, системе все изменения идут в одном направлении, а именно: любая система стремится к достижению состояния наибольшего равновесия. Житейски настроенный ум легко с этим согласится. Действительно, если уж куда-то и двигаться, то лучше к спокойному равновесию, а не к опасной неустойчивости. Итак, в жизни замкнутых систем более вероятно движение в сторону равновесия.
Следующий микроблок рассуждений касается соотноше ния порядка и беспорядка. Более вероятными, более равновес ными являются неупорядоченные системы, в которых все пара метры — положение компонентов, их скорости и т. п. — размы ты в довольно широком диапазоне.
Быть может, вам покажется наглядным пример с идеальным кристаллом обыкновенной поваренной соли (хлористый на трий). Если кристалл идеален, в нем нет примесей, дефектов и дислокаций, то для его описания в целом и описания положе ния каждого иона внутри него при фиксированной температуре достаточно совсем небольшого количества информации:
1)состав химических компонентов (ионы хлора и натрия);
2)тип симметрии кристалла (кубический);
3)размер кристалла (или его вес);
4)положение центра кристалла и
5)его ориентация в пространстве.
Этих пяти позиций вполне достаточно для того, чтобы с очень высокой точностью (вплоть до проявления квантовых эф фектов неопределенности) описать положение каждого из мно гих миллиардов ионов в кристалле. Все дело в жесткой пред определенности строения, «привязке» каждого иона к точно вычисляемому месту в идеальном кристалле. Стоит появиться каким-то неидеальным элементам — примесям калия или иода, дефектам (трещинкам), дислокациям (смещениям) ионов от равновесного положения и т. п., — как картина существенно ос ложняется и для описания, даже вероятностного, потребуется огромное количество данных. Итак, более вероятным является неидеальный кристалл; точно так же и горные кристаллические породы рано или поздно будут перемолоты в глину и песок, этот
51
Глава 2. Информация и информационные ресурсы...
процесс направлен в сторону достижения более вероятных со стояний.
В статистической физике мерой термодинамической урав новешенности системы является энтропия. Любая система стремится перейти от упорядоченного состояния (это состоя ние с малой энтропией) к неупорядоченному (то есть состоя нию с большой величиной энтропии). Как определяет сетевой словарь www.hyperdictionary.com, энтропия — это мера беспоряд ка в системе. Кстати, одним из первых комплексный подход к измерению информации предложил Клод Ш еннон [9J на заре становления компьютерной эры.
Стакан, наполненный абсолютно чистой водой, обладает малой энтропией, — вы заранее знаете, какие молекулы там содержатся. Стакан с грязной водой демонстрирует намного большую неопределенность, — кто знает, что там намешано! Поэтому в замкнутой системе процесс всегда пойдет в направ лении загрязнения воды в стакане, а не в направлении ее самоочистки.
Энтропия имеет самое непосредственное отношение и к ко личеству информации, содержащейся в системе. Высокоупоря доченную систему можно описать немногим числом бит ин формации (мы помним из информатики о битах — минималь ных единицах для количественного выражения информации). И наоборот, для описания неупорядоченной, дезорганизован ной системы потребуется намного большее количество бит. Например, ряд, состоящий из одного миллиона единиц, можно записать в одной из возможных кодировок просто как х («О»,
1 ООО ООО).
А ряд случайно сгенерированных символов (бит, знаков) за писать существенно сложнее, если вообще возможно. Посколь ку информация снижает неопределенность, то можно говорить об уровне неопределенности.
Существуют различные определения энтропии, касающиеся разных отраслей науки и техники. Поэтому разумнее слово «эн тропия» сопровождать дополнением и говорить о:
•термодинамической энтропии;
•энтропии в теории информации;
52
Энтропия информации
•энтропии в экономике;
•энтропии в экологии и т. д.
Можно лишь предполагать эквивалентность всех этих поня тий, что мы, за неимением другого, и будем делать в дальней шем.
Основатель кибернетики Норберт Винер в своей классиче ской работе «Кибернетика» (Norbert Wiener, «Cybernetics or Control and Communication in the Animals and the Machine. The MIT Press, Cambridge, Mass., 1965) [18] отмечал: «Также, как ко личество информации в системе является мерой ее организо ванности, так и энтропия системы является мерой ее дезоргани зованности, и одна просто является негативом другой». Поня тие «энтропия» применительно к теоретической информации было введено в обиход в 1948 г. уже известным нам Клодом Шенноном. Инженер крупной американской телефонной ком пании «Белл» (Bell Laboratories) Клод Шеннон занимался изуче нием способов подавления так называемого белого шума, ме шающего телефонным переговорам. Этот шум проявляется как шорох и при его чрезмерном усилении передача полезного сигнала невозможна. В связи с этим К. Шеннон интересовался определением количества информации. Свои результаты он опубликовал в 1948 г. вначале в статье «Математическая теория коммуникации» (Mathematical Theory of Communications) в тех ническом журнале, выпускаемом своей компанией (Bell Systems Technical Journal), а затем и в ставшей классической моногра фии, на которую мы уже ссылались [9].
Ну, а сейчас — немного математики из работ Ш еннона (чи тателям, не знающим или испытывающим неприязнь к матема тике, эту часть можно пропустить).
Для процесса, имеющего $п$ возможных исходов (собы тий), вероятность какого-то конкретного события определяется выражением:
Р = Р \ > Р г * Р ъ - Р п .
Итак, неопределенность является функцией. К. Шеннон сформулировал несколько аксиом и показал, что если связать информационную энтропию с термодинамической энтропией,
53
Глава 2. Информация и информационные ресурсы...
то, приняв для константы Больцмана «к» значение 1, а для лога рифма натуральное основание, получим:
S = - I j-F'Pilnpj.
В формуле Шеннона энтропия Н(М) некоего сообщения М выражается в битах следующим образом: Н(М) = -/o g 2p(M ), где р(М) — вероятность послания М.
Например, если по проводам передается послание из двух букв АП, то первая буква содержит больше информации, чем вторая, поскольку она может быть любой из букв алфавита. В английском языке если первая буква послания — «q», то вы бор для второй буквы очень ограничен, ибо в английском языке вслед за буквой «q» обычно идет буква «и», иными словами, мы уже заранее знаем, что может появиться.
В заключение этого раздела мы хотели бы особенно под черкнуть, что количество энтропии в сообщении не связано прямым образом с ценностью сообщения. Можно потратить массу бит информации и передавать незначащую информацию, не содержащую нового знания, а можно в кратких и точных вы ражениях сказать то, что вы хотели бы поведать миру и людям. Обращаясь к нашему примеру с кристаллом, можно предполо жить, что для многих людей чистый правильный кристалл как-то симпатичнее стакана с грязной водой или горки песка. Точно так же неуклонное движение к неупорядоченному со стоянию не имеет приложений к открытым системам, в том числе к возникновению, развитию и/или возможной гибели на Земле высокоорганизованных форм жизни и человечества в це лом. Это уже выходит за рамки нашей книги, и желающим разо браться в проблеме мы предлагаем обратиться к другим источ никам.
2.3.Информационные ресурсы
Вэтом разделе, как нам кажется, к великой радости читате лей — библиотечных работников и студентов — перейдем уже к более «родному» и доступному понятию — информационные ресурсы. Но мы не могли не дать вышеизложенную информа
54
Информационные ресурсы
цию хотя бы потому, что, кроме Ю. Н. Столярова и отчасти А. В. Соколова, практически никто не испытывал стремление просветить будущих библиотекарей. Возможно, не все вышеиз ложенное понятно, но мы надеемся, что создадим базу, с кото рой уже легче переходить к представлению информационных ресурсов как таковых, к электронным информационным про дуктам — темам, вынесенным в заглавие нашей книги.
Здесь и далее мы будем рассматривать в первую очередь биб лиотечно-информационный аспект, но не в узком, а в широ ком, общественном смысле — ведь уже никто не спорит с тем, что библиотеки сегодня выполняют роль катализатора при дви жении к информационному обществу. Информационные ре сурсы — это довольно широкое понятие, которое по разному трактуется разными учеными и практиками; тем не менее для нас важно сейчас проложить мостик между классическими под ходами к информации (разделы 2.1, 2 .2 настоящей главы) и сугу бо прикладным, практическим атрибутом которого и являются информационные ресурсы.
Будем придерживаться следующего определения информа ционных ресурсов (ИР), которое приведено в Федеральном законе «Об информации, информатизации и защите информа ции» и которое принято сегодня многими, в том числе и авто ром нескольких книг по информационным ресурсам А. Б. Антопольским Ц9].
«Информационные ресурсы — отдельные документы и отдель ные массивы документов, документы и массивы документов в ин формационных системах (библиотеках, архивах, фондах, банках данных, других информационных системах)».
Это определение хорошо соответствует и нашей идеоло гии, ведь здесь ИР обобщает конкретные объекты (документ, фонд, массив), причем не абстрактные, а вполне реальные, под дающиеся (что очень важно) количественному учету. И в на шей книге мы последовательно представляем цепочку (рис. 7)
Рис. 7. Состав электронных информационных ресурсов
55
Глава 2. Информация и информационные ресурсы...
основных компонентов электронных информационных ресур сов или просто электронных ресурсов.
А. Б. Антопольский рассматривает ряд видов информацион ных ресурсов, в первую очередь программные средства, инфор мационные продукты, информационные массивы, и классифи кации информационных ресурсов.
Тематика информационных ресурсов очень обширна и включает в себя, помимо содержания и источников информа ции, такие важные элементы, как их назначение, форма собст венности, форма представления, технологии распространения, оценки качества технологии и ряд других. ИР сегодня рассмат риваются и как традиционные, и как электронные (ЭЙР); тен денции развития рынка ИР показывают неуклонный приоритет в формировании и распространении ЭИР. В разных странах к классификации и учету ЙР в масштабе страны подходят по-раз ному. В России в конце 1990-х гг. ежегодно выпускался Нацио нальный доклад по ИР, подготовленный большой группой экс пертов. Организаторскую и редакционную функцию по подго товке и выпуску Национального доклада выполнял научно-технический центр «Информрегистр». Однако с 2002 г. этот документ больше не издавался, и теперь сведения о состоя нии ИР в государственном масштабе можно получать уже не в таком систематизированном виде, а приходится отслеживать по публикациям известных специалистов.
Как отмечалось в национальных докладах, в России сложи лась система следующих видов информационных ресурсов:
•информационно-библиотечные;
•научно-технической информации;
•общественной и социально-политической направленно сти;
•образовательные;
•государственной статистики;
•правовые;
•органов исполнительной и правительственной власти;
•музейные;
•по экономике и финансам;
•гидрометеорологические, геологические и др., связанные с природными процессами;
56
Информационные ресурсы
•транспортные;
•медицинские и биологические;
•архивные фонды;
•патентные фонды и др.
Кроме того, все они подразделяются на текущие и архивные (кроме архивных фондов), на национальные и региональные и, наконец, на электронные и традиционные.
ИР составляют основу информационного рынка, главными участниками которого являются в первую очередь те, кто произ водит информацию, есть организации (центры) — генераторы информации. Кроме того, участниками информационного рынка являются центры обработки информации, информаци онные брокеры, библиотеки и информационные центры (служ бы).
Информационная инфраструктура и информационный ры нок в стране сложились к концу прошлого столетия и сущест венно преобразились с наступлением эпохи Интернета.
Широкое распространение Интернета усилило роль ЭИР, хотя по-прежнему в информационном пространстве превалиру ют традиционные носители. Сегодня большинство подписных изданий библиотеки получают в печатном виде, хотя, безуслов но, доля Э И Р в библиотечных фондах и библиотечно-информа ционной инфраструктуре в целом неуклонно растет. Сразу же хотим развеять широко распространенное заблуждение — не за менят полностью ЭИ Р традиционные виды документов: книги, журналы, карты, ноты и т. д., и сегодня, и в будущем электрон ные и традиционные ресурсы будут сосуществовать, дополняя и обогащая друг друга. И если у научно-технической периодики вполне ясная перспектива — это электронные полнотекстовые подписки, то у книг, особенно художественных, обществен но-политических, у материалов по изобразительному и при кладному искусству, нот и др. — печатная полиграфическая перспектива видна надолго, даже если отдельные их компонен ты и будут иметь электронный вид. Трудно представить себе, например, пианиста с компьютером на подставке для нот или многочисленных любителей почитать на ночь, укладывающих ся в постель с ноутбуком (хотя таковые, безусловно, есть и бу дут). Поэтому, анализируя существующее состояние в области
57
Глава 2. Информация и информационные ресурсы...
распространения ИР, необходимо иметь в виду их гибридную (электронную и традиционную) природу.
В нашей стране исследованию и изучению ИР уделялось и уделяется достаточное внимание, помимо вышеотмеченных фе деральных целевых программ, этой проблематике посвящены разделы в ФЦП «Культура России (2006—2010 годы)», в ряде программ и проектов Российского фонда фундаментальных ис следований, в проекте новой концепции ГСНТИ, разрабаты ваемой Федеральным агентством по науке и инновациям. Пра вительство страны неоднократно предпринимало попытки ре формировать систему управления государственными ИР и наладить эффективное взаимодействие с их негосударственны ми и частными владельцами. Так, еще в 1998 г. М инсвязи РФ, ФАПСИ, Миннауки РФ и ряд других ведомств разработали «Концепцию управления государственными информационны ми ресурсами» (ww.inforeg.ru), в рамках которой были распре делены государственные ИР между министерствами и ведомст вами. Им вменялась в обязанности организация сбора и кон троля за соответствующими отраслевыми ИР. Помимо этого, в ряде министерств и ведомств существовали собственные кон цепции по развитию ИР; следует отметить и уже много раз упо минавшуюся в наших публикациях межведомственную про грамму «Электронные библиотеки России», которая, хоть и не была реализована, но была тщательно теоретически и методи чески проработана и послужила исходной платформой для раз работки ряда других программ.
Государственная политика в области развития комплекса ИР в масштабе страны требует постоянного совершенствования и сегодня, в канун вхождения страны в информационное обще ство, должна, на наш взгляд, учитывать следующие моменты:
•соответствие правовой базы в области ИР интересам и за дачам их владельцев, распространителей, пользователей и международному опыту;
•определение финансово-экономического статуса, в част ности, процессов создания, распространения и использо вания ИР, особенно для библиотечно-информационной инфраструктуры;
58
Электронная информация
•организацию мониторинга и регистрацию ИР, особенно в части негосударственных ИР;
•соответствие отечественного комплекса ИР стандартам и рекомендациям мировой информационной инфраструк туры и ряда других, которые достаточно подробно изуча ются в соответствующих специальных учебных курсах и публикациях. Особенно важной эта задача становится се годня, в эпоху всеобщей интернетизации и интенсивного, порой бесконтрольного и хаотичного наращивания ЭИР.
Мы еще не раз на страницах настоящей книги будем возвра щаться к этой теме, так как основной задачей настоящего изда ния является рассмотрение главных составляющих ИР, вернее, ЭИР, поскольку именно проблемы создания, распространения и эффективного использования электронной информации по родили многочисленные вопросы, некорректные трактовки и далеко не всегда правильное восприятие и понимание элек тронных информационных продуктов.
2.4. Электронная информация
Понятие «электронная информация» (ЭИ) уже не раз ис пользовалось нами, и мы не будем вводить никаких специаль ных определений. В данном случае, как и в случае с ниже рас сматриваемыми объектами: электронными публикациями, электронными документами, электронными фондами и т. д., мы понимаем ЭИ как информацию, предоставленную, распро страняемую и используемую на электронных носителях; и все то, что относилось к определению, классификации, способу ге нерации и другим аспектам создания, изучения и использова ния информации в классическом смысле, относится и к ЭИ. По сути, электронная информация — это содержание всех видов ЭИР, начиная от электронных публикаций и заканчивая элек тронными библиотеками.
ЭИ вначале, как и сегодня, генерировалась на компьютерах и поставлялась на магнитных лентах, магнитных дисках, ком пакт-дисках CD -ROM и DVD-ROM, наконец, внешних устрой ствах памяти, например «flash». Сегодня, как правило, источни-
59