Добавил:
Upload Опубликованный материал нарушает ваши авторские права? Сообщите нам.
Вуз: Предмет: Файл:
Информатика — курс лекций.pdf
Скачиваний:
547
Добавлен:
11.03.2015
Размер:
2.18 Mб
Скачать

определенные перспективы. Она наиболее удобна для технических операций с текстовыми данными (поиск, преобразование и т.п.).

Схема кодирования CP 866

В 1974 г. Государственный комитет по стандартизации утвердил стандарт двоичного кодирования ГОСТ 19768-74, согласно которому внедрялись сразу две схемы кодирования. Одна из них получила название ГОСТ-альтернативной. Срок действия стандарта предусматривался до 1980 г.

Когда в начале 80-х годов XX в. началась поставка в СССР IBM-совместимых компьютеров, эта схема кодирования была принята для них в качестве основной. Впоследствии корпорация IBM опубликовала эту схему в своём корпоративном стандарте, и схема получила наименование CP 866 (Code page 866).

В настоящее время данной кодировкой пользуются только устаревшие программы, работающие под управлением операционной системы MS-DOS, поэтому эту кодировку называют также кодировкой MS-DOS. Таким образом, сегодня мы имеем три разных наименования для одной и той же устаревшей схемы кодирования.

Схема кодирования Windows-1251

Схема кодирования Windows-1251 представляет наглядный пример корпоративного стандарта. Ввела её в действие корпорация Microsoft, производитель операционных систем и программных продуктов, предназначенных для автоматизации работы с документами. Никакими государственными или международными стандартами данная схема кодирования не поддержана, но, тем не менее, является самой распространённой на компьютерах платформы IBM PC. Она считается основной для документов, созданных в таких программах, как Microsoft Word, Excel, Access и многих других. Большинстве русскоязычных веб-страниц в Интернете имеют именно эту кодировку.

Схема кодирования КОИ-8Р

Схема кодирования КОИ-8 была одной из двух, утверждённых Госстандартом СССР в 1974 г., и в те годы называлась ДКОИ (двоичный код обмена информацией). Она стала основной для сетевых ЭВМ, работающих под управлением операционной системы UNIX. Важную область использования этой схемы представлял международный документооборот социалистических стран, объединённых Советом Экономической Взаимопомощи (СЭВ).

На персональных компьютерных платформах эту схему стали применять только после внедрения электронной почты Интернета. Это связано с тем, что первое время работа электронной почты обслуживалась ЭВМ под управлением операционной системы UNIX. Сегодня данная схема кодирования называется КОИ-8 (код обмена информацией, восьмиразрядный). После распада СССР различают отдельные схемы кодирования для России и Украины: КОИ-8Р и КОИ-8У.

Технология кодирования Unicode

Использование 8-разрядных таблиц кодирования заметно сдерживает возможности международного информационного обмена. Даже в одной стране могут одновременно действовать несколько стандартов, что затрудняет информационный обмен. Приходится создавать программы, способные работать с разными таблицами кодирования, а это нерациональные затраты средств.

78

Для разработки универсальной системы кодирования в конце 80-х годов XX века был создан международный консорциум Unicode, который классифицировал национальные письменные системы и изучил их особенности. По результатам этой работы был разработан международный стандарт кодирования. В его основе лежат три положения.

1.Каждый символ имеет уникальное имя. Символы могут совпадать по начертанию, но не по имени. Так, латинская, русская и греческая буквы «А» выглядят совершенно одинаково, но это разные символы с разными именами и кодами.

2.Каждый символ имеет уникальный номер, определяющий его позицию в таблице кодирования.

3.Каждый символ можно представить его позицией, выраженной 16-разрядным двоичным кодом.

Теоретически, 16 битами можно закодировать 65536 различных символов. Однако на самом деле напрямую кодируется на 2048 символов меньше. Последние 2048 кодов разделены пополам и образуют дополнительную таблицу размером . В ячейках этой таблицы можно разместить ещё более миллиона символов. Эти символы кодируются парами 16-разрядных значений, одно из которых выражает номер строки, а другое — номер столбца. Числовые коды этих символов называются суррогатными парами. Суррогатные пары представляют собой технологию 32разрядного кодирования.

Значение стандарта Unicode

Считается, что современные потребности информационного обмена человечества требуют более 200 тысяч различных символов. Несколько десятков тысяч символов уже каталогизировано и зарегистрировано в основной таблице Unicode. Они в значительной степени охватывают символы алфавитов европейских языков, арабских, индийских и других слоговых систем, а также знаки иероглифических систем Японии, Китая и Кореи. На очереди кодирование знаков «мёртвых» письменных систем, что будет осуществлено с помощью механизма образования суррогатных пар.

Познакомиться с тем, как закодированы первые десятки тысяч символов, можно на компьютере, работающем в операционной системе Windows XP. Это первая операционная система, полностью поддерживающая стандарт Unicode. Запустите стандартную программу Таблица символов И откройте в ней какой-либо символьный набор, имеющий формат Open Туре. Рекомендуется использовать шрифт Arial Unicode MS. Сегодня это наиболее полный символьный набор из существующих в мире.

Механизмы трансформации Unicode

Наиболее распространённым заблуждением, касающимся схемы кодирования Unicode, является мнение о том, что «согласно этой схеме один символ кодируется двумя байтами». На самом деле стандарт ни слова не говорит о байтах, да и не может этого делать, потому что информационное содержание байта зависит от конкретных программ, которые записывают или воспроизводят данные. Стандарт обходит эту проблему, вообще избегая упоминаний о байтах.

В то же время, для практических целей надо как-то представлять данные байтами — этого ждут программы и устройства. Однако оказывается, что преобразовать 16 бит данных в байты можно далеко не единственным способом. Принципы этого преобразования называются механизмами

79