Понятие о кодировании
Кодирование – это представление символов из одного алфавита символами из другого алфавита, более удобными для передачи. Сообщения передаются в виде сигналов, имеющих определенную форму и последовательность. В телеграфе сообщение обычно передается при помощи алфавитов, цифр или алфавита и цифр вместе. Сигналы следуют в определенной последовательности. Например, в коде Морзе каждой букве и цифре соответствует некоторая последовательность кратких (точки) и длинных (тире) посылок тока, разделяемых кратковременными паузами по длительности такими же, как и точки. Пробел между буквами при этом изображается выключением тока на три единицы времени, а пробел между словами — на шесть единиц времени. Если обозначить тире 1, а точки 0, то образец этого кода виден в таблице.
По коду Бодо, применявшемуся в буквопечатающих аппаратах, каждой букве соответствует сигнал из пяти импульсов одинаковой длительности и формы. Пример кодировки символов также приведен в таблице. Этот код равномерен, так как на передачу каждого символа требуется одинаковое время.
При передаче сигналов, определяемых некоторыми случайными процессами, возможна дискретизация сигнала по времени и амплитуде, а возможна передача коэффициентов разложения сигнала по некоторым базисным функциям (гармоническим, вейвлет-функциям и другим). В любом случае на принимающей стороне необходимо восстанавливать сигнал в исходной форме.
Таблица 4.2
Примеры кодов Морзе и Бодо
|
А |
Б |
В |
Г |
Д |
Код Морзе |
01 |
1000 |
011 |
110 |
100 |
Код Бодо |
10000 |
00110 |
01101 |
01010 |
11110 |
Следует различать способ кодирования и способ модуляции сигнала или сообщения.
Так, рассмотренные коды Морзе и Бодо – двоичные, т.е. имеют двоичное основание: сообщения передаются с помощью посылки сигнала (тока) или его отсутствия. Могут быть троичные коды, когда используются посылки положительного и отрицательного знака и отсутствие посылки, пятеричные и т.д. Единичная посылка сигнала может быть в виде напряжения постоянного или переменного тока (радиоимпульса). Наконец, можно передавать тире тремя импульсами, а точку — отсутствием импульсов.
В первом случае имеет место модулированный сигнал постоянного тока, во втором сигнал переменного тока, модулированный прямоугольным напряжением, так называемый радиоимпульс (если частота наполнения лежит в диапазоне радиочастот). Наконец, в последнем случае имеет место кодо-импульсная модуляция. Помимо рассмотренных, могут быть и другие виды модуляции.
По физической природе сигналы могут быть электрические, акустические, механические, радиолокационные и пр. В данном курсе не исследуются ни физическая природа сигналов, ни виды модуляции.
4.3 Оптимальный код Шеннона – Фено
Рассмотрим кратко понятие об оптимальном кодировании символьных сообщений.
Для построения оптимального кода Шеннона – Фено все символы алфавита располагаются в порядке убывания вероятности их появления. Символу, встречающемуся чаще всего, присваивается наиболее короткая комбинация. В английском языке чаще всего встречается буква (смотри таблицу 4.1).Этой букве отведена самая короткая кодовая комбинация – точка. В русском языке наиболее повторима буква О , но ей отведена далеко не самая короткая кодовая комбинация – три тире. В этом смысле для русского языка принятая система кодирования в азбуке Морзе не является оптимальной.
Оптимальным считается код, имеющий минимальную среднюю длину , причем
,
где суммирование выполняется по всем символам алфавита; – длина кодовой комбинации, равная числу ее элементов, соответствующая -му символу алфавита; – вероятность появления в сообщениях данного ансамбля -го символа; при этом
.
Здесь будут рассмотрены только двоичные коды, хотя все изложенное справедливо и для других кодов.
Пример. Рассмотрим таблицу 4.3, в которой приведен алфавит, состоящий из шести символов (сообщений).
Таблица 4.3