В подобных условиях передача одной буквы латинского алфавита занимает время, равное 5τ. Для передачи двух букв требуется 5·2·τ и в общем случае для передачи n букв — 5nτ единиц времени. Нельзя ли передать сообщение, представляющее собой последовательность n букв латинского алфавита, по данному каналу связи за время, меньшее, чем 5nτ? Такую задачу поставил перед собой и пытался решить К. Шеннон.
Оказалось, это задача разрешимая, если сообщения представляют собой слова какого-то языка или последовательности слов. Разрешима она потому, что разные буквы в любом языке встречаются не одинаково часто. Например, в тексте на русском языке длиной, скажем, в тысячу букв буква «о» встречается примерно 90 раз, буква «р» — 40 раз, а буква «ф» — 2 раза. Аналогичные закономерности справедливы для английского и других языков. В чем заключалась основная идея Шеннона?
Для чаще встречающихся букв использовать меньшее число посылок. Например, чаще всего встречающуюся в английских текстах букву «е» представлять одной посылкой, а букву «а» — двумя и т. д.
Сразу выяснилось, что подобная таблица соответствий была составлена задолго до работы К. Шеннона и называется она азбукой Морзе. В азбуке Морзе все так и делается: буква «е» представляется одной точкой (при желании и мы можем считать символ 1 точкой, а символ 0 тире), буква «а» — точкой и тире (в нашем случае комбинаций 10) и т. д.
Таким образом, теория Шеннона подтвердила эффективность азбуки Морзе, построенной исходя из интуитивных соображений.
Следующий шаг К. Шеннона состоял в том, что он подсчитал среднее количество посылок, приходящееся на букву. Как он это сделал? Взял количество посылок, потребное для передачи буквы «а», прибавил к нему количество посылок, потребное для передачи буквы «в», и так до конца алфавита; затем прибавил количество посылок, потребное для передачи точки, запятой, других знаков препинания, и полученную сумму разделил на 32. Вычислил величину, называемую арифметическим средним для совокупности из 32 чисел.
Мы подробно разбираем такой, казалось бы, элементарный вопрос, потому, что он имеет для нас принципиальное значение. Среднее количество посылок, приходящихся на букву русского алфавита, при условии, что передаются слова, фразы и тексты на русском языке, равно примерно 4,35. Эта величина представляет собой среднее арифметическое от числа посылок, требующихся для передачи букв русского алфавита, при условии, что частоты, с которыми эти буквы встречаются, характерны для русского языка.
К. Шеннон назвал эту величину средним количеством информации, приходящейся на символ. Для использования слова «информация» здесь не было никаких оснований. Речь шла о предельно ясной вещи: количестве посылок — количестве случаев, когда напряжение в телеграфной цепи либо положительное, либо отрицательное.
Слово «информация» К. Шеннон использовал, по всей видимости, потому, что не предвидел всех вытекающих отсюда последствий. Не менее важно и другое обстоятельство. Повсюду в работах К. Шеннона речь идет не о количестве информации вообще, а о среднем количестве информации, приходящейся на одну букву.
Математики любят, построив какую-нибудь формальную конструкцию, посмотреть, что с ней произойдет на бесконечности. Любовь эта небескорыстная. Часто оказывается, что трудности, возникающие при попытках решения тех или иных задач, отпадают при предельном переходе.
Не избежал этого соблазна и К. Шеннон. Он решил посмотреть, что произойдет с его мерой при предельном переходе к бесконечности. Средняя частота, с которой встречается тот или иной символ, это количество раз, когда данный символ встречается в строке, состоящей, скажем, из тысячи символов. Поделите это количество раз на длину строки, в нашем случае на тысячу, получите величину, которая и называется относительной частотой в отличие от просто частоты.
Предел, к которому стремится относительная частота при неограниченном увеличении длины строки, есть не что иное, как вероятность встретить символ в тексте написанном на каком-либо языке.
Вычислив предел относительных частот, с которыми встречаются символы алфавита, К. Шеннон определил среднее количество информации, приходящееся на один символ. Среднее количество информации, приходящееся на символ, оказалось обратно пропорциональным вероятности, с которой данный символ встречается в тексте.