Шаг 1. Для i от 1 до 20 предположить, что длина ключевого слова равна i, и выполнить шаги 2, 3, 4. Мы выбрали верхнюю границу равной 20 лишь для удобства. Разумеется, ключевое слово может быть и длиннее.
Шаг 2. Для j от 1 до i выполнить шаг 3. В этих двух шагах будут вычислены i различных значений НС.
Шаг 3. Построить распределение числа появления букв в позициях j, i + j, 2i + j, …, т. е. в каждой i-й цозиции, начиная с j-й позиции. По формуле, приведенной выше, вычислить ИСj для полученного распределения. В качестве N в этой формуле нужно использовать число букв в данном подмножестве текста, а не длину всего текста.
Шаг 4. Если все значения ИС1, ИС2, …, ИСi больше 0.045, то, вероятно, i кратно длине ключевого слова. Если только один из ИС меньше 0.045, то i также может быть кратно длине ключевого слова.
Проверить длину ключевого слова можно и другим способом. Найдите два места в шифрованном тексте, где две одинаковые буквы идут в том же порядке, например ЦМ в позициях 19 и 54 на рис. 24.1. Такое повторение могло произойти по двум разным причинам. Возможно, в соответствующих местах исходного текста были различные сочетания букв, которым отвечали разные части ключевого слова, и они случайно отобразились в одинаковые сочетания букв, либо в исходном тексте были повторения, которые попали на одинаковые части ключевого слова, и, таким образом, оказались зашифрованными дважды одним и тем же способом. Во втором случае расстояние между началами повторяющихся сочетаний букв должно быть кратно длине ключевого слова. К сожалению, невозможно определить, по какой из двух причин произошло повторение данного сочетания букв: случайное повторение пар букв в шифрованном тексте довольно частое явление. Но если в шифрованном тексте повторяются сочетания из трех или более букв, то вероятность того, что это повторение произошло случайно, а не в результате повторения ключа, очень мала (для сочетаний из четырех и более букв она практически нулевая). Таким образом, другой способ выявления длины ключевого слова — отыскать в шифрованном тексте все пары повторяющихся групп из трех и более букв и измерить расстояния между ними. Число, которое делит 90% или более из этих расстояний, — прекрасный претендент на роль длины ключевого слова. Данная проверка вместе с вычислением значений ИС однозначно определяет длину ключевого слова.
Предположим, нам удалось выяснить, что длина ключевого слова равна k. Тогда первоначальный шифрованный текст можно разбить на k групп G1, G2, …, Gk, где каждая группа начинается с позиции i, 1 ≤ i ≤ k, и содержит каждую k-ю букву текста, начиная с i-й буквы. Каждая из этих к групп была зашифрована при помощи только одного алфавита, т. е. при помощи простой подстановки. Остается в каждой группе для каждой шифрованной буквы определить ее эквивалент в исходном тексте. Но здесь у нас имеется хорошее подспорье. Если бы был известен алфавит, по которому была зашифрована какая-нибудь из групп, то алфавит, по которому была зашифрована любая другая группа, можно было бы найти путем циклического сдвига уже известного алфавита на некоторое число букв. С другой стороны, определить исходные эквиваленты букв было бы проще, если бы удалось распределения числа появлений букв для различных групп скомбинировать в одно обобщенное распределение, поскольку, чем больше данных было использовано для построения какого-либо распределения, тем достовернее будут сделанные на его основе статистические выводы. Для построения такой комбинации необходимо знать относительные сдвиги между алфавитами, использованными для шифрования различных групп.
Относительные сдвиги находятся при помощи некой модификации индекса совпадения. Построим для каждой группы Gi распределение числа появлений букв и запишем его в алфавитном порядке шифрованных букв. В табл. 24.1 показаны распределения для сообщения, приведенного на рис. 24.1, в предположении, что k = 7. Пусть fi, α — количество появлений буквы α алфавита i; определим функцию
Считается, что если β + r больше 32, то происходит циклический возврат к началу алфавита. Чем больше значение Ri, j, r, тем больше вероятность того, что алфавит для группы j в квадрате Виженера находится на r позиций ниже алфавита для группы i. Вычислим все значения Ri, j, r (для j ≤ i их можно не вычислять благодаря свойству симметрии) и выберем i и j, которые дают максимальное значение Ri, j, r. Вероятно, группа j сдвинута на r позиций относительно группы i.
Из групп Gi и Gj построим новую супергруппу Gij, положив величину fij, α равной fi, α + fi, α+r. Отбросим из рассмотрения группы Gi и Gj, заменив их группой Gij, и повторим описанный в последних двух абзацах процесс. После k − 1 повторений станут известны относительные сдвиги для всех k алфавитов. Кроме того, будет найдено обобщенное распределение частот. Для того чтобы найти исходные эквиваленты букв шифрованного текста, переупорядочим последние согласно их частотам. В результате буквы шифрованного текста должны расположиться в том же порядке, что и буквы русского алфавита (см. рис. 24.5). Теперь нетрудно восстановить весь квадрат Виженера и расшифровать текст. Ключевое слово можно найти, перебрав 32 набора из к букв, относительные расстояния между которыми соответствуют найденным сдвигам алфавитов. Возможно, что некоторые редко встречающиеся буквы окажутся не на своих местах. Эту ситуацию можно поправить при помощи визуального исследования полученного текста. Следует восстановить и смешанный алфавит, и ключевое слово, поскольку они оба могут иметь некоторую психологическую связь с содержанием сообщения и их выявление поможет дополнительно убедиться в правильности решения. Между прочим, что же написала мисс Хари?
Таблица 24.1. Распределения для сообщения с рис. 24.1 при k = 7 | |||||||||||||
G1 | G2 | G3 | G4 | G5 | G6 | G7 | |||||||
A | 5 | A | 0 | A | 3 | A | 2 | A | 8 | A | 0 | A | 3 |
Б | 1 | Б | 7 | Б | 0 | Б | 1 | Б | 0 | Б | 1 | Б | 3 |
В | 19 | В | 5 | В | 6 | В | 4 | В | 1 | В | 1 | В | 8 |
Г | 0 | Г | 13 | Г | 2 | Г | 10 | Г | 5 | Г | 2 | Г | 8 |
Д | 1 | Д | 0 | Д | 0 | Д | 4 | Д | 0 | Д | 0 | Д | 5 |
Е | 4 | Е | 3 | Е | 1 | Е | 0 | Е | 2 | Е | 2 | Е | 11 |
Ж | 10 | Ж | 8 | Ж | 3 | Ж | 7 | Ж | 3 | Ж | 2 | Ж | 1 |
3 | 3 | 3 | 7 | 3 | 9 | 3 | 2 | 3 | 2 | 3 | 5 | 3 | 4 |
И | 2 | И | 3 | И | 4 | И | 4 | И | 2 | И | 0 | И | 3 |
Й | 4 | Й | 0 | Й | 0 | Й | 1 | Й | 6 | Й | 1 | Й | 0 |
К | 2 | К | 9 | К | 4 | К | 9 | К | 1 | К | 4 | К | 3 |
Л | 3 | Л | 6 | Л | 4 | Л | 2 | Л | 1 | Л | 7 | Л | 3 |
М | 5 | М | 1 | М | 0 | М | 5 | М | 4 | М | 14 | М | 0 |
Н | 1 | Н | 6 | Н | 9 | Н | 3 | Н | 2 | Н | 3 | Н | 1 |
О | 0 | О | 4 | О | 2 | О | 8 | О | 1 | О | 1 | О | 4 |
Л | 1 | Л | 0 | Л | 1 | Л | 4 | Л | 9 | Л | 4 | Л | 0 |
Р | 1 | Р | 2 | Р | 12 | Р | 2 | Р | 2 | Р | 0 | Р | 5 |
С | 5 | С | 0 | С | 0 | С | 0 | С | 2 | С | 6 | С | 1 |
Т | 1 | Т | 0 | Т | 5 | Т | 0 | Т | 3 | Т | 1 | Т | 1 |
У | 2 | У | 7 | У | 6 | У | 1 | У | 9 | У | 4 | У | 2 |
Ф | 0 | Ф | 1 | Ф | 9 | Ф | 4 | Ф | 5 | Ф | 5 | Ф | 5 |
X | 4 | X | 0 | X | 0 | X | 0 | X | 4 | X | 3 | X | 2 |
Ц | 3 | Ц | 0 | Ц | 1 | Ц | 3 | Ц | 8 | Ц | 1 | Ц | 3 |
Ч | 10 | Ч | 0 | Ч | 0 | Ч | 2 | Ч | 8 | Ч | 0 | Ч | 1 |
Ш | 5 | Ш | 8 | Ш | 2 | Ш | 4 | Ш | 2 | Ш | 1 | Ш | 2 |
Щ | 0 | Щ | 0 | Щ | 4 | Щ | 0 | Щ | 0 | Щ | 1 | Щ | 8 |
Ъ | 0 | Ъ | 6 | Ъ | 4 | Ъ | 4 | Ъ | 0 | Ъ | 9 | Ъ | 5 |
Ы | 3 | Ы | 0 | Ы | 1 | Ы | 8 | Ы | 2 | Ы | 8 | Ы | 0 |
Ь | 1 | Ь | 5 | Ь | 9 | Ь | 5 | Ь | 4 | Ь | 2 | Ь | 0 |
Э | 8 | Э | 0 | Э | 0 | Э | 0 | Э | 4 | Э | 0 | Э | 6 |
Ю | 1 | Ю | 0 | Ю | 1 | Ю | 3 | Ю | 4 | Ю | 5 | Ю | 4 |
Я | 1 | Я | 5 | Я | 4 | Я | 3 | Я | 1 | Я | 12 | Я | 3 |