Хеширование информации
Инструмент хеширования данных является важной и неотъемлемой частью технологии блокчейн. Хеширование используется для создания адресации в блокчейн-системах, для формирования цифровой электронной подписи сообщений, а также для добычи криптомонет (так называемого «майнинга») в некоторых блокчейн-проектах, базирующихся на принципе «доказательства работы». Прежде чем рассматривать вышеупомянутые элементы блокчейн-систем, нам потребуется разобраться с тем, что же все-таки такое хеширование данных и на основе каких принципов эта процедура работает.
Начнем с определения. Хеширование – это метод преобразования набора данных произвольного размера в стандартизированную строку фиксированной длины при помощи специального алгоритма. То есть если взять какой-то набор данных, например, весь текст этой книги, то можно создать его цифровой отпечаток длиной, скажем, десять символов. При этом мы должны определить точный алгоритм преобразования входных данных и использовать его без изменения для любых других данных произвольного размера, получая на выходе стандартную строку в десять символов. Еще говорят, что в таком случае используется «детерминированный алгоритм», потому что он всегда выдает предопределенный результат. Фактически получаемый результат должен стать уникальным отображением преобразуемых входных данных. Для этого мы должны создать такой алгоритм преобразования, который ни при каких обстоятельствах не допустит получения одинакового результата преобразования для разных входящих наборов данных. То есть не создаст так называемых «коллизий». При этом малейшее изменение во входных данных, даже изменение одного их бита, должно видоизменять результирующий хеш на выходе до неузнаваемости. Вот пример работы одного из самых простых алгоритмов хеширования (SHA-1), где прообразами хешей являются два варианта написания английского слова «децентрализация», при этом во втором слове изменена всего лишь одна буква:
Как видно из полученных результатов, второй хеш не имеет ничего общего с первым, хотя разница в исходных прообразах минимальна. Читатель, вероятно, задастся вопросом: а зачем вообще это все нужно? На самом деле хеширование – это исключительно полезная функция, которая довольно широко применяется в компьютерных технологиях.
Представим себе ситуацию, что нам необходимо передать по каналам связи значительный объем данных, в которых при передаче по тем или иным причинам могут возникать помехи и искажения. Как нам проверить, дошли ли до конечного получателя данные в исходном виде? Пока мы не сравним каждый бит исходной информации с полученным, мы не сможем с уверенностью сказать, что передача данных прошла без ошибок. А что, если по пути следования в данные вмешался кто-то посторонний и намеренно исказил информацию? А как быть, если объем информации измеряется гигабайтами? Процесс сравнения двух огромных информационных блоков может занять значительное время. Не проще ли к передаваемому блоку данных приложить короткий уникальный «цифровой отпечаток», созданный на базе общеизвестного алгоритма хеширования? Тогда при получении мы можем еще раз запустить этот же самый алгоритм, подав ему на вход полученные данные, и затем просто сравнить результирующий хеш с тем, который был приложен к передаваемым данным. Если они в точности совпадут, значит, передача прошла без искажений, и мы имеем на руках данные, полностью аналогичные исходным. Таким образом мы проверяем целостность данных. Популярным вариантом использования алгоритма подобной проверки является получение значения так называемой «контрольной суммы», расчет которой базируется на алгоритме хеширования входного блока данных.
Рассуждая логически, мы приходим к пониманию, что совершенно невозможно преобразовать большой блок данных в исключительно малый без потерь исходной информации. И это действительно так. Алгоритм хеширования представляет собой одностороннюю математическую функцию, результат действия которой практически невозможно обратить в исходные данные до преобразования. То есть вычислительно из хеша чрезвычайно сложно получить его прообраз. Теоретически это возможно осуществить только последовательным перебором вариантов – при помощи так называемого метода «грубой силы». Этот метод базируется на принципе «зашифруй и сравни»: некие предполагаемые исходные данные хешируются и сравниваются с имеющимся хешем. Если эти два хеша не совпали, значит, данный предполагаемый прообраз нам не подходит. Меняем его и хешируем снова – и так далее до бесконечности, пока хеши вдруг неожиданно не совпадут. Только тогда мы можем говорить о том, что мы «расшифровали хеш», но количество вариантов, которое нам необходимо перебрать, чтобы добиться такого результата, измеряется, без преувеличения, астрономическими величинами.