Все люди делятся на десять категорий: на тех, кто понимает двоичную систему счисления, и на тех, кто её не понимает.
Мы рассмотрели случаи, когда вероятности всех возможных исходов представляются одинаковыми. Но так бывает далеко не всегда. Очень часто один вариант представляется нам более вероятным, а другой – менее вероятным. Какова будет энтропия в этом случае? К. Шеннон вывел формулу, которая позволяет вычислить энтропию при этом условии. Предположим, что имеется всего два варианта. Вам сегодня надо сдавать экзамен, на котором могут задать 10 вопросов, из которых 9 вы знаете блестяще, а по одному совсем не подготовились. Вероятность удачной сдачи экзамена равна, таким образом, 9/10, а провала соответственно 1/10. В назначенное время вы приходите на экзамен и получаете вопрос. Этот вопрос может либо обрадовать вас, либо расстроить. Какой будет информация в том и другом случае? Мы знаем, что информация тем больше, чем сильнее вы удивитесь, узнав результат. Естественно, удивление, а значит и полученная информация, будет больше, если вам достанется «неудачный» вопрос. Поскольку информация равна двоичному логарифму вероятности того, что полученный вопрос будет «удачным» или «неудачным», взятому с обратным знаком, то в первом случае Jудачи = -1og2 9/10 = 0,15, а во втором JНеудачи = -1og2 1∕l0 = 0,33 Как видно, информация, полученная в случае маловероятной «неудачи», более чем в два раза выше той, которую мы получим в случае гораздо более вероятной «удачи». Теперь с учётом всего, что нам известно, подумаем, какова была для нас энтропия, касающаяся исхода экзамена. Мы знали, что, скорее всего (с вероятностью 0,9), получим небольшую информацию, но в одном случае из десяти можем получить (в нашем случае, к сожалению) информацию, значительно большую. Это означает, что, чем большей окажется информация, тем меньше её вероятность, т. е. тем реже мы будем её получать. На этом и основана формула Шеннона для энтропии. Она выражает среднюю информацию, которую мы будем получать, если повторять испытание многократно. Для двух вариантов результата она выглядит так:
H = – (Рудачи •lоg2 P удачи + P неудачи • lоg2 Р неудачи).
Вычислим энтропию для нашего примера со сдачей экзамена. Вероятность успешной сдачи составляет 0,9, а её двоичный логарифм равен -0,15.
Вероятность провала равна 0,1, а её логарифм по основанию 2 соответствует -0,33. Значит, энтропия равна:
Н = – [0,9 (-0,15) + 0,1 • (-0,33)] ≈ 0,17.
Эта величина выражается в битах и означает степень нашей неосведомлённости по поводу результата экзамена.
Предположим теперь, что мы имеем дело с неизвестным учащимся, про степень подготовки которого мы абсолютно ничего не знаем. Как мы оценим вероятность его успеха или провала? Логично предположить, что надо считать и ту и другую равными 0,5, как говорится, «пятьдесят на пятьдесят». Просто у нас нет никаких оснований считать иначе. Какова будет энтропия в этом случае? Как нам известно, в случае равновероятных исходов энтропия равна двоичному логарифму их количества. Таких исходов у нас два – либо сдаст, либо не сдаст. Значит, в этом случае степень нашего незнания результата экзамена равна 1 биту, что значительно больше, чем в предыдущем случае. Почему так получилось? Потому что про второго экзаменуемого нам не было ничего известно, в то время как в отношении себя мы знали, насколько различаются вероятности успешной или неуспешной сдачи экзамена. Это знание вероятностей и снизило энтропию. На сколько? Очевидно, на величину разницы энтропий для двух различных случаев, т. е. на 1 – 0,17 = 0,83 бита. Формула Шеннона показывает, что чем больше степень нашего незнания, тем большей получается величина энтропии.
В реальной жизни при выборе решения мы почти всегда исходим из того, что обладаем некоторой предварительной информацией по этому вопросу. Эта информация снижает исходную энтропию выбора. Например, нам пришлось задать всего одиннадцать вопросов для того, чтобы узнать, что загадан именно Ньютон. Предварительная информация перед угадыванием заключалась в том, что задуманным должен быть человек, скорее всего известный как загадывающему, так и отгадывающему. Вряд ли игрок имел в виду младшего сына любимого раба римского сенатора Информациуса, жившего во II в. до н. э. Сколько на Земле жило достаточно общеизвестных людей? Надо думать, что не более нескольких тысяч. Если для отгадывания Ньютона нам пришлось задать одиннадцать вопросов, значит, полученная информация составила 11 бит, а количество возможных вариантов выбора было равно 211 = 2048. Вряд ли количество известных всем знаменитостей намного больше этого числа. Ну, допустим, что играющие – очень эрудированные люди и знают в пять раз больше знаменитых людей, т. е. около десяти тысяч человек. В этом случае для угадывания им будет достаточно задать не более четырнадцати вопросов, так как логарифм 10 000 по основанию 2 равен приблизительно 13,3.