После окончания Второй мировой войны большинство ученых, работавших на службы безопасности США, вернулись на свои прежние рабочие места в университетах или поступили на работу в частные компании. В армии произошла самая настоящая утечка мозгов. Тогда в 1946 году военно-воздушными силами американской армии была основана корпорация РЭНД (RAND, Research And Development). В 1947 году она стала независимой от армии. Организация была создана как think tank — хранилище идей. Ее сотрудники должны были «думать о немыслимом», в ней развивались исследовательские проекты, спектр которых варьировался от межконтинентальных ракет до исландской фонетики. Фон Нейман был принят на работу в РЭНД в декабре 1948 года со специальным контрактом на 200 долларов в месяц, который не обязывал его даже присутствовать на месте. Его просто попросили, чтобы то время, которое он тратил на бритье каждое утро, он посвящал просмотру какого-либо проекта, над которым работал центр, и сообщал свое мнение о нем.
Главное здание центра РЭНД на пляже Санта-Моники, 1958 год.
В период работы в РЭНД фон Нейман заинтересовался математической подоплекой на первый взгляд очень простой задачи — дилеммы заключенного. Однако она таила много сложностей и к тому же перекликалась со сценарием сдерживания ядерной гонки, над которым в то время велась интенсивная работа.
Когда Мерил Флад и Мелвин Дрешер, исследователи центра РЭНД, придумали эту простую игру, которую Альберт Вильям Такер, еще один сотрудник этой организации, назвал дилеммой заключенного, они и представить себе не могли, что создали одну из главных задач теории игр.
Дилемма заключенного состоит в следующем. Два члена преступной группировки попали в тюрьму. У полиции есть основания подозревать, что они совершили преступление, за которое следует наказание в виде шести лет заключения, но у нее недостаточно доказательств. Без главной улики их могут осудить всего на год тюрьмы за меньшее преступление. Полиция предлагает им такой уговор: если один даст показания против другого, то его освободят, а второго приговорят к десяти годам. Если они оба обвинят друг друга, им обоим дадут по четыре года тюрьмы. Бандитов держат в раздельных камерах, чтобы ни один из них не знал, какое решение принял второй. Если мы назовем заключенных A и В, то суть ситуации можно отразить в следующей платежной матрице.
В не обвиняет А | B обвиняет А | |
А не обвиняет В | 1, 1 | 10, 0 |
А обвиняет В | 0, 10 | 4, 4 |
Поскольку они не могут согласовать свои стратегии, принятие решений становится непростой задачей. Сначала кажется, что самым выигрышным поведением будет самое эгоистичное, которое учитывает интересы конкретного заключенного. Тогда в случае осуждения ему придется провести в тюрьме самое большое четыре года по сравнению с максимальным наказанием в десять лет, а если повезет и второй преступник воздержится от обвинения, то можно вообще избежать срока.
Такой ход мысли кажется довольно разумным, но надо иметь в виду, что второй заключенный рассуждает точно так же. Поэтому вполне вероятно, что в конце концов обоим дадут по четыре года. Эта стратегия может считаться доминантной. Тем не менее ясно, что это не самое лучшее решение, ведь если они оба откажутся давать показания друг против друга, то срок составит всего один год. Таким образом, лучшей стратегией будет кооперация, но это значит, что мы должны быть уверены в позиции нашего партнера, а гарантий у нас нет.