Полтора года мы интенсивно обсуждали порядок турнира, проигрывая разные сценарии на компьютерном симуляторе и соревнуясь между собой. Игра прошла три отдельные итерации – дважды нам пришлось, несмотря на все потраченные усилия, отказываться от разрабатываемого варианта как от нежизнеспособного. Когда такое случилось во второй раз – после того как Киммо с Магнусом обнаружили слабые места в структуре планируемого состязания, – мы с Люком были в отчаянии. Однако нет худа без добра: в результате мы спроектировали новую версию, отличающуюся гениальной простотой.
Модель, на которой мы в конце концов остановились, получила название «Многорукий бандит». Вам наверняка знаком «однорукий бандит» – игровой автомат, который запускается прикрепленным сбоку рычагом («рукой»). Игрок опускает монету в специальную прорезь, дергает рычаг и (с определенной долей вероятности, гарантирующей владельцу автомата устойчивую прибыль) срывает куш. А теперь представьте игровой автомат с сотней отдельных рычагов, дающих совершенно разную вероятность выигрыша. При достаточной практике увлеченный игрок может вычислить, какие рычаги приносят крупный выигрыш, а какие оставляют искателя удачи ни с чем. Аналогом такой вот непростой задачи по определению нужных рычагов и явилась наша игра.
Мы представили себе гипотетическую популяцию неких существ – назовем их агентами, – вынужденных выживать в незнакомом изменчивом мире, полном трудностей и препятствий. Агентов могло, например, выбросить на тропический остров, который приходится собственными силами осваивать и на котором надо самим добывать пропитание. Можно охотиться на зайцев, ловить рыбу в реке, выкапывать клубни, собирать фрукты, вырастить что-то самостоятельно и т. д. Мы составили сотню альтернативных поведенческих моделей, каждая из которых обладала свойственной только ей окупаемостью. У небольшого количества моделей в нашем вымышленном мире окупаемость оказывалась очень высокой, большинство же приносили весьма незначительный эффект{283}. Соответственно, чтобы преуспеть, агенту, как игроку перед «многоруким» автоматом, требовалось вычислить действительно выигрышные поведенческие модели и активно следовать именно им. Если использовать термины эволюционной биологии, можно сказать, что чем больше отдачи от своих действий агенту удастся добиться в течение жизни, тем выше будет его приспособленность.
В реальности окупаемость, например выращивания ячменя или охоты на бизонов, каждый раз оказывается разной и зависит от погоды, времени года, колебаний в численности объектов охоты и их доступности. Точно так же мы сделали и в нашей игре – имитируемая среда регулярно менялась, приводя к разнице в выигрышах, связанных с каждой из поведенческих моделей. Достоинство такой схемы, получившей название «неугомонный бандит», заключалось в том, что ее было крайне трудно, почти невозможно, оптимизировать аналитическим методом{284}, а значит, мы могли быть уверены, что наш турнир заставит участников хорошенько поломать голову. Кроме того, мы имитировали эволюцию, отправляя в случайном порядке агентов на гибель и заменяя их потомками других агентов, которые приобрели повышенную адаптивность, придерживаясь поведенческих моделей с большой окупаемостью. Потомок агента наследовал стратегию социального научения от родителя – благодаря этому в ходе естественного отбора количество эффективных стратегий в популяции возрастало.
Турнир был разделен на раунды, в каждом из которых каждый агент должен был выбрать один из трех возможных ходов – НОВАТОРСТВОВАТЬ, НАБЛЮДАТЬ или ПРИМЕНЯТЬ. Понятие НОВАТОРСТВОВАТЬ предполагало несоциальное научение. Делая этот ход, агент усваивал новое поведение{285} (вместе с его окупаемостью) точно и безошибочно. Усваивать новое поведение агентам приходилось потому, что рождались они без всякого поведенческого репертуара и должны были накопить некий арсенал действий, чтобы выявить среди них высокоокупаемые. Другой ход – НАБЛЮДАТЬ – подразумевал любые формы социального научения. Выбирая этот вариант, агент подражал поведению одного из агентов или нескольких агентов, выбранных случайным образом среди прибегавших к тому или иному поведению в предшествующем раунде, и также принимал связанную с данной поведенческой моделью окупаемость. Однако научение через наблюдение влекло за собой две вероятные ошибки: агент-наблюдатель мог неправильно понять демонстрируемое поведение (и в результате усвоить искаженную версию) или неправильно оценить его окупаемость. В отличие от НОВАТОРСТВОВАТЬ ход НАБЛЮДАТЬ не гарантировал включение новой поведенческой модели в репертуар агента. Если объект наблюдения совершал что-то уже известное наблюдателю, ничего нового не усваивалось и в этом раунде ход НАБЛЮДАТЬ оказывался для игрока непродуктивным. Вероятность ошибки при социальном научении, количество объектов наблюдения, которыми выступали другие агенты, степень изменчивости среды и ряд других факторов относились к параметрам, которые на протяжении турнира систематически варьировались организаторами. И, наконец, третий ход, ПРИМЕНЯТЬ, предполагал следование той или иной поведенческой модели из репертуара агента и был, по сути, эквивалентом нажатия на рычаг автомата и получения выигрыша. Разумеется, агенты могли ПРИМЕНЯТЬ только те поведенческие паттерны, которые они успели к этому времени усвоить. Считалось также, что участники игры помнят поведение, усвоенное в предшествующих раундах, и полученную в каждом случае отдачу.
284
«Многорукий бандит», у которого окупаемость меняется с течением времени, называется «неугомонным». Эти неугомонные «многорукие бандиты» признаны серьезной проблемой, удовлетворительного аналитического решения которой пока не найдено (Papadimitriou and Tsitsiklis 1999).