Выбрать главу

Стратегии-неудачницы пользовались подражанием себе в ущерб, поскольку, выбирая НАБЛЮДАТЬ, они пропускали ход ПРИМЕНЯТЬ с возможностью реализовать накопленный опыт, а простым разыгрыванием НАБЛЮДАТЬ пополнение репертуара агента новыми поведенческими моделями не гарантировано. На социальном научении это действительно сказалось очень сильно – на первом этапе турнира выбор хода НАБЛЮДАТЬ в 53 % случаев не вызывал нового поведения в репертуаре агента (в основном потому, что наблюдаемое поведение оказывалось ему уже известным). После хода НОВАТОРСТВОВАТЬ, напротив, всегда следовало новое поведение. Турнир подтвердил интуитивное предположение, с которого я начал эту главу: неудачное подражание к успеху не приведет. Повторю, чтобы подражание окупилось и увеличило индивидуальную приспособленность, оно должно использоваться эффективно.

Следующей нашей задачей было вычленить те свойства выигрывающих стратегий, которые обусловливали их превосходство. Как обнаружилось, критическим фактором выступает выбор момента для научения. В успешных стратегиях периоды научения совпадали с переменами в окружающей среде. Как мы помним, именно успешные стратегии в большинстве раундов разыгрывали ПРИМЕНЯТЬ, раз за разом выбирая из своего репертуара модель поведения, обеспечивающую наибольшую отдачу. Но перемены в окружающей среде влекут за собой перемены и в окупаемости поведения, взятого однажды за образец, причем, как правило, это перемены к худшему. Поведенческие модели, которые прежде приносили дивиденды, перестают быть выгодными. Вот тогда-то и следует разыгрывать ход НАБЛЮДАТЬ, поскольку возникает вероятность перенять поведение с большей окупаемостью. Ведь агенты, имеющие в своем репертуаре поведенческие модели, подходящие для новых условий, продолжат ПРИМЕНЯТЬ, а значит и предоставлять для подражания свое выгодное в новом контексте поведение. Другие же агенты, отдача от поведения которых резко упала, напротив, переключаются на роль учеников и приступают к научению, а следовательно, их менее выгодное поведение окажется теперь недоступно для подражания. Приурочивая таким образом научение к переменам, успешные стратегии повышали шансы агентов приобрести поведенческие модели, подходящие для новых условий.

Проигрывающие стратегии, в отличие от лидеров, не только чересчур усердствовали с научением, но и выбирали для него неверные моменты. Если окружающая среда неизменна, подражание нередко вызывает воспроизведение поведенческих паттернов, которые уже существуют в репертуаре агента. Чем практиковать научение в неверный момент, лучше было бы разыгрывать ход НОВАТОРСТВОВАТЬ, он, по крайней мере, гарантирует новое поведение. В результате для менее успешных разработок характерна обратная зависимость между подражанием и приспособленностью.

Ну а победила в турнире стратегия, которой ее авторы дали название ДИСКОНТ-АВТОМАТ[9]. Она детище двух дипломников из Королевского университета в Онтарио{291} – Дэна Каундена и Тима Лилликрапа. Дэн – математик, Тим – специалист по нейроинформатике, так что команда у них получилась солидная. Над своей стратегией они работали не один месяц, положив немало сил на то, чтобы изобрести оптимальный вариант, поэтому их выигрыш стал убедительным и заслуженным. Стратегия ДИСКОНТ-АВТОМАТ опередила конкурентов и в круговом состязании, где выиграла в 89 % поединков, и в групповом бое{292}. ДИСКОНТОМ-АВТОМАТОМ Тим и Дэн назвали свою стратегию потому, что она «уценяла» усвоенное знание по мере его устаревания и придавала свежеобретенным сведениям большее значение, чем полученным какое-то время назад{293}.

Лучшие из представленных на турнире стратегий ограничивали объемы научения, чтобы гарантированно поддерживать высокую окупаемость предлагаемого поведения. ДИСКОНТ-АВТОМАТ выделялась на их фоне относительно равномерным распределением научения по всему жизненному сроку агента. Своим успехом эта стратегия отчасти обязана тому, что, в отличие от конкурентов, тратила меньше времени на ученичество и больше на практику, разыгрывая ПРИМЕНЯТЬ, что, в свою очередь, давало возможность агентам обучаться эффективнее соперников. Добивалась этого ДИСКОНТ-АВТОМАТ за счет оценки прогнозируемой отдачи либо от научения, используя ход НАБЛЮДАТЬ, либо от разыгрывания ПРИМЕНЯТЬ{294}. Иными словами, стратегия-победительница прибегала к своего рода мысленным путешествиям во времени: она оглядывалась на прошлое, всматривалась в будущее и на основании полученных данных вычисляла, какой ход будет оптимальным в каждом раунде.

вернуться

291

Как и в турнире Аксельрода, родиной победившей стратегии оказалась Канада.

вернуться

292

В групповом бое ДИСКОНТ-АВТОМАТ выиграла 35 % состязаний, что значительно больше, чем занявшая второе место стратегия ИНТЕРПОКОЛЕНИЕ, победившая в 24 % состязаний.

вернуться

294

Здесь стратегия ДИСКОНТ-АВТОМАТ единственная среди финалистов использовала модуль экспоненциального уценивания.