Поэтому после публикации его книги многие ученые стремились повторить и развить работу Павлова. Американский психолог Б. Ф. Скиннер, например, узнал о Павлове из рецензии на книгу известного писателя-фантаста Г. Г. Уэллса. Чтение этой статьи пробудило интерес Скиннера к психологии и направило его на путь становления ведущей фигурой бихевиористского движения, проведя бесчисленное количество точных исследований поведения крыс, голубей и людей.1
Когда в какой-либо области науки накапливается достаточно количественных данных, она в конце концов обращается к математическому моделированию, чтобы придать им смысл. Модели находят структуру в грудах цифр; они могут объединить разрозненные результаты и показать, как они возникают в результате единого процесса. В течение десятилетий после Павлова количество данных, получаемых в ходе поведенческих экспериментов по обучению, сделало их готовыми для моделирования. Как писал в 1950 году Уильям Эстес, выдающийся американский психолог, работавший над математикой обучения, данные по обучению "достаточно упорядочены и воспроизводимы, чтобы поддерживать точные количественные предсказания поведения".
В другой работе, опубликованной в 1951 году, говорится: "Среди отраслей психологии немногие так богаты количеством и разнообразием доступных данных, необходимых для построения моделей, как обучение". Эта работа, "Математическая модель простого обучения", была написана Робертом Бушем и Фредериком Мостеллером в Лаборатории социальных отношений Гарвардского университета. Буш был физиком, ставшим психологом, а Мостеллер - статистиком. Вместе, под влиянием работ Эстеса, они вывели формулу обучения ассоциациям между сигналами и вознаграждением, которая стала отправной точкой для целого ряда все более сложных моделей. В течение десятилетий обучение, которое отражают эти модели, стало известно как "обучение под креплением". Обучение с подкреплением - это объяснение того, как возникает сложное поведение, когда единственными сигналами обучения являются простые вознаграждения и наказания. Это, во многом, искусство учиться делать то, что нужно, без подсказок.
* * *
В своей модели Буш и Мостеллер сосредоточились на конкретной мере выученной ассоциации между сигналом и вознаграждением: вероятности реакции. Для собак Павлова это вероятность слюноотделения в ответ на звуковой сигнал. Буш и Мостеллер использовали простое уравнение, чтобы объяснить, как эта вероятность меняется каждый раз, когда награда дается - или не дается - после сигнала.
Допустим, вы берете любую случайную собаку с улицы (ходят слухи, что Павлов получал своих подопытных, воруя их на улицах). Вероятность того, что эта собака пустит слюну при звуке зуммера, равна нулю; у нее нет причин подозревать, что зуммер означает еду. Теперь вы нажимаете на зуммер, а затем даете собаке кусок мяса. Согласно модели Буша-Мостеллера, после этой встречи вероятность того, что собака пустит слюну в ответ на зуммер, возрастает (см. рис. 24). Точная величина этого увеличения зависит от параметра в формуле, называемого скоростью обучения. Скорость обучения контролирует скорость всего процесса. Если скорость обучения очень высока, одной пары может быть достаточно, чтобы закрепить в сознании собаки связь между звуковым сигналом и едой. Однако при более разумных показателях вероятность появления слюноотделения остается низкой после первого сопряжения - возможно, она достигает 10 процентов - и повышается каждый раз, когда за звуковым сигналом следует пища.
Однако независимо от значения скорости обучения, когда во второй раз после звукового сигнала подается пища, вероятность появления слюноотделения возрастает меньше, чем в первый раз. Так, если после первой пары она увеличилась с 0 до 10 процентов, то после второй пары она увеличится еще на девять процентных пунктов, до 19 процентов. И только на восемь процентных пунктов после третьего. Это говорит о том, что в модели Буша-Мостеллера (и в модели собак) изменение вероятности при каждом спаривании зависит от значения самой вероятности. Другими словами, обучение зависит от того, что уже усвоено.
С определенной точки зрения это интуитивно понятно. Нет ничего нового в том, чтобы каждый день видеть восход солнца. В той степени, в какой мы верим, что что-то произойдет, его фактическое наступление мало на нас влияет. Ожидаемое вознаграждение ничем не отличается от этого. Например, мы не изменим своего мнения о начальнике, если получим ту же самую премию к празднику, которую получали последние пять лет. А собаки меняют свою реакцию на звуковой сигнал только в той степени, в какой последующая еда отличается от того, что они ожидают. Изменить ожидания можно только нарушив их.
Рисунок 24
Это нарушение может быть как к лучшему, так и к худшему. Для собаки первый кусок мяса после "жужжания" - это приятный сюрприз, который сильно влияет на ее ожидания. Однако после многократных спариваний ожидания меняются, и слюнотечение при звуке зуммера становится второй натурой. В этот момент самое неприятное, что может произойти, - это услышать звуковой сигнал и не получить еду. Такое лишение привело бы к значительному снижению вероятности слюноотделения в будущем - такому же значительному, как и увеличение, произошедшее при первой паре. Эта обратная сторона обучения на основе вознаграждения, когда животное учится не связывать сигнал с вознаграждением, называется угасанием. С каждым предъявлением сигнала без ожидаемой награды процесс угасания разрушает ассоциацию, в итоге полностью уничтожая выученную реакцию. Буш и Мостеллер постарались показать, что их модель точно отражает этот процесс.
В то время как Буш и Мостеллер превращали информацию о слюноотделении в уравнения, другой человек на противоположном конце страны работал над применением математики для решения самых сложных проблем в бизнесе и промышленности. Глубокие и важные связи между этими работами не были осознаны еще несколько десятилетий.
* * *
Корпорация RAND - американский аналитический центр, основанный в 1948 году. Некоммерческое подразделение компании Douglas Aircraft Company, главной целью которого было расширение сотрудничества между наукой и военными, расцветшего в результате необходимости во время Второй мировой войны. Название корпорации является уместно общим (RAND буквально означает Research ANd Development)спектра исследовательских проектов, которыми она занимается. За годы своего существования сотрудники RAND внесли значительный вклад в такие области, как освоение космоса, экономика, вычислительная техника и даже внешние отношения.
Ричард Беллман работал в RAND в качестве математика-исследователя с 1952 по 1965 год. Будучи поклонником этого предмета еще в подростковом возрасте, Беллман неоднократно прерывал свой путь к профессии математика из-за Второй мировой войны. Сначала, чтобы поддержать военные действия, он оставил аспирантуру в Университете Джона Хопкинса, чтобы преподавать военную электронику в Университете Висконсина. Позже он перешел в Принстонский университет, где преподавал в рамках программы специализированной подготовки армии и занимался собственными исследованиями. В конце концов он защитил докторскую диссертацию в Принстоне, но не раньше, чем его призвали на работу в Лос-Аламос в качестве физика-теоретика для Манхэттенского проекта. Эти вторжения, похоже, не сильно повлияли на его карьеру. Уже через три года после войны, в возрасте всего 28 лет, он стал профессором Стэнфордского университета.
Уход из академического мира в RAND в 32 года стал, по словам Беллмана, разницей между "традиционным интеллектуалом или современным интеллектуалом, использующим результаты своих исследований для решения проблем современного общества". В RAND его математические навыки применялись для решения реальных проблем. К таким проблемам, как составление расписания приема пациентов, организация производственных линий, разработка долгосрочных инвестиционных стратегий или определение плана закупок для универмагов. Однако Беллману не нужно было ступать в больницу или на заводской цех, чтобы помочь в решении этих проблем. Все эти проблемы - и многие другие - объединены под одним абстрактным математическим зонтиком. И в глазах математика решить любую из них - значит решить их все.