Но какой бы убедительной эта гипотеза ни казалась, она, судя по всему, все же далека от истины – и это открытие сыграло важнейшую роль в развитии нейроэкономики. Впервые сомнения в верности гипотезы ангедонии появились в начале девяностых годов, когда Вольфрам Шульц с коллегами изучали функционирование дофаминовых нейронов у обезьян во время выполнения различных обучающих заданий{54}. Ученые обнаружили, что до обучения дофаминовые нейроны наиболее активны прямо после получения награды (сока). Эти данные пока не противоречат теории гедонии. Однако, когда обезьяны выучили, что наверняка получат сок после звукового сигнала, активность в дофаминовых нейронах после получения сока возникать перестала. Вместо этого она регистрировалась сразу после звукового сигнала. Почему дофаминовые нейроны не возбуждаются после получения сока? Ведь обезьяны все равно получают от него удовольствие. Здесь возник еще один поворот. Когда ученые перестали давать обезьянам сок, после того как те уже привыкли его получать, активность дофаминовых нейронов прекращалась ровно в тот момент, когда обезьяны не получали ожидаемой награды. Рид Монтегю и Питер Дайан, работавшие в то время вместе со Стивом в лаборатории Терри Седжновски в Институте Солка, обнаружили, что функция дофаминовых нейронов не ограничивается простым вызыванием чувства наслаждения{55}. Нейроны также способны к обучению, предсказывая возможное вознаграждение. Этот процесс называется обучением с подкреплением и очень распространен у человека и других животных. В широком смысле обучение с подкреплением имеет место всегда, когда мы получаем обратную связь от окружающего мира в форме вознаграждения или наказания. Мы обучаемся, если наш опыт не соответствует предсказанию дофаминовой системы. И дофаминовая система должна отслеживать, когда ее действия превосходят ожидания, а когда – наоборот. В обоих случаях возникает возможность усовершенствовать действие. По мере того как нейроны корректируют свою работу в соответствии с получаемой информацией, мы учимся связывать ценность вознаграждения с действием. Так дофаминовая система связывает обучение с принятием решений. Животное способно научиться принимать решения, ведущие к наибольшей награде.
Монтегю и Дайан поняли, что именно в этом заключается функция дофамина, и начали исследовать свои предположения о том, что он участвует в прогнозировании вознаграждения, обучении с подкреплением и принятии решений. Впоследствии это стали называть системой привычки головного мозга, о которой мы здесь говорим как о машине удовольствия привычки, чтобы подчеркнуть ее связь с вознаграждением. В отличие от целей система привычки учится ценить действия, так что они сами по себе становятся вознаграждением – например, утренняя чашечка кофе. Даже если ваша цель – ограничить потребление кофе, машина привычки будет стремиться к его получению, потому что ценит действие питья кофе больше, чем результат. В 1995 г. Монтегю и Дайан опубликовали данные исследования поведения существа, прекрасно принимающего экономические решения, – Bombus, которого большинство из нас знает как обычного шмеля. Жизнь рабочего шмеля посвящена единственной задаче: собирать нектар и пыльцу для колонии. Он не может приносить потомство, так что не отвлекается на поиск партнеров. У шмеля практически нет естественных врагов, и, в отличие от медоносных пчел, ему не нужно сообщать другим членам колонии, где искать хорошие цветы.
Перед шмелем, отправляющимся на поиски нектара, встает целый ряд сложных задач. Во-первых, он не обладает большими энергетическими запасами, и сбор пищи должен быть как можно более эффективным, чтобы обеспечить максимальный возврат энергии. Во-вторых, ему приходится конкурировать за нектар с остальными шмелями из своей колонии и с другими насекомыми, а нектар – это достаточно ограниченный ресурс. Еще более усложняет задачу то, что шмель не знает точно, где найдет нектар, потому что местонахождение хороших источников постоянно меняется. Поэтому шмель должен быть способен не просто регистрировать получение вознаграждения, находя что-то ценное (нектар), но и учиться прогнозировать вознаграждение и использовать эти прогнозы для оптимизации поисков. Хотя мы, как правило, воспринимаем экономику через деньги, стоит заметить, что любой выбор в ограниченных условиях – это форма экономического принятия решений. Ограничения могут быть самыми разнообразными. В данном случае шмелю необходимо находить правильное соотношение между затраченной энергией и количеством нектара, которое он может собрать.
54
Schultz, W., P. Apicella, and T. Ljungberg. 1993. “Responses of monkey dopamine neurons to reward and conditioned stimuli during successive steps of learning a delayed response task.”
55
Montague, P. Read, Peter Dayan, Christophe Person, and Terrence J. Sejnowski. 1995. “Bee foraging in uncertain environments using predictive Hebbian learning.”