На мой взгляд, вот источник того экзистенциального риска от разработки сверхинтеллектуального ИИ, о котором в последние годы говорили такие специалисты, как Илон Маск, Билл Гейтс, Стивен Хокинг и Ник Бостром.
Исследования в области ИИ до сих пор направлялись на понимание принципов, лежащих в основе интеллектуального поведения, и на «встраивание» этих принципов в машины, которые далее смогут демонстрировать такое поведение. В 1960-х и 1970-х годах преобладающей среди теоретиков характеристикой интеллекта считалась способность к логическим рассуждениям, включая также и умение планировать действия, гарантированно ведущие к достижению определенной цели. В последнее время получила признание и распространение концепция рационального агента, который воспринимает ожидаемую полезность и действует ради ее максимизации. Такие «субполя», как логическое планирование, робототехника и понимание естественного языка, являются частными случаями общей парадигмы. Исследования в области ИИ стали учитывать теорию вероятности для обработки неопределенностей, теорию полезности для определения целей и методики статистического обучения, призванные помочь машинам адаптироваться к новым обстоятельствам. Эти разработки обеспечили прочные связи исследований ИИ с другими дисциплинами, основанными на сходных концепциях, в том числе с теорией управления, экономикой, изучением операций и статистикой.
С точки зрения как логического планирования, так и деятельности рационального агента цель машины – будь то в форме «настоящей» цели, функции полезности или функции вознаграждения (как в обучении с подкреплением) – определяется экзогенно. Цитируя Винера, это «цель, заложенная в машину». Действительно, один из исходных принципов исследований ИИ гласит, что системы искусственного интеллекта должны быть универсальными, то есть способными воспринимать некую цель в качестве начального параметра и затем ее достигать, а вовсе не специализированными, где цель подразумевается конструкцией. Например, беспилотный автомобиль должен уметь принимать задаваемые разные пункты назначения, а не прокладывать маршрут к единственному фиксированному пункту назначения. Впрочем, некоторые характеристики «целей поездки» в беспилотных автомобилях остаются фиксированными: скажем, условие не давить пешеходов. Они встраиваются непосредственно в алгоритмы управления автомобилем, без явной формулировки: ни один современный беспилотный автомобиль не «знает», что пешеходам не нравится, когда их давят.
Постановка цели перед машиной, которая оптимизирует свое поведение в соответствии с четко определенными алгоритмами, кажется замечательным подходом, гарантирующим, что поведение машины будет опираться на «принципы, приемлемые для нас». Но еще Винер предупреждал, что мы должны научиться ставить правильные цели. Можно назвать эту задачу проблемой царя Мидаса: ведь тот получил ровно то, о чем просил, а именно превращение всего, к чему он прикасался, в золото, но слишком поздно для себя выяснил, что не так-то просто утолять жажду жидким золотом или насыщаться твердым золотом. Если воспользоваться техническим термином, постановка правильных целей – это юстировка ценностей. Когда данная процедура не срабатывает, мы непреднамеренно можем задать машинам цели, противоречащие нашим собственным. Например, решая задачу скорейшего поиска лекарства от рака, система искусственного интеллекта может счесть, что разумно использовать весь человеческий род в качестве подопытных морских свинок для своих экспериментов. В ответ на просьбу снизить кислотность Мирового океана она может ликвидировать весь кислород в атмосфере в качестве побочного эффекта. Такова общая характеристика систем, которые оптимизируют свою работу: переменные, не относящиеся к достижению цели, могут доводиться до предельных значений ради оптимизации способов достижения цели.
К сожалению, ни разработка ИИ, ни научные дисциплины (экономика, статистика, теория управления, изучение операций), предусматривающие оптимизацию целей, не способны внятно излагать методики выявления целей, «к которым мы на самом деле стремимся». Вместо этого они исходят из допущения, что цели просто «имплантируются» в машину. Исследования в области ИИ в их нынешнем виде направлены на изучение способности к достижению целей, а не на постановку этих целей.