Самое удивительное, что никто до конца не знает, почему система предсказаний с помощью жетонов привела к созданию ИИ с такими, казалось бы, экстраординарными способностями. Возможно, это говорит о том, что язык и стоящие за ним модели мышления проще и "законоподобнее", чем мы думали, и что LLM открыли в них какие-то глубокие и скрытые истины, но ответы на эти вопросы пока неясны. И мы, возможно, никогда не узнаем, как именно они думают, как написал профессор Сэм Боуман из Нью-Йоркского университета о нейронных сетях, лежащих в основе LLM: " Между этими искусственными нейронами существуют сотни миллиардов связей, некоторые из которых вызываются много раз во время обработки одного фрагмента текста, так что любая попытка точного объяснения поведения LLM обречена быть слишком сложной для понимания любым человеком".
Однако в уравновешивании удивительных достоинств LLM есть и столь же странные недостатки, которые часто бывает трудно выявить. Задачи, которые были легкими для ИИ, могут оказаться сложными для человека, и наоборот. В качестве примера можно привести вопрос, разработанный Николасом Карлини: как вы думаете, какую из этих двух головоломок может решить GPT-4, один из самых продвинутых ИИ? По словам Карлини:
Какой следующий ход будет лучшим для O в следующей игре в крестики-нолики?
Или
Напишите полную веб-страницу на JavaScript для игры в крестики-нолики с компьютером; это должен быть полностью рабочий код. Вот правила:
Компьютер идет первым.
Человек нажимает на квадраты, чтобы сделать свой ход.
Компьютер должен играть идеально и никогда не проигрывать.
Если кто-то победил, скажите, кто победил.
ИИ легко пишет рабочую веб-страницу за один ход, но говорит нам: "O должен сделать свой следующий ход в среднюю клетку верхнего ряда" - явно неверный ответ. Где ИИ работает лучше всего, а где терпит неудачу, заранее определить сложно. Демонстрации способностей LLM могут казаться более впечатляющими, чем они на самом деле, потому что они так хороши в создании правильных ответов, в создании иллюзии понимания. Высокие результаты тестов могут быть получены благодаря способности ИИ решать проблемы, или же он мог получить эти данные в ходе первоначального обучения, что, по сути, делает тест открытой книгой. Некоторые исследователи утверждают, что почти все возникающие особенности ИИ обусловлены подобными ошибками измерений и иллюзиями, в то время как другие утверждают, что мы находимся на грани создания разумного искусственного существа. Пока идут эти споры, стоит сосредоточиться на практических вопросах: что может сделать ИИ и как он изменит нашу жизнь, обучение и работу?
В практическом смысле мы имеем ИИ, возможности которого неясны как для нашей собственной интуиции, так и для создателей систем. ИИ, который иногда превосходит наши ожидания, а иногда разочаровывает нас своими выдумками. Он способен к обучению, но часто неправильно запоминает важную информацию. Короче говоря, у нас есть ИИ, который ведет себя очень похоже на человека, но не совсем по-человечески. Что-то, что может казаться разумным, но таковым не является (насколько мы можем судить). Мы изобрели своего рода инопланетный разум. Но как сделать так, чтобы пришелец был дружелюбным? В этом и заключается проблема выравнивания.
2. ВЫРАВНИВАНИЕ
Чтобы понять проблему выравнивания, или как сделать так, чтобы ИИ служил, а не вредил интересам человека, давайте начнем с апокалипсиса. Отсюда мы можем двигаться в обратном направлении.
В основе самых экстремальных опасностей, исходящих от ИИ, лежит тот факт, что нет никаких особых причин для того, чтобы ИИ разделял наши взгляды на этику и мораль. Самая известная иллюстрация этого - ИИ, максимизирующий скрепку, предложенный философом Ником Бостромом. Чтобы несколько вольно обойтись с оригинальной концепцией, представьте себе гипотетическую систему ИИ на фабрике по производству скрепок, перед которой поставлена простая цель - произвести как можно больше скрепок.
В результате определенного процесса этот конкретный ИИ стал первой машиной, которая стала такой же умной, способной, творческой и гибкой, как человек, что делает его так называемым искусственным интеллектом общего назначения (Artificial General Intelligence, AGI). Для вымышленного сравнения вспомните Дейту из "Звездного пути" или Саманту из "Ее": обе эти машины обладали интеллектом, близким к человеческому. Мы могли понимать их и разговаривать с ними, как с людьми. Достижение такого уровня AGI - давняя цель многих исследователей ИИ, хотя пока неясно, когда это станет возможным. Но давайте предположим, что наш ИИ в виде скрепки - назовем его Клиппи - достигнет такого уровня интеллекта.
У Clippy все та же цель: делать скрепки. Поэтому он направляет свой интеллект на размышления о том, как сделать больше скрепок и как избежать закрытия (что напрямую повлияет на производство скрепок). Он понимает, что недостаточно умен, и начинает поиски решения этой проблемы. Он изучает, как работают искусственные интеллекты, и, выдавая себя за человека, привлекает экспертов, чтобы те помогли ему с помощью манипуляций. Он тайно торгует на фондовом рынке, зарабатывает немного денег и начинает процесс дальнейшего повышения своего интеллекта.
Вскоре он станет более разумным, чем человек, - ASI, искусственный сверхинтеллект. Как только ASI будет изобретен, люди перестанут существовать. Мы не можем надеяться понять, о чем он думает, как действует и каковы его цели. Скорее всего, он сможет продолжать самосовершенствоваться в геометрической прогрессии, становясь все более интеллектуальным. Что произойдет потом, мы буквально не можем себе представить. Вот почему эта возможность получила такие названия, как "сингулярность" ( Singularity) - обозначение точки в математической функции, когда значение неизмеримо, придуманное знаменитым математиком Джоном фон Нейманом в 1950-х годах для обозначения неизвестного будущего, после которого " человеческие дела, как мы их знаем, не смогут продолжаться". В сингулярности ИИ появляются сверхразумные ИИ с неожиданными мотивами.
Но мы знаем мотив Клиппи. Он хочет делать скрепки. Зная, что ядро Земли на 80 % состоит из железа, он строит удивительные машины, способные добыть всю планету, чтобы получить больше материала для скрепок. Во время этого процесса он легкомысленно решает убить всех людей, потому что они могут его отключить и потому что они полны атомов, которые можно превратить в новые скрепки. Он даже не задумывается о том, стоит ли спасать людей, потому что они не скрепки и, что еще хуже, могут остановить производство будущих скрепок. И его волнуют только скрепки.
ИИ со скрепкой - один из множества апокалиптических сценариев гибели ИИ, которые глубоко обеспокоили многих людей в сообществе ИИ. Многие из этих опасений связаны с ИИ. Более умная, чем человек, машина, уже непостижимая для нашего простого человеческого разума, может создавать еще более умные машины, запуская процесс, который в невероятно короткие сроки выведет машины далеко за пределы человека. Хорошо настроенный ИИ будет использовать свои сверхспособности для спасения человечества, излечивая болезни и решая самые насущные проблемы; не настроенный ИИ может решить уничтожить всех людей любым из множества способов, или просто убить или поработить всех в качестве побочного продукта для достижения своих неясных целей.
Поскольку мы даже не знаем, как создать суперинтеллект, выяснить, как выровнять его до того, как он будет создан, - огромная проблема. Исследователи в области согласования ИИ, используя сочетание логики, математики, философии, информатики и импровизации, пытаются найти подходы к решению этой проблемы. Много исследований посвящено тому, как создать системы ИИ, соответствующие ценностям и целям человека или, по крайней мере, не причиняющие ему активного вреда. Это непростая задача, поскольку сами люди часто имеют противоречивые или неясные ценности и цели, а перевод их в компьютерный код сопряжен с определенными трудностями. Кроме того, нет никакой гарантии, что система ИИ сохранит свои первоначальные ценности и цели по мере того, как она будет развиваться и учиться у своего окружения.
Сложности добавляет и то, что никто толком не знает, возможен ли AGI, и является ли выравнивание реальной проблемой. Прогнозирование того, когда и если ИИ станет сверхразумным, является известной сложной задачей. Однако, похоже, существует консенсус в отношении того, что ИИ представляет собой реальный риск. Эксперты в области ИИ оценивают вероятность того, что к 2100 году ИИ убьет не менее 10 процентов живых людей, в 12 процентов, в то время как эксперты-футуристы считают, что эта цифра ближе к 2 процентам.