Выбрать главу

Ученик шеф-повара начинает с хаотичной, неорганизованной кладовой, представляющей 175 миллиардов весов. Изначально эти гири имеют случайные значения и пока не содержат никакой полезной информации о том, как связаны слова. Чтобы пополнить свои знания и усовершенствовать набор специй, ученик шеф-повара проходит через процесс проб и ошибок, учась на изученных рецептах. Он обнаруживает, что некоторые вкусы встречаются чаще и лучше сочетаются друг с другом, например яблоки и корица, а некоторые вкусы встречаются реже, потому что их следует избегать, например яблоки и кумин. Во время обучения ученик шеф-повара пытается повторить блюда из рецептов, используя имеющиеся у него запасы. После каждой попытки ученик сравнивает свое творение с оригинальным рецептом и выявляет все ошибки и несоответствия. Затем ученик пересматривает ингредиенты в своей кладовой, уточняя связи между вкусами, чтобы лучше понять, насколько вероятно их использование вместе или в определенной последовательности.

Со временем, в результате бесчисленных итераций, кладовая подмастерья становится все более организованной и точной. Весы теперь отражают значимые связи между словами и фразами, а ученик превратился в мастера-повара. Получив задание, шеф-повар искусно выбирает нужные ингредиенты из своего обширного репертуара и обращается к своему изысканному набору специй, чтобы обеспечить идеальный баланс вкусов. Аналогичным образом ИИ создает человекоподобный письменный текст, который увлекателен, информативен и соответствует теме.

Обучение ИИ - это итеративный процесс, требующий мощных компьютеров для выполнения колоссальных вычислений, связанных с обучением на основе миллиардов слов. Эта фаза предварительного обучения - одна из основных причин, по которым создание ИИ обходится так дорого. Необходимость в быстрых компьютерах с очень дорогими микросхемами, которые должны работать месяцами на этапе предварительного обучения, во многом объясняет тот факт, что обучение более продвинутых ИИ LLM стоит более 100 миллионов долларов и потребляет большое количество энергии в процессе.

Многие компании, занимающиеся разработкой искусственного интеллекта, держат в секрете исходные тексты, на которых они обучаются, называемые учебными корпусами, но типичный пример учебных данных состоит в основном из текстов, взятых из Интернета, книг и научных статей, находящихся в открытом доступе, и других бесплатных источников, которые могут найти исследователи. При детальном изучении этих источников можно обнаружить несколько странных материалов. Например, вся база данных электронной почты компании Enron, закрытой за корпоративное мошенничество, используется как часть обучающего материала для многих ИИ, просто потому, что она была в свободном доступе для исследователей ИИ. Аналогичным образом, в обучающие данные включено огромное количество любительских романов, поскольку в Интернете полно романистов-любителей. Поиск высококачественного контента для обучающих материалов стал одной из главных тем в разработке ИИ , поскольку у жаждущих информации компаний, занимающихся разработкой ИИ, заканчиваются хорошие бесплатные источники.

В результате, скорее всего, большинство обучающих данных ИИ содержат информацию, защищенную авторским правом, как книги, используемые без разрешения, случайно или намеренно. Юридические последствия этого пока неясны. Поскольку данные используются для создания весов, а не напрямую копируются в системы ИИ, некоторые эксперты считают, что они не подпадают под действие стандартного закона об авторском праве. В ближайшие годы эти вопросы, вероятно, будут решаться судами и правовыми системами, но они создают облако неопределенности, как с этической, так и с юридической точки зрения, на этом раннем этапе обучения ИИ. Тем временем компании, занимающиеся разработкой ИИ, ищут больше данных для обучения ( , по одной из оценок, высококачественные данные, такие как онлайн-книги и научные статьи, будут исчерпаны к 2026 году) и продолжают использовать и менее качественные данные. Кроме того, активно ведутся исследования, направленные на то, чтобы понять , может ли ИИ предварительно обучаться на собственном контенте. Так уже поступают шахматные ИИ, которые учатся, играя в игры против самих себя, но пока неясно, будет ли это работать для LLM.

Из-за разнообразия используемых источников данных обучение не всегда является хорошим делом. ИИ также может усвоить предвзятость, ошибки и ложь из данных, которые он видит. Кроме того, в процессе предварительного обучения ИИ не всегда выдает те результаты, которые люди ожидают получить в ответ на подсказку. И, что еще хуже, у него нет этических границ, и он с радостью даст совет , как присвоить деньги, совершить убийство или преследовать кого-то в Интернете. LLM в этом режиме предварительного обучения просто отражают, как зеркало, то, на чем их обучали, не применяя никаких суждений. Таким образом, после обучения на всех текстовых примерах в режиме предварительного обучения многие LLM подвергаются дальнейшему совершенствованию на втором этапе, называемом тонкой настройкой.

Одним из важных подходов к тонкой настройке является привлечение людей к процессу, который ранее был в основном автоматизирован. Компании, занимающиеся разработкой ИИ, нанимают работников - одних высокооплачиваемых экспертов, других низкооплачиваемых контрактников в англоязычных странах, таких как Кения, - для чтения ответов ИИ и оценки их по различным характеристикам. В одних случаях это может быть оценка результатов на предмет точности, в других - отсеивание ответов, содержащих насилие или порнографию. Эта обратная связь затем используется для дополнительного обучения, подстраивая работу ИИ под предпочтения человека, обеспечивая дополнительное обучение, которое усиливает хорошие ответы и уменьшает плохие, поэтому этот процесс называется Reinforcement Learning from Human Feedback (RLHF).

После того как ИИ прошел начальную фазу обучения с подкреплением, его можно продолжать дорабатывать и корректировать. Такой тип тонкой настройки обычно осуществляется путем предоставления более конкретных примеров для создания новой усовершенствованной модели. Эта информация может быть предоставлена конкретным клиентом, который пытается приспособить модель к своему случаю использования, например, компания предоставляет ей примеры стенограмм обращений в службу поддержки клиентов с хорошими ответами. Или же информация может быть получена в результате наблюдения за тем, какие ответы получают "большие пальцы вверх" или "большие пальцы вниз" от пользователей. Такая дополнительная настройка может сделать ответы модели более специфичными для конкретной потребности.

Когда мы будем обсуждать ИИ в этой книге, мы в основном будем говорить о больших языковых моделях, построенных таким образом, но это не единственный вид "генеративного ИИ", который вызывает трансформации и изменения. В тот же год, когда ChatGPT совершил свой прорыв, на рынке появился отдельный набор ИИ, предназначенных для создания изображений, с такими названиями, как Midjourney и DALL-E. Эти ИИ-инструменты могут создавать высококачественные изображения по подсказкам пользователей, подражая стилю известных художников ("нарисуйте Микки-Мауса в стиле Ван Гога") или создавая ультрареалистичные фотографии, неотличимые от реальных.

Как и LLM, эти инструменты разрабатывались в течение многих лет, но только недавно технология позволила им стать по-настоящему полезными. Эти модели обучаются не на основе текста, а путем анализа большого количества изображений в паре с соответствующими текстовыми подписями, описывающими, что изображено на каждой картинке. Модель учится ассоциировать слова с визуальными понятиями. Затем они начинают со случайного фонового изображения, которое выглядит как старомодный телевизионный статический сигнал, и используют процесс, называемый диффузией, чтобы превратить случайный шум в четкое изображение, постепенно улучшая его в течение нескольких шагов. На каждом этапе удаляется еще немного шума на основе текстового описания, пока не получится реалистичное изображение. После обучения диффузионные модели могут брать только текстовую подсказку и генерировать уникальное изображение, соответствующее этому описанию. В отличие от языковых моделей, которые выдают текст, диффузионные модели специализируются на визуальных результатах, придумывая изображения с нуля на основе предоставленных слов.

Но LLM учатся работать и с изображениями, приобретая способность как "видеть", так и создавать картинки. Эти мультимодальные LLM сочетают в себе возможности языковых моделей и генераторов изображений. Они используют архитектуры трансформеров для обработки текста, но также используют дополнительные компоненты для работы с изображениями. Это позволяет LLM связывать визуальные концепции с текстом и получать представление об окружающем визуальном мире. Дайте мультимодальному LLM ужасную нарисованную от руки картинку самолета, окруженного сердечками (как я только что сделал), и он скажет: "Я думаю, это милый рисунок самолета с сердечками вокруг него. Похоже, вы любите летать или кого-то, кто летает. Может быть, вы пилот или у вас есть близкий человек, который летает. А может, вы просто любите путешествовать и исследовать новые места". Затем он может использовать свои гораздо лучшие навыки рисования, чтобы создать еще более качественную версию картинки, что он и сделал. Большинство крупных LLM обретают мультимодальные способности, которые позволят им узнавать о мире новыми и непредсказуемыми способами.