Чтобы увидеть один из примеров того, как работает такой ИИ, представьте себе отель, пытающийся спрогнозировать свой спрос на предстоящий год, вооруженный лишь существующими данными и простой таблицей Excel. До появления предиктивного ИИ владельцам отелей часто приходилось играть в угадайку, пытаясь предсказать спрос и борясь с неэффективностью и напрасной тратой ресурсов. С помощью этой формы ИИ они могли вводить множество данных - погодные условия, местные события и цены конкурентов - и получать гораздо более точные прогнозы. Результатом стала более эффективная работа и, в конечном счете, более прибыльный бизнес. До того как машинное обучение и обработка естественного языка стали мейнстримом, организации ориентировались на среднюю точность - довольно примитивный подход по сегодняшним меркам. С появлением алгоритмов ИИ акцент сместился на статистический анализ и минимизацию отклонений. Вместо того чтобы быть правильными в среднем, они могли быть правильными для каждого конкретного случая, что привело к более точным прогнозам, которые произвели революцию во многих бэк-офисных функциях, от управления обслуживанием клиентов до помощи в управлении цепочками поставок.
Возможно, эти технологии предиктивного ИИ нашли свое высшее воплощение в гиганте розничной торговли Amazon, который глубоко внедрил эту форму ИИ в 2010-х годах. В основе логистического мастерства Amazon лежат алгоритмы ИИ, безмолвно управляющие каждым этапом цепочки поставок. Amazon интегрировала ИИ в прогнозирование спроса, оптимизацию расположения складов и доставку товаров. Он также организует и переставляет полки на основе данных о спросе в режиме реального времени, обеспечивая быстрый доступ к популярным товарам для их быстрой доставки. ИИ также используется в роботах Amazon Kiva, которые транспортируют полки с товарами к работникам склада, делая процесс упаковки и отгрузки более эффективным. Сами роботы опираются на другие достижения ИИ, в том числе в области компьютерного зрения и автоматизированного вождения.
Однако эти типы систем искусственного интеллекта не были лишены ограничений. Например, им было сложно предсказывать "неизвестные неизвестные", то есть ситуации, которые люди понимают интуитивно, а машины - нет. Кроме того, им было сложно работать с данными, с которыми они еще не сталкивались в процессе контролируемого обучения, что создавало проблемы с их адаптивностью. И, что особенно важно, большинство моделей ИИ были ограничены в своей способности понимать и генерировать текст в связном виде с учетом контекста. Таким образом, хотя эти области применения ИИ важны и сегодня, большинство людей не видели и не замечали их в своей повседневной жизни.
Но среди множества работ, посвященных различным формам ИИ, которые публикуют промышленные и академические эксперты, выделяется одна - работа с броским названием "Внимание - это все, что вам нужно". Опубликованная исследователями Google в 2017 году, эта работа внесла значительные изменения в мир ИИ, в частности в то, как компьютеры понимают и обрабатывают человеческий язык. В работе была предложена новая архитектура, названная Transformer, которая может быть использована для того, чтобы помочь компьютеру лучше обрабатывать человеческую речь. До появления трансформера для обучения компьютеров пониманию языка использовались другие методы, но они имели ограничения, которые сильно ограничивали их полезность. Трансформер решил эти проблемы, используя "механизм внимания". Эта техника позволяет ИИ концентрироваться на наиболее важных частях текста, что облегчает понимание и работу с языком, делая его более человечным.
Читая, мы знаем, что последнее слово в предложении не всегда является самым важным, но машины с трудом справлялись с этой концепцией. В результате получались неуклюже звучащие предложения, явно сгенерированные компьютером. Рассказ о том, как АЛГОРИТМЫ ТИХО ОРГАНИЗУЮТ КАЖДЫЙ ЭЛЕМЕНТ, - это то, как генератор цепей Маркова, ранняя форма ИИ для генерации текста, хотел продолжить этот параграф. Ранние генераторы текста полагались на выбор слов в соответствии с основными правилами, а не на чтение контекстных подсказок, поэтому клавиатура iPhone показывала так много плохих предложений автозаполнения. Решение проблемы понимания языка было очень сложным, поскольку существует множество слов, которые могут сочетаться различными способами, что делает невозможным применение формульного статистического подхода. Механизм внимания помогает решить эту проблему , позволяя модели ИИ оценивать важность различных слов или фраз в блоке текста. Сосредоточившись на наиболее значимых частях текста, трансформеры могут создавать более контекстно-ориентированные и связные тексты по сравнению с более ранними предиктивными ИИ. Опираясь на достижения архитектуры Transformer, мы вступаем в эпоху, когда ИИ, как и я, может генерировать контекстуально насыщенный контент, демонстрируя удивительную эволюцию машинного понимания и выражения. (И да, последнее предложение - это текст, созданный ИИ, - большое отличие от цепи Маркова!)
Эти новые типы ИИ, называемые большими языковыми моделями (Large Language Models, LLM), по-прежнему занимаются предсказаниями, но вместо того, чтобы предсказывать спрос на заказ Amazon, они анализируют фрагмент текста и предсказывают следующую лексему, которая представляет собой просто слово или часть слова. В конечном счете, это все, что ChatGPT делает технически - действует как очень сложный автозаполнитель, как у вас на телефоне. Вы задаете ему начальный текст, а он продолжает писать текст, основываясь на том, что он статистически вычисляет как наиболее вероятную следующую лексему в последовательности. Если вы напечатаете "Закончите это предложение: Я думаю, поэтому я ... ", то ИИ каждый раз будет предсказывать, что следующим словом будет am, потому что вероятность этого невероятно высока. Если вы напечатаете что-нибудь более странное, например "Марсианин съел банан, потому что", вы каждый раз будете получать разные ответы: "это была единственная привычная еда, имевшаяся в кладовой космического корабля", "это была новая и интересная еда, которую он никогда раньше не пробовал, и он хотел ощутить вкус и текстуру этого земного фрукта" или "это было частью эксперимента по проверке пригодности земной пищи для употребления на Марсе". Это связано с тем, что возможных ответов на вторую половину предложения гораздо больше, и большинство LLM добавляют в свои ответы немного случайности, что обеспечивает немного разные результаты каждый раз, когда вы задаете им вопрос.
Чтобы научить ИИ понимать и генерировать человеческую письменность, его обучают на огромном количестве текстов из различных источников, таких как веб-сайты, книги и другие цифровые документы. Это называется предварительным обучением, и, в отличие от более ранних форм ИИ, оно является неконтролируемым, то есть ИИ не нужны тщательно маркированные данные. Вместо этого, анализируя эти примеры, ИИ учится распознавать закономерности, структуры и контекст в человеческом языке. Примечательно, что с помощью огромного количества настраиваемых параметров (называемых весами) LLM может создать модель, имитирующую человеческое общение с помощью письменного текста. Веса - это сложные математические преобразования, которым LLM обучается в процессе чтения миллиардов слов, и они определяют, насколько вероятно, что различные слова или части слов будут появляться вместе или в определенном порядке. В оригинальном ChatGPT было 175 миллиардов весов, кодирующих связь между словами и частями слов. Никто не программировал эти веса; вместо этого они были получены самим ИИ в процессе обучения.
Представьте себе LLM в роли старательного ученика-повара, который стремится стать мастером кулинарии. Чтобы научиться кулинарному искусству, ученик начинает с чтения и изучения обширной коллекции рецептов со всего мира. Каждый рецепт представляет собой кусок текста, в котором различные ингредиенты символизируют слова и фразы. Цель ученика - понять, как сочетать различные ингредиенты (слова), чтобы создать вкусное блюдо (связный текст).