Каждая из этих историй представляет собой очередное изменение в том, как мы думаем о данных и чего мы от них ожидаем. Если раньше мы стремились дать нашим алгоритмам своего рода энциклопедическую осведомленность - обо всех категориях и вещах, - то теперь мы стремимся к чему-то более богатому. Более глубокого понимания пространств, моментов и даже смыслов, в которые эти вещи вложены. Расширение не только количества, но и деталей и нюансов. Новые подходы к данным, которые выходят за рамки простой курации и каталогизации и позволяют моделировать целые среды и действия, которые в них разворачиваются. Именно поэтому по мере роста гуманизма, лежащего в основе нашей работы, она сопровождается взрывом технической сложности. Формирование такого целостного представления о реальной жизни - более достоверного, чем когда-либо прежде, - потребует глубины и точности, на которые, как мне кажется, сейчас не способны даже наши самые совершенные технологии. Поэтому, повторюсь, волнение заключается в вызове. Нам снова придется развиваться.
Точная форма этой эволюции, конечно, остается загадкой, но интригующие намеки уже появляются. Среди наиболее значимых событий последних лет - растущий спектр альтернатив человеческому узкому месту в обучении модели - растущие затраты, время и даже этические проблемы, связанные с организацией достаточного количества ручного труда для подготовки наборов данных в больших и больших объемах, которые требует прогресс. Однако прогресс в том, как модели обрабатывают эти данные, в том, что касается их размера, способности работать параллельно и способности самостоятельно выявлять полезные закономерности - их "внимания", как это называется в литературе, - делает возможным обучение на наборах данных настолько больших, что в некоторых случаях они составляют значительную часть самого интернета. В случае с текстом, например, это часто означает всю Википедию, библиотеки книг и академических периодических изданий и даже истории сообщений на онлайн-форумах вроде Reddit. В результате, когда анализируется каждое слово, пробел и знак препинания, получается статистическая модель человеческого языка, настолько обширная и в то же время плотная, что она способна экстраполировать даже короткую подсказку - зародыш идеи в виде одного предложения, будь то вопрос, утверждение или строка диалога - в огромные массивы потрясающе реалистичной прозы. Полученные модели, которые теперь принято называть "большими языковыми моделями", или LLM, демонстрируют настолько беглую лингвистическую компетенцию, настолько неуловимо человеческую, что легко забыть, что читаешь не слова автора из плоти и крови.
Теперь, после стольких лет прорывов в области компьютерного зрения, LLM вызывают ренессанс в обработке естественного языка и, вполне возможно, предвещают следующую великую эпоху ИИ. Под капотом новый тип модели машинного обучения, известный как "трансформатор", который, вероятно, является самым большим эволюционным скачком в дизайне нейронных сетей со времен AlexNet в 2012 году, делает LLM возможными, воплощая в себе все необходимые качества: гигантский масштаб, возможность ускорить время обучения за счет обработки данных большими параллельными массивами и невероятно сложный механизм внимания. По любым меркам это веха, если не точка перегиба; почти сразу после публикации трансформатор продемонстрировал возможности, настолько впечатляющие, что они шокировали даже экспертов, стоявших за его созданием, и с тех пор прогресс не замедлился.
Мое первое знакомство с текстом, созданным с помощью большой языковой модели, было сюрреалистическим опытом, и оно заставило вспомнить о нашей работе с Андреем. Я вспомнил, как захватывающе было видеть, как в те дни ИИ составлял одно полное предложение - даже неуклюже сформулированное - для описания того, что он видел. Всего несколько лет спустя алгоритмы стали настолько искусными словесниками, что могут отвечать на вопросы, сочинять истории и даже объяснять шутки. Более того, зарождающийся класс "мультимодальных" сетей, обученных не только на тексте, но и на фотографиях, аудио, записанном голосе и даже видео, учится генерировать и эти медиа. Это развитие, которое на практике часто кажется опережающим на поколение или два: всего за десять лет алгоритмы прошли путь от попыток распознать содержимое фотографий до сверхчеловеческого уровня, а теперь, что удивительно, самостоятельно создают совершенно новые изображения, ничуть не хуже фотографических, но полностью синтетические и с зачастую тревожным уровнем реализма и детализации. Похоже, что эра глубокого обучения уже уступает место новой революции - наступает эра генеративного ИИ.