Однако в этом режиме модель по-прежнему не ищет истину, поскольку цель остается той же: имитация человеческой письменной речи. Тем не менее, возможно, есть способ неявно повысить достоверность. Это исследователи уже некоторое время изучают двумя способами: минимизацией энтропии и (в последнее время) точной настройкой во время тестирования.
∙ При минимизации энтропии модель имеет индуктивный уклон в сторону более низких энтропийных реакций. Другими словами, она генерирует множественные ответы и в качестве способа различения принимает гипотезу о том, что ответ с наименьшим возможным количеством предположений, то есть самый простой, является лучшим ответом, что некоторые из вас сочтут похожим на бритву Оккама.
Например, предположим, что у нас есть модель, которая должна решить, является ли животное собакой или нет. 1) Ответом с низкой энтропией будет: "Это собака, потому что она лает". 2) Ответом с высокой энтропией будет: "Это собака, потому что она лает с интенсивностью 80 дБ и под углом 87 градусов относительно меня".
Хотя оба ответа верны, первый из них лучше, потому что признак лая является достаточным условием, чтобы решить, что это собака.
Второй ответ, хотя и верен, но адаптирован к очень конкретному случаю лающей собаки, что может привести к тому, что модель будет думать, будто лающие животные с более низкой интенсивностью звука или под другим углом не являются собаками.
∙ В ходе тонкой настройки во время тестирования Джек Коул и Мохамед Осман активно ищут решение знаменитого теста ARC-AGI (самого сложного теста для LLM) путем тонкой настройки модели. Здесь модель, столкнувшись со сложной проблемой, генерирует для нее несколько решений, находит правильное и точно настраивает веса модели в режиме реального времени.
Это форма активного обучения, при которой модель способна адаптироваться к поставленной проблеме, то есть никогда не перестает учиться. Однако, по моему скромному мнению (я вполне могу ошибаться), хотя эти очень интересные возможности сочетания поиска и LLM, кажется, повышают точность модели, они все же не решают проблему. По сути, модель все еще ищет не истину, а наилучший, статистически обоснованный ответ, напоминающий прошлые пути решения, которые модель запомнила заранее.
Другими словами, хотя более разумные методы поиска и LLM могут привести к лучшим, более фактическим ответам, модель по-прежнему просто выполняет свою цель - предоставить наиболее статистически правдоподобный ответ, независимо от его правдивости.
На самом деле, поиск истины и свобода воли не могут быть разделены; таким образом, нынешние модели не могут искать истину. Другими словами, нам нужны модели ИИ, которые не только активно познают наш мир (воплощение), чтобы понять последствия своих действий, но они также должны быть наделены рядом "добродетелей", которые побуждают модель учитывать истину как главную цель.
Короче говоря, даже в таких случаях я все еще чувствую, что модель врет.
Называть вещи подходящими именами
До того, как мы обсудим вопрос о свободе воли, нам следует ответить, понимают ли модели значение этого вопроса. Как уже говорилось, можно утверждать, что по мере того, как наши модели принимают данные более высокого качества и улучшают возможности их применения, "истинные" утверждения будут более статистически обоснованными для модели, чем "ложные". Однако до тех пор, пока модели не способны искать истину (поскольку они не знают о ее существовании), недостаточно представленные истины в обучающих данных будут вызывать у модели "галлюцинации" или, точнее, "ерунду", свой путь к ложному ответу.
Итак, как мы можем наделить передовые модели ИИ желанием искать истину?
Я не знаю. А вы?
СТИХИ
Уистен ОДЕН{4}
Rois fainéants