Выбрать главу

Вы говорите, красота породила разум. Почему именно «красота», а не, к примеру, упорядоченность или логика? Верно ли, что «красота» исходит изнутри? И у меня есть большие сомнения в том, что «красота» — это безупречное идеальное совершенство.

Начну издалека. Совсем недавно в новостях проскользнула сенсационная для шахматистов новость. Один из сильнейших движков

современности Stockfi sh был разбит в пух и биты гугловской программой AlphaZero. Людей «железяки» уже давно побеждают, не пролив и капли машинного масла, так что соревнуются между собой. Потрясает результат: 25 побед при 25 ничьих. Сам Господь Бог не смог бы так потопить Stockfi sh’а. Гугловский алгоритм прославился тем, что победил людей в игру го, что машинам ранее сделать не удавалось, а теперь то же самое — в шахматах? В чем же секрет его успеха?

Прежде всего, в бизнесе. На поверку оказалось, что матч происходил при не самых честных условиях: обеим программам отключили дебютные книги и дали по минуте на ход. По всей видимости, искались те условия, при которых результат был бы столь впечатляющим. Гугл — контора коммерческая, смысл создания программ искусственного интеллекта — продать их в перспективе подороже. Соответственно, команда разработчиков должна постоянно рапортовать об успехах в целях сохранения финансирования. Сможет ли AlphaZero победить на чемпионате мира для шахматных программ — большой вопрос, ответ на который, скорее всего, отрицателен. Тем не менее это, безусловно, серьезное достижение. Но самое интересное в нем то, что алгоритм базируется на моделях нейронных сетей и обучается сам.

Еще более интригует субъективное восприятие манеры игры нового кандидата в транзисторные гроссмейстеры людьми. В отличие от традиционных движков, стиль которых обычно называют «комповщиной» (т. е. они принимают совершенно нечеловеческие решения), партии гугловского отпрыска оставляют позитивное эстетическое впечатление, они интуитивно красивы. Когда я говорил о красоте, породившей разум, я имел в виду именно это, а не «безупречное идеальное совершенство». Наше ощущение «красоты» подсознательно, неоднородно (от культуры к культуре) и постоянно меняется (в истории). Подсознательное внутри нас реализовано при помощи все тех же нейронных сетей. Правдоподобной кажется гипотеза о том, что решения AlphaZero кажутся нам красивыми именно благодаря резонансу нашего и его способов «мышления». Традиционные движки тем временем используют эвристики, подготовленные для них человеком, т. е. их расчет вариантов близок к разумному (разве что перебор они делают более тщательный, человек ограничивает дерево расчета «красивыми» ходами).

Зачем же нам вообще потребовался разум, сознание? Разве нельзя было, подобно гугловской программе, как-то на ощупь, подсознательно настроить наши нейронные мозги? Чуть выше мы уже поднимали этот вопрос. На входе шахматной программы — позиции, на выходе — выбранные ходы. На входе живого организма — сенсорика, данные с датчиков чувств (назовем это фазовым пространством), на выходе — моторика, те или иные действия. Если бы функция, описывающая идеальное поведение (т. е. преобразование входа в выход), была постоянной во времени и более-менее гладкой, то достаточно большой нейронной сети и впрямь хватит. Таковым, по всей видимости, является фазовое пространство игры в го. Не факт, что таковым является фазовое пространство игры в шахматы (очень много особых правил — например, рокировка или взятие на проходе). Абсолютно точно, что таковым не является наш мир. Помимо его нерегулярности (то потопы, то землетрясения), он постоянно меняется посредством деятельности живых организмов.

Давайте на секундочку посмотрим на наш мир глазами госпожи Эволюции и попробуем «вспомнить» вехи ее большого пути на Земле (т. е. поспекулировать на эту тему). Представим себе живой организм в виде… ну, хотя бы модели, т. е. некоего квадратика, который упрямо преобразует информацию на входах (в данном случае сенсорика) в информацию на выходах (в данном случае моторика). Развитие устройств ввода-вывода (органов чувств и передвижения), конечно же, тоже было гигантской задачей, но мы оставим ее пока без нашего внимания. Нас будет интересовать только то, что происходило в веках, которые были прежде нас, в самом сердце модели — внутри квадратика, т. е. в «нервной системе».

Итак, существует задача сбора информации посредством «зондирования». При этом необходимо обеспечить надежное функционирование дорогущего оборудования. Как запрограммировать аппаратуру таким образом, чтобы она принимала наиболее адекватные решения и избегала поломок? Жестко запаять реакции на те или иные стимулы — только первый шаг в этом направлении. Это безусловные рефлексы, уровень условной амебы. Последовательность трагических неудач в полевых условиях должна была привести к следующему этапу развития — самообучающимся нейронным сетям. Для того чтобы настроить систему, первым делом необходима обратная связь — оценка успеха или неудачи произведенной реакции. Ее обеспечил древний прототип того, что в современности часто величают «системой ценностей». На входе этой модели были сенсорные данные на момент времени непосредственно после принятого решения. На выходе — оценка, регулирующий сигнал для настройки нейронной сети. Это зачатки тех функций, которые мы называем «условными рефлексами».

Но и у этого решения нашлись свои недостатки. Действует быстро и не требует постоянной связи с «Центром» — очевидный плюс. Но продолжает регулярно делать ошибки в условиях меняющейся окружающей среды — не менее очевидный минус. Тем временем постоянно растущий арсенал средств воздействия на окружающую среду привел к новой проблеме: какую именно реакцию из гигантского ассортимента выбрать? Было замечено, что далеко не во всех случаях от организма требуется мгновенная реакция, можно и подумать. Это привело к организации внутреннего интерпретатора, модели (опять же нейронной сети), при помощи которой можно прикинуть, как изменится мир после принятия того или иного решения. И оценить «позицию» впоследствии, при помощи готовой e-модели. Для реализации расчета вариантов потребовалась «оперативная память» — место для сохранения промежуточных результатов (текущей ветки анализа). Стоящая на сенсорном входе нейронная сеть продолжала обрабатывать информацию датчиков, но, отфильтровывая шум, преобразовывала ее уже не в конкретные действия, а всего лишь в ходы-кандидаты для последующего анализа. Теперь их можно было опять запустить на вход того же интерпретатора для расчета «следующего хода». Это еще не разум, но уже осмысленная деятельность, интеллект на уровне AlphaZero. Работает значительно медленнее, чем простая нейронная сеть, но значительно гибче в использовании.

Чтобы отличить те ситуации, где требуется немедленное решение, от более-менее безопасных, потребовалось ввести понятие режимов работы. Изначально это был простенький детектор опасности — подсистема страха. Со временем добавились новые, так называемые эмоции, ограничивавшие спектр возможных действий строго определенным набором. Все это дало некоторое увеличение жизнеспособности, но опять же далеко не всех катаклизмов удавалось избежать. Точная настройка на решение одной проблемы запросто теряла ее плюсы по отношению к ранее решенным. У этой девицы-сети была короткая память. Потребовался новый виток усложнения алгоритма. Было бы здорово запомнить и передать от зонда к зонду накопленный опыт. Ведь на этом этапе он был как-то распределен в виде безумного количества коэффициентов передачи сигнала от нейрона к нейрону по всей сети. Куда бедной Эволюции податься?

Тут в изначально первобытном нейронном море подсознания один за другим начали всплывать островки ментальных моделей. Это они теперь стали использоваться при распознавании образов (событий), и побеждала наиболее адекватная из них. Функция оценки результатов интерпретатора тоже перестала быть запаянной, это теперь настраиваемая модель. У страны психики появился президент. Если ему не нравится положенная ему на рабочий стол ментальная модель, то его отрицательная оценка понижает приоритет победителя в будущем, иначе — усиливает ее. К этой точке мы уже где-то на уровне высших животных, поскольку даже крысы составляют ментальный план лабиринта и в состоянии найти в нем оптимальный путь, если закрыть привычный для них ход.