Выбрать главу

Рассмотрим предложение: «Врач вошел в операционную и надел перчатки». На первый взгляд это предложение очень простое, но для программы, устанавливающей взаимосвязь между словами, оно весьма информативно. Оно говорит, что объект «врач» входит в помещение, которое называется «операционной», и надевает предмет под названием «перчатки».

Используя метод, который применялся для анализа песен (просмотр множества предложений, в которых употребляются одинаковые слова), мы получаем представление о том, как связаны разные слова, идеи и концепции. «Доктора» с некоей периодичностью входят и выходят из «операционной», используют «перчатки» или, например, «ведут прием пациентов». Это дает приблизительное представление о том, чем занимается «врач».

Так учат детей. Если вы посмотрите на малыша пяти месяцев, ткнете куда-то в середину своего лица и произнесете: «Нос», ребенок не поймет, что вы хотите сказать. Для него слово «нос» ничем не отличается от слова «демократия» или «истеблишмент». Однако если постоянно произносить это слово, указывая на свой нос или на нос малыша, рано или поздно ребенок его усвоит.

По тому же принципу учатся машины. Загрузив в себя все статьи из «Википедии» или сообщения из Google News, компьютер может начать понимать значения разных слов и улавливать связь между ними. Если со словом «собака» часто употребляется прилагательное, например «дружелюбный», то читатели (и машины тоже) смогут связать эти два слова и в будущем легче их находить. О «кошке» чаще говорят как о животном «независимом», что тоже позволяет связать два этих слова.

Для образования смысловых связей совсем необязательно, чтобы слова употреблялись вместе. Фразы «собаки – животные» и «животные дружелюбны» уже позволят программе соединить понятия «собака» и «дружелюбие», даже при отсутствии точного указания, что собаки дружелюбны.

Британский лингвист Дж. Р. Ферт сказал: «Смысл слова можно понять из его окружения». Иными словами, можно больше узнать о понятии, изучив контекст – слова, которые стоят рядом.

По тому же принципу логично предположить, что люди, которые много времени проводят вместе, вероятно, станут друзьями. Слова, употребляемые в одном предложении, несомненно, так или иначе связаны между собой. На этом основывается метод, который называется векторным представлением слов – сопоставлением слов и представлением их в определенном окружении.

Когда люди переезжают в новый дом или квартиру и раскладывают вещи, то, как правило, при выборе места для них основываются на том, как пользуются этими вещами. Например, ложки кладут в ящик с приборами, овощи – в холодильник, чистящие средства ставят под раковину. Векторное представление слов поступает так же со словами. Чем сильнее слова связаны друг с другом, тем ближе они расположены. Слова «собака» и «кошка» расположены довольно близко друг к другу, потому что означают животных, причем домашних. Основываясь на ассоциациях, «собака» ближе к понятию «дружелюбный», а «кошка» – к «независимый».

Этот метод использует не два и не три измерения, а сотни.

Родственные слова находятся близко друг к другу, и расстояние между ними можно измерить. «Грейпфрут», например, ближе к «апельсин», чем к «киви», следовательно, у них больше сходства. Неудивительно, что фрукты будут далеки от слова «тигр».

ПРАВИЛЬНОЕ УСКОРЕНИЕ

Выстраивание слов – увлекательное занятие. Как мы говорили ранее, при помощи преобразования текста в векторную форму можно изучить любую тему – от гендерных предубеждений и расизма до эволюции мышления.

Чтобы выяснить, способствует ли повышению популярности книги или фильма быстрое развитие сюжета, мы с коллегами применили тот же метод уже не к словам, а к предложениям и даже абзацам. Две части любой книги или фильма могут обладать схожими чертами так же, как два слова.

Чтобы понять, как это работает, вспомним уроки географии, которую вы наверняка изучали в старших классах школы. В учебнике есть параграфы, рассказывающие о земной коре, землетрясениях, погоде и даже Солнечной системе.

Возьмем для рассмотрения первый абзац любого параграфа – скажем, о землетрясениях. Мы обнаружим, что он тесно связан со следующим абзацем. Параграф может начинаться с того, что дается определение землетрясению, а затем говорится о том, какие процессы его вызывают. В обоих случаях используются одинаковые слова, фразы и понятия (например, «землетрясение», «разлом» и «тектоника плит»). Каждый последующий абзац связан по смыслу с предыдущим, но чем дальше расположены друг от друга абзацы или параграфы, тем меньше они похожи. Например, в параграфе, рассказывающем о землетрясениях, используются понятия, отличные от тех, что встречаются в параграфе о Солнечной системе.