Читать онлайн "Алло, робот!" - Кондратов Александр Михайлович - RuLit

И первое, и десятое слова, и любое другое слово в списке, номер которого будет умножен на частоту этого слова, даст одну и ту же величину! Этот закон приложим к любому языку, любому тексту (за исключением поэтических, как выяснилось позднее).

Чем объясняется эта удивительная особенность нашего языка? Французский ученый Мандельброт объяснил «закон Ципфа» с помощью теории информации, заодно несколько уточнив его. Этот закон «отвечает стремлению к оптимальному распределению информации среди имеющихся в языке слов, с тем чтобы полностью использовать возможности данного кода», — писал он.

ФОРМУЛЫ ГРАММАТИКИ

Если бы Юл принял то определение, какое давал слову Ципф, он, вероятно, пришел бы к открытию этого закона Но, увы! У лингвистов нет точных критериев определения слова. Академик В. В. Виноградов в своей книге «Русский язык», вышедшей в конце 40-х годов, приводил около сорока различных определений, которые давали слову языковеды.

За время, истекшее с тех пор, к старым определениям прибавилось еще множество других: с позиции математической лингвистики, теории информации, теории множеств (например, слово — это минимальный промежуток между двумя пробелами). Попробуйте-ка выбрать подходящую «единицу счета» для составления частотного словаря и других статистических исследований!

Вот почему ученые задумались над тем, чтобы к изучению языка применить не только количественные, но и другие разделы математики. Ибо, по справедливому замечанию французского лингвиста Фердинанда де Сос-сюра, предтечи современного точного языкознания, «до сих пор в области языка довольствовались операциями над единицами, как следует не определенными».

Ольга Сергеевна Кулагина предложила применять математическую теорию множеств для определения грамматических понятий. Это было вызвано практическими причинами: необходимо было дать четкие критерии для машинного перевода. Но из прикладной эта задача вскоре стала на повестку дня языковедов-теоретиков.

Идея Кулагиной породила ряд работ как в математике, так и в лингвистике, посвященных «формулам грамматики», определению законов языка на основании теории множеств.

Специалист по математической логике В. А. Успенский, лингвист И. И. Ревзин, математик Р. Л. Добрушин предложили ряд «математико-грамматических» моделей языка. Академик А. Н. Колмогоров предложил свою математическую модель определения падежа (известный лингвист Р. О. Якобсон считает «определение падежа по Колмогорову» лучшим определением падежа, которое когда-либо было предложено в языкознании).

Возьмем две русские фразы, в каждой из них заменим многоточием какое-либо слово, например:

… кипит.

Кошка пьет …

Теперь будем подставлять в каждую из фраз вместо многоточия какое-либо слово. Например, слово «молоко». Получим:

Молоко кипит.

Кошка пьет молоко.

Обе фразы осмысленны и грамматически правильны. Поставим теперь вместо многоточий какое-нибудь другое слово. Например, слово «вода». Получим:

Вода кипит.

Кошка пьет вода.

Для слова «молоко» обе фразы с точками равноценны, эквивалентны. И «молоко кипит», и «кошка пьет молоко» — правильные русские предложения. Но для слова «вода» первая фраза с точками подходит, а вторая — нет: «кошка пьет вода» по-русски не говорят. Значит, для слова «вода» фразы с многоточиями — «… кипит» и «кошка пьет …» — неравноценны, неэквивалентны.

Возьмем теперь не две, а несколько фраз с многоточиями. В каждую из них подставим вместо точек слово «молоко». «… кипит», «кошка пьет …», «кошка любит …», «я смотрю на …», «хорошее …». Все эти фразы равны друг другу. Равны в том смысле, что в любую из них можно подставить слово «молоко» и получить осмысленную и грамматически верную фразу.

Все множество русских фраз с многоточиями можно разбить на непересекающиеся классы. Эти классы А. Н. Колмогоров и предложил называть падежами.

ЯЗЫК-ПОСРЕДНИК

Придет время, когда в школьных учебниках русского и любого другого языка мира появятся числа и формулы. Законы математики с одинаковым успехом приложимы и к русскому, и к английскому, и к любым другим языкам мира…

А раз так, нельзя ли, опираясь на эти законы, создать некий универсальный язык? Язык, в котором бы нашли отражение закономерности всех живых языков мира?

Мысль о «всеобщем языке» с давних пор волнует многих людей. В самом деле, на земном шаре существует несколько тысяч различных языков. Чтобы преодолеть языковые барьеры, чтобы добиться взаимопонимания, сотням и тысячам людей приходится тратить драгоценное время на изучение чужого языка. Есть люди, владеющие сорока, пятьюдесятью, восемьюдесятью и более иностранными языками! И все же это лишь капля в многотысячном море языков.

Нельзя ли создать искусственным образом язык, который был бы понятен всем людям на Земле? Вспомогательный язык-посредник, на который любой человек может переходить при разговоре с иностранцами, к какой бы нации они ни принадлежали?

В настоящее время имеется почти полтысячи проектов всеобщего языка: «волапюк», «новиаль», «интерлингва», «блая-зимондаль», «ао», «эсперанто», «идо», «хабэ-абан», «оксиденталь» и много-много других. Некоторые из них, как, например, язык «ао», предложенный в 20-х годах анархистом Гординым, не получили никакого распространения. Но международным так и не стал ни один из этих искусственных языков, хотя многие из них обладали простотой и легкостью изучения, не в пример сложным живым языкам.

Оказывается, структура языка, его простота или трудность усвоения — не главное. Важнее другое — нужды общества, социальные причины. Японец или немец, турок или бразилец будет изучать сложный русский язык, а не простой эсперанто. Ведь техническая, научная, художественная литература издается на русском языке, а не на эсперанто. Точно так же поступают советские ученые и инженеры, изучая английский, французский, немецкий языки, очень сложный и трудный японский язык с его иероглифической письменностью. Химик и врач, металлург и математик, зная иностранные языки, могут и должны следить за текущей литературой по их специальности. А вся техническая, научная и тем более художественная литература, как мы уже сказали, выходит в свет не на искусственных, а на живых языках.

И все же идея всеобщего языка-посредника имеет смысл. Только не для людей, а для машин. В самом деле, иметь такой универсальный язык-посредник гораздо выгодней, чем составлять отдельные программы для машинного перевода с английского на русский, с немецкого на русский, с русского на немецкий и т. д. А чтобы перевести с немецкого на английский или с английского на немецкий, опять-таки нужна новая программа перевода, новый автоматический словарь. Добавится новый язык, допустим японский, нужны новые программы — японско-русская, английско-японская, русско-японская, нужны новые словари.

А ведь языков на свете несколько тысяч. Сколько же времени и сил отнимет составление программ и словарей!

Вот тут-то и нужен язык-посредник. Не эсперанто, разумеется, и не блая-зимондаль, а специальный язык-посредник для машин. Иностранный текст сначала переводится на этот язык. Затем с машинного языка-посредника можно переводить на любой другой язык мира.

Вспомните схему машинного перевода с английского на русский, которую мы приводили в начале главы: «ввод английского текста — анализ английского текста — синтез русского текста — выдача русского текста». С помощью языка-посредника не нужно составлять различных схем (а значит, и программ перевода) для разных языков. Схема получается единой, единая программа для любого языка:

«АТОМЫ СМЫСЛА»

Создать язык-посредник, конечно, очень трудно. Он должен вместить в себя все богатство нескольких тысяч языков, все грамматические формы, все падежи, суффиксы, приставки, формы единственного, множественного, двойственного и тройственного чисел.