Увеличим запас слов до 1000. Что мы получим? 80,5 процента английского, 83,5 процента французского и 81 процент испанского текста. То есть знание 1000 слов дает вам возможность полностью ориентироваться в чужом языке.
Увеличим еще наш словесный багаж - до 2000 слов. Тогда они соответственно составят в английском языке 86 процентов, при 3000 слое - 90 процентов, при 5000 слов - 93,5 процента. А что это значит? Зная 5000 слов, вы сможете свободно читать текст на английском языке, потому что лишь 19 слов из 300 будут вам незнакомы.
Но здесь обнаруживается поразительное явление.
Вы изучили 10000 слов, а процент знания текста возрастает только до 96,4 процента. Сколько труда, сколько зубрежки, и только для того, чтобы выиграть каких-то 2,9 процента!
Это исследование очень интересно, особенно для тех, кто собирается изучать иностранные языки. Но в данном случае мы говорим о словарном составе обычного текста. Язык же писателя - это область, в которой он применяется в еще более разнообразных нюансах.
Вот почему первый, к кому мы обращаемся с математическим анализом языковых особенностей,- наш великий поэт А. С. Пушкин. Машинами было подсчитано, что полное Собрание сочинений Пушкина составляет приблизительно 600 тысяч разных, неоднократно повторяющихся слов. Из этой массы 21 200 слов совершенно различны. Каким огромным словарным резервом владеет поэт! Свыше 100 раз употребляется всего 720 слов, а один раз на все 600 тысяч слов встречается 6440 слов, 2 раза - 2830 слов, 3 раза - 1800 слов.
Разве этот анализ не является поразительным математическим доказательством бесценного богатства языка и умения пользоваться этим языком, чтобы передать читателю "поэтическую информацию".
Могут сказать: да, но ведь это Пушкин! А как обстоит дело у других писателей?
В нашем распоряжении имеются некоторые данные. В "Божественной комедии" Данте 5860 слов, в произведениях древнего римского поэта Горация - 6084 слова, в стихах Гомера - около 9000 слов. Мы уже упоминали, что у Шекспира, по разным источникам, количество употребляемых слов колеблется от 15000 до 24000. Но приборы современных кибернетических машин проверяют особенности писателей и по другим направлениям.
Какова, например, емкость фразы писателя? Среднее число слов во фразах произведения Алексея Толстого "Сестры" равно 11,9, в "Поединке" Куприна -9,5.
Машины помогают составлению так называемого частотного словаря. Это словари, которые представляют собою список, начинающийся с самых часто встречающихся слов до слов, которые встречаются исключительно редко. Английский частотный словарь включает в себя 30 000 слов. Он начинается со слов, которые встречались всего лишь 4 раза. Были составлены словари: испанский язык -400 000 слов, чешский - 1 200 000 слов, польский -7 000 000 слов, французский -1 500 000 слов, немецкий -11 000 000.
Хочется еще сказать об анализе языка с точки зрения его заимствования у других народов. Машины подсчитали, что в албанском языке из 5140 слов только 430 являются собственными. В армянском языке из 1500 слов 1140 заимствованы из персидского, греческого, парфянского, сирийского, арабского и других восточных языков. Можно оказать, что этот язык вобрал в себя все особенности восточных языков.
Но ведь этот процесс касается и таких языков, как английский. В нем от 55 до 70 процентов всех слов заимствованы из французского языка, латыни и других романских языков.
Эти цифры мы привели не для того, чтобы обидеть людей, говорящих на своем родном языке, невольно обвинив их в заимствовании. Мы отлично понимаем, что каждый язык складывался в соответствии с историческими условиями. Однако вернемся к анализу языковых особенностей. Слова состоят из букв. Как же употребляются отдельные буквы в словах? На кибернетической машине провели анализ произведений целого ряда советских писателей, таких, как Гайдар, Паустовский, Горбатов, с общим количеством 88000 звуков русской речи. Оказалось, что на каждые 100 букв текста приходится девять "О", шесть "А", столько же "И", пять "Н". Что же касается таких редких букв, как "Ю",на каждые 100 букв она встречается 0,6 раза.
Анализ слогов показал, что в русском языке в слове в среднем 2,2 слога. Слова же, состоящие из 5 слогов, чрезвычайно редки - их всего 3,5 процента.
Читатель спросит: почему же, интересуясь кибернетикой и мозгом человека, мы так много места уделяем проблеме словообразования? А все дело заключается в том, что именно этот анализ и дает нам возможность вплотную подойти к пониманию того, что такое язык машин, как машина в состоянии переводить текст с одного языка на другой.
Когда-то, лет 100 назад, во всем м"ире выходило не более 1000 научных журналов, теперь их выходит свыше 100 тысяч. Если бы, например, химик 40 часов в неделю тратил на то, чтобы со скоростью четырех статей в час читать все, что публикуется з современной прессе, он за целый год не прочитал бы и десятой доли того, что ему следовало бы прочитать. Это приводит нас к прямой необходимости использования машин. Современная наука должна перерабатывать колоссальнейшее количество информации. Например, в Библиотеке имени Ленина сейчас хранится около 21 000 000 книг, к концу века их будет свыше 100000000. В нашей страна 400000 библиотек, в которых насчитывается полтора миллиарда книг.
За год Институт информации в Москве обрабатывает 11 000 иностранных изданий, 3000- советской периодики, 90 000 патентов, опубликованных на 65 языках. Для того чтобы обрабатывать всю эту гигантскую массу материалов, конечно, необходимо применение кибернетических машин.
Можно было бы до бесконечности продолжать эти важные расчеты, в сводятся они в основном к тому, чтобы призвать на помощь информационные машины.
Проблема перевода уже давно интересовала изобретателей и ученых. Первые машины перевода с одного языка на другой обрабатывали сугубо научный текст. Да оно и понятно - словарный запас в научных текстах сравнительно беднее, чем в художественных. Перевод с английского языка на французский и в обратном порядке проходил гладко, потому что строй языков был очень близок. Но когда столкнулись с переводами с немецкого языка на русский, перед учеными возникли необычайные трудности. Грамматика этих языков совершенно различна - в немецком глагол уходит в конец фразы. Машина мгновенно получила двойку по грамматике, а ученые растерялись.
Тогда начали создавать машину, которая заранее программировалась бы на эти правила.
Языковеды начали давать свои советы - теперь разводили руками кибернетики.
- Что же, вы хотите лишить машину универсальности? - говорили они.- Но это слишком дорого - создавать единичные машины. Кибернетическое устройство обязательно должно быть универсальным.
Однако для создания универсальной машины невероятно возрастало количество вариантов грамматических правил. Для 10 языков получалось 90 правил перевода. А как все это запрограммировать в машину?
Начав с некоторых успехов, кибернетики в конце концов зашли в тупик. И тогда возникла мысль создать язык-посредник. Машина будет переводить на этот язык, а уже потом с языка-посредника будут осуществляться переводы на все языки. Прежде всего это резко снизит количество промежуточных процессов: вместо 90 вариантов правил понадобится всего 20, из них 10 правил для перевода на язык-посредник и 10 - для перевода на другой язык.
Эта идея оказалась чрезвычайно плодотворной. Однако что же это за язык-посредник и каким он должен быть?
Сначала взяли первый попавшийся язык - латынь. Латынь не подошла - она была лишена универсальности, необходимой для языка-посредника. Тогда лингвисты предложили использовать язык "эсперанто" и недавно созданный язык "интерлингва". В эсперанто грамматика состоит всего из 16 правил, к тому же не очень сложных.
Но дело опять не пошло на лад - язык эсперанто оказался слишком непохожим на живые языки. И наконец, после нескольких неудачных попыток языковеды пришли к необходимости создания для кибернетических машин своего собственного, специального языка. На этом языке никто никогда не будет говорить. Он будет скрыт от нас в недрах электронной переводческой машины. Сегодня над созданием такого языка работают ученые уже многих стран мира. В частности, в Ленинграде созданием такого языка занимается большая группа лингвистов. В основу своей работы они берут 26 западноевропейских и восточных языков, учитывают, какая честь населения земного шара пользуется тем или иным языком, и отбирают нечто среднеарифметическое из этих языков, с учетом их распространения.