Читать онлайн "Алло, робот!" - Кондратов Александр Михайлович - RuLit

Но языкознание не привыкло иметь дело с числами. Мел, бумага и доска — вот и вся лингвистическая техника. Слова языка, описательно объясняющие законы языка, — такова точность науки лингвистики.

Однако так было лишь до недавнего времени. Машинный перевод и другие задачи, связанные с кибернетикой, заставили языковедов обратиться к числам и формулам. Родилась математическая лингвистика — дисциплина, совмещающая две, казалось бы, далекие друг от друга науки: языкознание и математику.

СКОЛЬКО НУЖНО СЛОВ

«Наука только тогда достигает совершенства, когда ей удается пользоваться математикой», — сказал Карл Маркс в беседе с Полем Лафаргом. Числа нужны лингвистике, чтобы поставить науку о языке на уровень физики, астрономии и других точных наук. Не менее они нужны и практике. Прежде всего для машинного перевода.

В первом опыте машинного перевода словарь состоял из 250 слов. Это, конечно, мало для перевода книг. А сколько же слов не мало? Тысяча? 5 тысяч? 100 тысяч?

В любом языке мира, какой бы скудной ни была его лексика, — несколько тысяч слов. В русском, английском, японском и других языках — сотни тысяч слов. Правила словообразования позволяют создавать новые слова. Например, слово «стушеваться» ввел в обиход писатель Ф. М. Достоевский. Можно привести еще множество подобных примеров «сочиненных» слов. Впрочем, не совсем «сочиненных»: ведь корень «туш» есть в нашем языке и его-то Достоевский не придумывал. Он взял известный корень и образовал из него по правилам русского языка новое слово. Иногда бывает и так, что слово целиком «выдумывается». Например, английский писатель-сатирик Джонатан Свифт придумал слово «лилипут». Таких придуманных слов очень мало. Однако и этот путь словотворчества в принципе возможен. Поэтому мы можем смело сказать, что словарный запас языка поистине неисчерпаем.

Однако в нашей житейской практике мы пользуемся лишь незначительной частью всех слов. Даже в произведениях великих писателей, где лексика богаче, чем в обыденной речи, можно насчитать 5-10 тысяч разных слов, не более. Какой же необходимый запас слов помещать в «память» машины?

Помогает все та же статистика. С ее помощью составляются «частотные словари». По ним можно судить, какое слово употребительное, какое редкое и как редко или часто встречается оно в языке.

Методика составления этих словарей проста. Берется достаточно длинный текст (или несколько текстов). Затем подсчитывается, сколько раз встретилось в нем то или иное слово. Раньше эта процедура отнимала месяцы и годы. С помощью счетчиков-машин время, затрачиваемое на подсчеты, резко сократилось.

Но вот частотный словарь составлен. Длинный список, в котором либо в алфавитном порядке, либо по «популярности» идут слова и рядом — числа, показывающие, сколько раз встречаются эти слова в тексте.

Например, в «Капитанской дочке» А. С. Пушкина, состоящей из 29 тысяч слов, союз «и» употребляется более тысячи раз, предлог «в», второй по «популярности», 724 раза, и т. д. (заметим в скобках, что этот частотный словарь был составлен машиной).

Что же делать с этим списком дальше? Предположим, что 200 слов встречаются от 30 раз и более, 500 слов — более 10 раз, 2 тысячи слов — менее 5 раз. Ясно, что самые частые слова следует включить в словарь для машины, а редкие нужно устранить.

Но как определить границы? До каких пор считать слово частым, а до каких — редким? Отбросить слова, которые попадаются 5 раз и реже? А почему не отбросить слова, употребляющиеся менее 10 раз? Или, наоборот, включить в словарь для машинного перевода все слова, за исключением лишь тех, которые встречаются только 1 раз? Как найти правильные показатели?

Для ответа на этот вопрос нужно учесть так называемую «текстообразовательную способность» слов. 736 самых употребительных, самых частых английских слов, как установили подсчеты, занимают 75 процентов текста на английском языке.

1000 самых частых слов английского языка позволяют «покрыть» 80,5 процента английского, 83,5 процента французского, 81 процент испанского языков. Выучив эти слова или вложив их в «память» машины, мы можем знать 8 из 10 слов текста!

8 из 10! А если взять 2 тысячи самых частых слов? Может, мы будем тогда знать почти все слова? Оказывается, что такое удвоение позволяет не намного увеличить наше знание. Только 86 процентов текста «покроют» эти слова.

Ну, а 3 тысячи самых частых слов? Результат также не утешителен — около 90 процентов, 5 тысяч слов дадут возможность «покрыть» 93,5 процента текста, а десять тысяч — 96,4 процента. Слишком маленький коэффициент полезного действия при увеличении списка. Вероятно, целесообразно остановиться на первой тысяче самых частых слов, в крайнем случае на 5 тысячах слов, так чтобы из 100 слов только 6 были бы неизвестны.

В настоящее время преподаватели иностранных языков начинают использовать эти данные статистики, чтобы разумно составлять словари-минимумы. С помощью чисел можно ясно увидеть, какой запас слов надо давать ученикам на первой неделе занятий, на первом году обучения и т. д. Помогают эти числа и при составлении «машинных словарей», словарей для автоматического перевода.

ТОЛЬКО ЛИ СТАТИСТИКА!

Когда говорят о математической лингвистике, обычно представляются числа. Числа, отражающие законы языка. Но на самом деле это не совсем так, ибо математика изучает не только числа.

Мы уже не раз говорили о статистике. Это неудивительно. Она играет очень важную роль в науке XX века. И ядерная физика, и биология, и антропология, и многие, многие другие науки о природе й человеке используют ее. Статистические методы применяются и в языкознании, и в изучении законов стихосложения.

Но, прежде чем начать подсчеты, всегда необходимо знать, что считать, какие элементы, какие единицы подлежат учету и подсчету. Вспомните о частотных словарях. Одним из первых, кто занялся их составлением, был известный американский статистик Удни Юл. В свободное время он увлекался средневековой литературой, написанной по-латыни. Филологи спорили, кто написал одно из любимых произведений Юла. И математику пришла в голову любопытная мысль: а что, если решить этот вопрос с помощью статистики?

Юл попытался сделать это… В результате появилась объемистая монография, посвященная вопросам языковой статистики. Примерно в то же время, в 40-х годах нашего столетия, статистическими законами языка занялся другой видный американский ученый — языковед Г. К. Ципф. И он пришел к несколько иным результатам, чем его коллега Удни Юл!

В чем же дело? Ведь законы статистики одни? Но… разгадка состоит в том, что, подсчитывая частоту слов — основу анализа, — они, по существу, исследовали разные явления, ибо под словом — единицей счета — подразумевались разные вещи. Юл считал словом то, что мы называем основой слова. Например, слова «стол», «стола», «столу», «столом» он считал одним словом.

Ципф же считал отдельным словом не только основу, но и все производные от нее словоформы. «Стол», «столу», «стола» и т. д. были для него разными словами.

При анализе пушкинской строки «глухой глухого звал на суд судьи глухого» Юл констатировал бы, что слово «глухой» встретилось три раза. А Ципф записал бы: слово «глухой» встретилось один раз и слово «глухого» два раза. Метод Ципфа был более удачен. На основании его был сформулирован так называемый «закон Ципфа», вызвавший первоначально удивление и сомнение, а затем восхищение лингвистов.

Математически он выглядит так:

Объясняется эта формула следующим образом. Подсчитайте на большом материале, сколько раз встречается то или иное слово. Запишите затем все частоты слов в список в порядке убывания частот: первым поставьте самое «популярное» слово, вторым — следующее за ним по частоте, и т. д., пока на последнем месте не окажется самое редкое слово. Список занумеруйте. И затем, если вы перемножите частоту слова на номер этого слова в списке (р на s), то получите постоянную величину!