Читать онлайн "Журнал «Компьютерра» №30 от 23 августа 2005 года" - «Компьютерра» Журнал - RuLit

Теперь хочу отчитаться о более чем месячной работе с неограниченным тарифным планом «Киевстара». Как я и предполагал, сигнал «Киевстара» оказался гораздо мощнее, чем у UMC: даже на богом и цивилизацией забытом крымском мысе Тарханкут связь не прерывалась ни на мгновение. Если серьезно, то коммуникационное удобство неограниченной мобильной связи уникально. В первую очередь благодаря возможности почти дармового международного общения. Делается это с помощью старой доброй IP-телефонии от российской компании «Тарио». Вот каким образом.

Оказывается, у «Тарио» есть два входных шлюза на Украине: в Одессе и Запорожье. С одесским шлюзом (+380 (48) 777-11-77, 234-80-34 730-91-06) я работал еще в прошлом году, однако впечатлился не очень: по вечерам дозвониться трудно, автоматические сервисные опции отключены. Будучи в Крыму, случайно обнаружил шлюз в Запорожье (+380 (612) 13-50-58 13-50-57) с мгновенным дозвоном и полноценной сервисной поддержкой, ну и зажил на широкую ногу. Прелесть в том, что неограниченный тариф «Киевстара» позволяет бесплатно звонить в любой город Украины, а тарифы международной связи по IP-каналу давно греют душу: 5—9 центов за минуту — меньше, чем местные звонки по мобильной бесконтрактной связи.

Что касается карточек «Тарио», то здесь три варианта: заблаговременно привезти с собой из России (в Москве они продаются в каждом газетном киоске), либо купить в Одессе партнерский скретч от компании «Дельта», либо — самый оптимальный вариант — отовариться в онлайн-магазине Plati.ru, аффилированном с WebMoney.

Месяц работы с киевстаровским GPRS тоже оставил наилучшие воспоминания. Конечно, трехсот мегабайт не хватило и пришлось перебирать еще столько же трафика. Для этого воспользовался, как и было запланировано, бесплатным и неограниченным трафиком GSM-Data, который хоть и медленно (9600 бит/с), но верно заливал за ночь 20—25 мегабайт информационной пищи. Скорость киевстаровского GPRS на образцовой высоте — скриншот говорит сам за себя (рис. 4).

По доброй традиции — ложка дегтя: помните правило «6 к 1» (из шести попыток соединения пять непременно срываются)? Опыт показал, что в часы пик (после шести вечера) оно плавно трансформируется в «15 к 1», а то и «20 к 1». Зато по утрам летает аки «Стрим».

Мораль: неограниченный тарифный план «Киевстара» на сегодняшний день — абсолютно лучшее решение мобильных коммуникационных задач на украинских незалежностях. Поглядим, каков будет ответ UMC в следующем году!

Линки, помянутые в «Голубятне», вы найдете на домашней странице internettrading.net/guru.

ТЕХНОЛОГИИ: Гадания на поисковых образах

В редакции «КТ» стоит огромный шкаф, две полки которого отведены под подшивки журнала за несколько лет. Если распечатать в том же формате содержимое сайта «КТ», то потребуется уже три шкафа. По оценке Nigma.ru, в Интернете хранится больше 1 млрд. русскоязычных документов (оценка очень приблизительная, но других — более точных — извините, нет). Если предположить, что каждый документ содержит в среднем 5 килобайт текста, то для их офлайнового хранения потребовалось бы 17500 шкафов, для размещения которых необходимо помещение, чья суммарная площадь примерно равна площади двух футбольных полей. Причем практически сразу же нам потребовалось бы еще одно футбольное поле — для новых документов, которые ежедневно появляются тысячами.

Разумеется, ориентироваться в миллиардах документов без поисковых сервисов невозможно. Но так ли хороши современные средства поиска в текстовых документах и нельзя ли их радикально улучшить?

Прежде чем попытаться ответить на этот вопрос, давайте определимся, что же нужно пользователю поискового сервиса и что могут ему предложить современные поисковые системы. В обоих случаях речь идет об информации, но информация — это сложное понятие, и очевидно, что пользователи и поисковые системы понимают под информацией несколько разные вещи. Собственно говоря, предполагать, что всем пользователям нужно примерно одно и то же, также неверно. Одним требуется фактологическая информация, другим — описания реальных процессов (информационные образы), третьим — метаинформация, а четвертым, наоборот, нужно удостовериться в отсутствии тех или иных данных (например, при проверке изобретения на новизну).

Поисковая система работает с материальными носителями информационных образов — документами, оценивая каждый из них согласно качеству содержащейся в нем информации. Разумеется, оценка эта производится динамически — говорить о ценности информации вне контекста информационного запроса бессмысленно. Так, для механика, который ищет схему нужного узла, не имеет никакой ценности информация о правлении Карла I, тогда как историку совершенно не нужны необходимые механику схемы.

Качество работы поисковой системы напрямую зависит от качества основных моделей, положенных в основу поисковых алгоритмов (технических нюансов, связанных с работой серверов, активностью роботов и т. д., мы касаться не будем). Структура документа, в общем случае, крайне неоднородна и сложна. Это может навести на мысль, что и модель документа тоже является, скажем так, непростой. На самом деле, в существующих поисковых системах используются предельно упрощенные модели документа. Максимально простой в системном анализе является модель «черного ящика», то есть автономной системы, обособленной от внешней среды, с входами и выходами. В нашем случае на входе — текст, на выходе — список всех слов текста, не входящих в стоп-лист. Вот и вся модель. Понятно, что и функциональные потенции такого модельного описания тоже достаточно ограничены.

Объект, в который воплощена модель документа, называется поисковым образом документа. Для модели «черного» ящика — это тот же список ключевых слов, или вектор, если использовать понятия векторной алгебры. Размерность такого вектора, естественно, совпадает с числом ключевых слов (терминов), представляющих документ. Если значимость разных терминов считается различной, то им приписываются соответствующие веса. Принцип здесь простой: чем большей считается значимость термина, тем больший вес ему приписывается. Само же вычисление веса опирается на достаточно произвольные эмпирические конструкции, выбор которых остается за разработчиком. Как строится поисковый индекс, когда документ моделируется «черным ящиком», в общем-то очевидно: каждому документу, до которого может «дотянуться» сервис, ставится в соответствие его поисковый образ. Полученное таким образом множество векторов вместе с адресной информацией и составляют основу индекса поисковой системы.

Назначение модели запроса — учесть интересы пользователя, который и является источником входных данных для этой модели. Выходные данные должны допускать возможность непосредственного обращения к индексному файлу, то есть в нашем случае это список терминов, экстрагированных из запроса. Пользователи могут иметь разные потребности в описании искомых информационных образов, но усложнять модель запроса имеет смысл лишь до некоторых пределов. Эти пределы определяются точностью моделирования документа. Образно говоря, вырази пользователь свои потребности хоть поэмой, все равно в работу пошли бы только некоторые слова из нее, поскольку другой вид запроса был бы превышением точности.

Без превышения точности усложнение модели запроса может производиться путем конструирования логических выражений из ключевых слов и булевых операторов, что соответствует введению некоторого информационно-поискового языка. Такой язык позволяет указывать на обязательность наличия (отсутствия) некоторых терминов в поисковом образе документа, их комбинаций и т. п. Это позволяет в какой-то мере масштабировать получаемые выборки.