Выбрать главу

Софтверную часть "Голубятни" хочу посвятить программе, которую уже описывал три года назад ("Трубные звуки золоченых рогов" и "Уходим болотами", ноябрь 2005 г.). У меня вообще такое ощущение, что на нашей колонке сменилось не одно поколение читателей, поэтому смело можно рассказывать по второму кругу о программах, которые поминал пять-десять лет назад. По крайней мере - о тех, что входят в мою золотую обойму.

Программа Архивариус 3000 Евгения Троицкого (Likasoft) - одна из таких "золотых" программ. Поводом к повторному описанию послужило еще и то обстоятельство, что Архивариус за прошедшие годы не только исправил досадные огрехи ранних версий (как, например, слабый язык запросов - особенно в сравнении с CROS, или неработающий Планировщик), но и нарастил мышцы до какого-то совсем уж сногсшибательного состояния.

Напомню читателям, что Архивариус 3000 - это программа для поиска документов и почты на персональном компьютере, в локальной сети и на съемных дисках. Архивариус пришел на смену великой программе CROS, которая, увы, давно испустила дух. Сегодня CROS смотрится анахронизмом - из-за примитивного и неудобного интерфейса, очень медленной по современным меркам скорости индексации базы данных, а также отсутствия поддержки многочисленных форматов, которые за последние годы выдвинулись в лидеры хранения текстов (fb2, chm, djvu и пр.).

Архивариус 3000 в самой последней своей инкарнации - версия 4.12 - справляется с задачами индексирования колоссальных объемов текстовой информации, как и подобает супермобилю, - с фантастической скоростью: моя электронная библиотека размером 26 гигабайт была полностью проиндексирована Архивариусом за невероятные полтора часа!

Читателей безусловно интересует лавина инноваций, коими оброс Архивариус с момента последней презентации в "Голубятне" (версия 3.34), - уступаю трибуну Евгению Троицкому:

• Новый формат индексов.

• Много новых архивов (теперь уже 276 штук).

• Поддержка 233 форматов документов. Из новых - OneNote, Visio, сообщения QIP, электронные книги пятнадцати форматов.

• Поддерживаются шрифты (TTF и даже старый добрый CHR от Borland).

• Появился просмотр графических изображений в самом Архивариусе 3000. Сейчас 52 штуки. Правда, у Adobe Flash (swf) пока только текст извлекает для поиска, то есть саму анимацию еще не показывает. Но обычные форматы изображений воспроизводит, причем напрямую и, следовательно, быстро.

• Научился обрабатывать всякие UUEncode, BinHex и прочие кодированные файлы, которые могут находиться внутри другого текста.

• Набор мелких фильтров, предваряющих индексирование. Эти фильтры лишь меняют текст для самого Архивариуса 3000, то есть физические файлы не меняются. Есть фильтры, которые убирают вещественные числа (удобно для текстов со статистическими данными), удаляют пустые строки, заменяют старые Фидо-символы с латинской "H" на русскую "Н", удаляют теги из текстов от Лексикона.

• Фильтр удаления рекламы из почтовых сообщений (естественно, само физическое сообщение остается таким же, просто перед индексированием текст рекламы удаляется, поэтому в индекс он не попадает). Реклама вроде "Do You Yahoo?!", которая вставляется некоторыми почтовыми серверами в конец письма.

• Средство "Извлечение данных". Позволяет из уже проиндексированных текстов извлекать e-mail, веб-адреса, смайлики (включая азиатские, у них они, оказывается, другие, вот, например: *_*, слева и справа глаза, а черточка - это нос, то есть у них они не на боку лежат, а прямо стоят. Вот где проявляется отличие между Востоком и Западом :), ISBN от книг, телефонов и прочее.

10. Средство "Контексты употребления слов". Допустим, мы хотим узнать, в каких фразах у нас используется слово "язык". Для этого вводим запрос:

* язык

и программа показывает фразы из проиндексированных текстов: русский язык, английский язык и т. п. То есть если при обычном поиске мы заранее знаем, какие слова ищем, то при поиске контекстов мы узнаем, какие слова у нас встречаются возле заданного слова или фразы. Можно вводить и более сложные запросы:

*ый *ать *

Например, для LibRu программа по этому запросу выдала такие варианты:

который двадцать лет способный превращать в готовый сделать все

• В настройках индекса есть секция "Разбиение файлов". Это пригодится прежде всего тем пользователям, у которых много Фидо-сообщений, сохраненных в одном объемном файле. Задаем строку разбиения, и Архивариус 3000 сначала разделяет большой текст на части, а затем уже индексирует как отдельные сообщения. В результате работа с такими базами сообщений значительно упрощается.

• Средство "Поиск похожих документов". Позволяет находить как точные копии (совпадение байт в байт либо совпадение с убранными пробелами), так и похожие документы, в текст которых были внесены незначительные изменения (добавили новые слова, убрали или заменили букву в слове).

• Наконец, еще одна возможность - "Поиск литературы". Пока распознаёт только 4400 произведений. Распознаёт имен­но по содержанию. То есть, если мы внесем небольшие изменения в текст, например уберем название или, наоборот, добавим рекламу (пусть даже в середину текста - между абзацами), программа все равно определит, что это Артур Конан Дойль "Пляшущие человечки". Книг, конечно, в мире больше, чем 4400, но потихоньку можно будет и добавить. :)