Напомню читателям, которые сегодня первый раз в жизни услышали про «Голубятню»: весь октябрь нас основательно клинило на датамайнинге (или инфокопстве) - процессе сбора, обработки и анализа информации. Одним из важнейших аспектов этого процесса является создание реляционных индексируемых баз данных, и именно к этой софтверной группе относится «Архивариус».
Долгие годы эталонной для меня была программа Cros, вознесшаяся на небосклон датамайнинга за счет скорости индексации: огромные информационные массивы, которые «Евфрат» - любимец россиянской бюрократии - был даже не в состоянии обработать (зависая), Cros проглатывал в считанные минуты. Но то, что в 1999 году казалось огромным (300 Мбайт), сегодня играючи отъедается какими-нибудь четырьмя (из шестнадцати) томами «Энциклопедии животных Гржимека» в формате PDF. Сам же книжный мой архив давно перевалил за три гигабайта. Тут-то и нанес «Архивариус» роковую хиза-гери-мовашу в ухо Cros’а: и не просто опередил по скорости индексации былого фаворита, а прямо-таки растерзал его (рис. 1).
32 тысячи документов и 190 миллионов слов: на обработку этого монстра «Архивариус» затратил 53 минуты! Размер созданного индекса - 1,32 Гбайт: меньше половины исходного материала. Феноменальный результат, учитывая, что треть файлов в моей библиотеке упакована в изначально компрессированный формат PDF. А что же Cros? В моей персональной Библии - «Цитадели» Сент-Экзюпери - сказано: «Нельзя унижать тех, кто главенствовал и кому воздавали почести. Нельзя отнимать у царя царство и превращать в нищего подававшего милостыню». Посему не буду придавать огласке ужасающие показатели, продемонстрированные Cros при индексации моего нового книжного архива. Ограничусь щадящей констатацией: цифры моего любимца хуже на порядок.
Наиболее рельефно технологическое отставание Cros проявляется на фоне многообразия настроек, демонстрируемых «Архивариусом» при создании индекса. Начнем с того, что программа Евгения Троицкого умопомрачительно всеядна: кроме файлов, директорий и жестких дисков она индексирует почтовые базы The Bat!, Netscape, Mozila, Thunderbird, Firebird, Firefox, Outlook Express, Outlook и Eхchange всех версий (рис. 2).
Дальше - больше: Cros обрабатывает исходные документы в форматах TXT, MS Word, HTML, RTF, Lexicon, Excel, PDF и ряда архивов (ZIP, ARJ, RAR, IMP и LHA). «Архивариус» же играючи расправляется с сорока (!) форматами - причем такими, что и назвать страшно: Adobe PageMaker, журнал Zinio Reader (ZNO), таблицы Moxcel и внешние отчеты «1С:Предприятия», база данных WinOrganizer (GSO), таблицы Lotus 1-2-3, файл ICQ-chat и т. д. до полного мозгового эклипса (рис. 3).
Следующее потрясение - опция морфологической обработки индекса, которая позволяет формулировать запросы в естественном виде на восемнадцати языках! Казалось бы, дальше некуда, но Троицкий, явно издеваясь над границами пользовательской фантазии, предлагает определиться еще и с расширениями файлов, подлежащих индексации, - аккурат 72 штуки (рис. 4).
Заключительный coup de grace - поддержка 115 кодировок, - и «Архивариус» приступает к индексации вашего информационного архива с крейсерской скоростью 1 мегабайт в секунду. По завершении процедуры мы попадаем в главное окно, которое своей лаконичностью напоминает Cros за вычетом демонстративного недружелюбия последнего (рис. 5, 6).
Без штудирования мануала в интерфейсе Cros ничего понять невозможно, тогда как в «Архивариусе» ничего понимать и не требуется: полная интуитивность на уровне компьютерного неандертальства пиндосской домохозяйки. Особо ценно, что эффект достигается без ударов ниже пояса - всех этих дурашливо скачущих по экрану скрепочек и песиков.
Возьмем, к примеру, закладку «Индекс»: название базы данных, количество документов, размер, дата обновления и создания. Тут же под носом - букет расхожих манипуляций: изменение настроек базы данных (типов файлов, расширений, кодировок и т. п.), повторная индексация, компрессия, планировщик. Особо перспективно смотрится последняя функция, позволяющая автоматизировать обновления индексной базы (рис. 7).
Сердцевина любой программы для создания реляционной индексируемой базы данных - ее поисковая система. О том, как она выглядит у «Архивариуса», поговорим через неделю.
Линки, помянутые в «Голубятне», вы найдете на internettrading.net/guru.
ПЕРЕПИСКА: Анализ социальных сетей: в ожидании чуда
Даже если кто-то и планирует сетевые атаки на наше государство, нам в первую очередь нужно посмотреть на себя со стороны и подумать о причинах уязвимости общества, его нестабильности. Однако господствует совсем другой взгляд на вещи. Читая некоторые тексты, с удивлением узнаешь, что в той же Украине жизнь шла замечательно, люди были богатые, довольные, все было по справедливости - а потом вдруг пришли зловредные агенты и порушили своей сетью эту идиллию. Если мы не хотим видеть истинных причин неурядиц, для их объяснения действительно нужны загадочные суперкомпьютеры и суперпрограммисты, на худой конец - инопланетяне из более высокой в технологическом смысле цивилизации.