И не прогадал: я гонял «Архивариус» с пристрастием, отлавливал баги и жаловался демиургу на отсутствие важных (на мое скромное имхо) фич. Поразительна оперативность, с которой Евгений Троицкий вносит изменения в программу, дополняя ее не косметическими рюшками, а фундаментальными опциями. Так, прочитав из любопытства последние «Голубятни», посвященные Data Mining, Евгений аки змей-искуситель буквально в течение одного дня усилил «Архивариус» поддержкой формата MyBase (Nyf).
Напомню читателям, которые сегодня первый раз в жизни услышали про «Голубятню»: весь октябрь нас основательно клинило на датамайнинге (или инфокопстве) - процессе сбора, обработки и анализа информации. Одним из важнейших аспектов этого процесса является создание реляционных индексируемых баз данных, и именно к этой софтверной группе относится «Архивариус».
Долгие годы эталонной для меня была программа Cros, вознесшаяся на небосклон датамайнинга за счет скорости индексации: огромные информационные массивы, которые «Евфрат» - любимец россиянской бюрократии - был даже не в состоянии обработать (зависая), Cros проглатывал в считанные минуты. Но то, что в 1999 году казалось огромным (300 Мбайт), сегодня играючи отъедается какими-нибудь четырьмя (из шестнадцати) томами «Энциклопедии животных Гржимека» в формате PDF. Сам же книжный мой архив давно перевалил за три гигабайта. Тут-то и нанес «Архивариус» роковую хиза-гери-мовашу в ухо Cros’а: и не просто опередил по скорости индексации былого фаворита, а прямо-таки растерзал его (рис. 1).
32 тысячи документов и 190 миллионов слов: на обработку этого монстра «Архивариус» затратил 53 минуты! Размер созданного индекса - 1,32 Гбайт: меньше половины исходного материала. Феноменальный результат, учитывая, что треть файлов в моей библиотеке упакована в изначально компрессированный формат PDF. А что же Cros? В моей персональной Библии - «Цитадели» Сент-Экзюпери - сказано: «Нельзя унижать тех, кто главенствовал и кому воздавали почести. Нельзя отнимать у царя царство и превращать в нищего подававшего милостыню». Посему не буду придавать огласке ужасающие показатели, продемонстрированные Cros при индексации моего нового книжного архива. Ограничусь щадящей констатацией: цифры моего любимца хуже на порядок.
Наиболее рельефно технологическое отставание Cros проявляется на фоне многообразия настроек, демонстрируемых «Архивариусом» при создании индекса. Начнем с того, что программа Евгения Троицкого умопомрачительно всеядна: кроме файлов, директорий и жестких дисков она индексирует почтовые базы The Bat!, Netscape, Mozila, Thunderbird, Firebird, Firefox, Outlook Express, Outlook и Eхchange всех версий (рис. 2).
Дальше - больше: Cros обрабатывает исходные документы в форматах TXT, MS Word, HTML, RTF, Lexicon, Excel, PDF и ряда архивов (ZIP, ARJ, RAR, IMP и LHA). «Архивариус» же играючи расправляется с сорока (!) форматами - причем такими, что и назвать страшно: Adobe PageMaker, журнал Zinio Reader (ZNO), таблицы Moxcel и внешние отчеты «1С:Предприятия», база данных WinOrganizer (GSO), таблицы Lotus 1-2-3, файл ICQ-chat и т. д. до полного мозгового эклипса (рис. 3).
Следующее потрясение - опция морфологической обработки индекса, которая позволяет формулировать запросы в естественном виде на восемнадцати языках! Казалось бы, дальше некуда, но Троицкий, явно издеваясь над границами пользовательской фантазии, предлагает определиться еще и с расширениями файлов, подлежащих индексации, - аккурат 72 штуки (рис. 4).
Заключительный coup de grace - поддержка 115 кодировок, - и «Архивариус» приступает к индексации вашего информационного архива с крейсерской скоростью 1 мегабайт в секунду. По завершении процедуры мы попадаем в главное окно, которое своей лаконичностью напоминает Cros за вычетом демонстративного недружелюбия последнего (рис. 5, 6).
Без штудирования мануала в интерфейсе Cros ничего понять невозможно, тогда как в «Архивариусе» ничего понимать и не требуется: полная интуитивность на уровне компьютерного неандертальства пиндосской домохозяйки. Особо ценно, что эффект достигается без ударов ниже пояса - всех этих дурашливо скачущих по экрану скрепочек и песиков.
Возьмем, к примеру, закладку «Индекс»: название базы данных, количество документов, размер, дата обновления и создания. Тут же под носом - букет расхожих манипуляций: изменение настроек базы данных (типов файлов, расширений, кодировок и т. п.), повторная индексация, компрессия, планировщик. Особо перспективно смотрится последняя функция, позволяющая автоматизировать обновления индексной базы (рис. 7).
Сердцевина любой программы для создания реляционной индексируемой базы данных - ее поисковая система. О том, как она выглядит у «Архивариуса», поговорим через неделю.
Линки, помянутые в «Голубятне», вы найдете на internettrading.net/guru.
ПЕРЕПИСКА: Анализ социальных сетей: в ожидании чуда
Даже если кто-то и планирует сетевые атаки на наше государство, нам в первую очередь нужно посмотреть на себя со стороны и подумать о причинах уязвимости общества, его нестабильности. Однако господствует совсем другой взгляд на вещи. Читая некоторые тексты, с удивлением узнаешь, что в той же Украине жизнь шла замечательно, люди были богатые, довольные, все было по справедливости - а потом вдруг пришли зловредные агенты и порушили своей сетью эту идиллию. Если мы не хотим видеть истинных причин неурядиц, для их объяснения действительно нужны загадочные суперкомпьютеры и суперпрограммисты, на худой конец - инопланетяне из более высокой в технологическом смысле цивилизации.
Но можно ли использовать методы анализа социальных сетей в деструктивных целях? Конечно - да, но для этого вовсе не обязательно применять суперкомпьютеры. Даже представляя себе лишь фрагменты конкретной сети, зная ее уязвимости, зная самых влиятельных участников, можно эффективно спланировать вредное для людей дело. Чем, собственно, давно пользуются организации самого разного толка - к примеру, те же мошеннические финансовые пирамиды для «добровольного отъема» денег у населения.
В рассуждениях о фатальной мощи «гуманитарных технологий» априори предполагается, что участники сетей - безвольные люди, которые будут послушно идти за своим лидером, выполняя любое задание. Однако такой идеальной для манипуляций ситуации не бывает. У каждого участника сети есть свои мотивы, свои цели. Рисуя сети на экране компьютера, мы можем об этом забыть, увлекшись решением формальных задач, но все наши выводы может разрушить любой участник сети, сочтя, что ее активность не соответствует его интересам. Люди не являются пассивными объектами идеологического манипулирования (сошлемся здесь на мнение одного из крупнейших современных социологов, теоретика информационного общества Мануэля Кастельса[Кастельс М. Информационная эпоха: экономика, общество и культура. М., 2000. C.321.]).
Именно по этой причине нужно относиться к результатам математического моделирования социальных сетей с осторожностью. Вспомним успехи и неудачи в прогнозировании погодных явлений. Все крупные погодные катаклизмы последних лет оказались для человечества неожиданными. А ведь погоду обсчитывают как раз на самых мощных суперкомпьютерах. Моделирование же общественных процессов может быть на порядки сложнее моделирования процессов физических.