Читать онлайн "Журнал «Компьютерра» №39 от 25 октября 2005 года" - «Компьютерра» Журнал - RuLit

Неизмеримо хуже обстояли дела с программным обеспечением стартового этапа Data Mining — накоплением информации[Как вы догадываетесь, стадию изыскания я сознательно опустил, поскольку процесс этот субъективный и зависит не от софтверного обеспечения, а от таланта и опыта датамайнингиста (прости господи!)]. За долгие годы поиска не удалось найти ничего лучше китайской MyBase — программы во всех отношениях убогой, хотя и выделяющейся из когорты еще более убогих аналогов. От херема MyBase спасал удачный модуль WebCollect, позволяющий собирать информацию из MSIE. Этим летом разработчики (Wjjsoft) добавили модуль WebCollect для браузера FireFox, однако у меня он так и не заработал. Да и с Opera MyBase взаимодействовать не научился.

Провиденция ContentSaver заключается в том, что программа блеснула на моем горизонте аккурат в момент, когда недостатки MyBase стали доводить меня даже не до отчаяния, а до белого каления. Из-за врожденной концептуальной ущербности китайская программа медленно, но верно привела все мои информационные архивы в состояние безнадежной энтропии и бардака. Какой, к черту, MyBase архивный систематизатор! Самый банальный накопитель заметок, к тому же подленький по натуре.

Поначалу жизнь кажется в шоколаде: находим какую-нибудь интересную заметку в Интернете, выделяем часть текста или страницу целиком, вызываем контекстное меню (опция Save to MyBase) и сохраняем заметку в уже существующем либо новом документе MyBase, который теоретически должен объединить в будущем данные общей тематики. Внутри своего документа MyBase организует информацию в банальной древовидной форме. Возможности динамической обработки материалов мизерны: можно экспортировать заметки из документа в файлы html, txt или другой файл MyBase либо перетащить заметку из одной ветки дерева в другую. Всё! Поиск в Mybase реализован чудовищно — достаточно сказать, что отсутствует функция выделения (хайлайтинга), поэтому отыскать что-либо в какой-нибудь заметке килобайт под пятьдесят нереально: программа открывает ее целиком, а дальше рой сам!

Неудивительно, что я всегда использовал MyBase в качестве незамысловатого контейнера a-la CHM: скидываешь всю информацию в документ MyBase только ради того, чтобы ничего не потерялось по ходу. Затем экспортируешь все заметки из документа в какое-нибудь место на жестком диске и загоняешь их в Cros для индексирования и последующего быстрого поиска по ключевым словам и фразам. Никакой самостоятельной ценности в качестве архивного систематизатора MyBase не имеет.

Подобная схема работы туда-сюда приемлема для выполнения единичных задач, например сбора материалов для статьи. Скажем, все свои аналитические «предпринимательские поэмы» в «Бизнес-журнале» я подготавливаю именно таким образом: собираю в документ MyBase материалы из множества разноплановых источников (газетные заметки, журнальные обзоры, протоколы судебных заседаний, рекламные проспекты и т. п.), все это перечитываю, перевариваю, формулирую собственную концепцию и видение предмета, затем сажусь писать. Если забываю дату или фамилию, тут же извлекаю ее из индексированного архива Cros, который создаю из заблаговременно экспортированных из MyBase файлов. Сдав статью в редакцию, благополучно забываю обо всем и через две недели готовлю новые материалы.

Прошли месяцы, прошли годы… Что же я получил на сегодняшний день? Сотни файлов с расширением NYF (документы MyBase), никак между собой не связанные, не обработанные, не осмысленные и абсолютно бесполезные для какого бы то ни было применения. Вопреки возлагаемым поначалу надеждам документы MyBase оказались такой же макулатурой, что и несчетные документы html, doc и txt, сваленные в кучу и годами пылящиеся на антресолях директории «Documents» на одном из жестких дисков. Тоскливые памятники впустую растраченным интернет-часам, подхваченным, поматрошенным и брошенным благим намерениям, начинаниям и инициативам. Кладбище несбывшихся амбиций, одним словом.

***

А все почему? Все потому, что подлинный архивный систематизатор должен обладать гораздо большей функциональностью, нежели примитивная древовидная система хранения материалов. Навскидку: праздно шатаясь по Интернету, бывает, наталкиваешься на информацию, которой в настоящий момент не находишь никакого применения, однако чувствуешь, что в перспективе она очень пригодится для самых разных тематических исследований. Вопрос: в каком документе MyBase следует эту информацию сохранить? Разумеется, ни о каком документе не должно быть и речи. Требуется полноценный объединенный архив, наделенный функцией категориальной индексации, что позволяет соотносить одни и те же данные с различными тематиками.