Выбрать главу

В контексте только что выработанной и утвержденной новой линии партии расскажу об одном предельно важном аспекте дата-майнинга, коим в той или иной мере занимаются все люди, работающие с компьютером. Читатели «Голубятен» прекрасно знакомы с моим алгоритмом МИНОА [Методы Изыскания, Накопления, Обработки и Анализа информации], поэтому не буду повторяться. Сегодня поговорим о выборочном слежении за изменяющимся содержанием веб-страниц с помощью хорошо знакомой читателям программы первого этапа дата-майнинга (изыскания информации) — WebSite-Watcher.

Поясню на простом примере, о чем идет речь. Предположим, мы отслеживаем регулярные изменения на сайте типа библиотеки «Альдебаран» (рис. 1).

На скриншоте видно, что помимо содержательной информации (списка новых ежедневных поступлений) программа отлавливает и паразитарные изменения: в правом верхнем углу приводится изменяющееся количество книг и авторов библиотеки. Вопрос: нужно ли отфильтровывать паразитарную информацию в данном случае? Ответ: разумеется, не нужно. По вполне понятной причине: сайт библиотеки «Альдебаран» ежедневно пополняется новыми книгами, за которыми вы так или иначе будете следить.

Соответственно, дополнительный желтый хайлайтинг паразитарной информации не снижает эффективность вашей работы (вы просто проигнорируете цифры новых книг и авторов). Соответственно, когда вы вбиваете в WebSite-Watcher линк на «Альдебаран», вы не вносите никаких изменений в раздел фильтров (рис. 2).

Взгляните теперь на такую страницу (рис. 3). Мы отслеживаем ветку одного из бакунианских форумов, на котором обновления случаются спорадически и непредсказуемо. Тем не менее при каждой проверке WebSite-Watcher старательно отлавливает паразитарные изменения, о которых и уведомляет пользователя. В нашем примере: в правом верхнем углу окна меняется новостной фидер с совершенно ненужной нам информацией. Вопрос: нужно ли устанавливать фильтр слежения? Ответ чисто апофатический: попробуйте его не установить, если в вашем списке WebSite-Watcher числится более сотни объектов (у меня их вообще 215)! Дело в том, что подавляющее большинство сайтов принадлежит как раз ко второму типу, в котором объем паразитарной информации зашкаливает по сравнению с изменениями по существу. В результате на слежение за псевдоизменениями уходит от 15 до 30 минут ежедневно. Полчаса жизни, потраченных впустую! Для меня лично это непростительная роскошь.

Итак, надлежит просеять паразитарную информацию. Я бы не завел разговор о фильтрах, если бы предварительно не опросил своих студентов, посаженных на иглу дата-майнинга: все они знают, что программа умеет производить тонкую настройку слежения, и при этом ни один человек ею не пользуется! Почему? Учебная курса себе дороже! Оно понятно: опция фильтрования в WebSite-Watcher доведена до такого профессионального совершенства (чего стоит целый язык псевдопрограммирования, позволяющий разложить на атомы html-код любой веб-страницы!), что руки опускаются, еще не поднявшись. А напрасно! Сейчас я вам продемонстрирую, как простые нужды фильтрации (а это 90% всех случаев) удовлетворяются за считанные секунды.

Формулируем задачу в нашем примере: необходимо исключить из слежения кусок веб-страницы, который начинается словами «Новости» (самый верх страницы справа) и заканчивается заголовком ветки форума, которая нас, собственно, только и интересует.

Вот как это делается.

1. В свойствах страницы слежения (Alt+Enter или через меню Закладки — Свойства) — закладка «Общие» — на ней кнопка «Мастер фильтра»: выделяем мышью слово «Новости» (рис. 4).

2. Нажимаем на кнопку «Создать фильтр вручную» — «Новый фильтр Игнорируемые» — "Текст между двумя выделениями (Начало/Конец) — «Выделенный текст содержит изменяющиеся числа» (рис. 5).

3. Теперь задаем окончание игнорируемого фрагмента: сначала выделяем мышью заголовок ветки («Компьютерный форум» и т. д.), затем кликаем на кнопку «Маркер окончания текста — создан!» — в подменю «Выделенный текст содержит изменяющиеся числа» (не перепутайте последовательность действий) (рис. 6).

4. WebSite-Watcher тут же проверит созданный вами фильтр, отсканирует страницу, выведет на экран результаты и — самое ценное! — автоматически переведет наши действия на формульный язык (рис. 7).

5. Нажимаем кнопку «Добавить в фильтр», запускаем контрольную проверку страницы и наслаждаемся результатами только что сотворенного нами интеллектуального слежения за изменениями (рис. 8).

Мы видим, что WebSite-Watcher вычеркнул все паразитарные изменения на странице и исключил сайт из списка обновленных, тем самым сэкономив пользователю уйму времени!

РЕПОРТАЖ: Товар — лицом! Что происходит в тестовых лабораториях и на заводах Samsung

Автор: Сергей Вильянов

Нелегко найти человека, не знакомого с продукцией корпорации Samsung. За этой банальной фразой — чистая правда: усилия корейской корпорации по проникновению на самые разные рынки приносят плод за плодом, и сейчас разногабаритные «самсунги» окружают нас дома и на работе, уютно лежат в портфеле и даже в кармане. При этом Samsung, в отличие от некоторых коллег по бизнесу корейского происхождения, отнюдь не ограничивается ролью производителя просто качественной и недорогой техники. Напротив, его брэнд награждается эпитетом «первый в мире» едва ли не чаще, чем брэнды именитых японцев и американцев.