Читать онлайн "Журнал "Компьютерра" N741-742" - «Компьютерра» Журнал - RuLit

Семантическим поиском (то есть поиском, учитывающим свойства данных, а не только встречаемость слов в документе) многие из нас пользуются ежедневно. Это, например, Яндекс-поиск по блогам, индексирующий RSS-потоки блогов и форумов и позволяющий находить отдельные посты (независимо от того, как они сгруппированы в HTML-страницы), причем вести поиск можно не только по встречающимся словам, но и по "семантическим" (смысловым) атрибутам записи — заголовку, имени автора, тегам и пр. Другой пример — множество сторонних сервисов для "сложного" поиска по Flickr или del. icio.us: здесь играет большую роль открытый и простой API, ставший одним из почти обязательных признаков Web2.0-сервиса. И породивший новую разновидность сервисов: машапы (mash-ups, помеси сервисов), извлекающие семантически описанную информацию из нескольких популярных сервисов и объединяющие ее по этим самым семантическим признакам[Навязший в зубах пример — показать чтонибудь, снабженное геоинформацией (например, записи-статусы Twitter), на картах Гугла.], — при этом, заметим, смешиваемым сервисам достаточно описать свою информацию в рамках своей области и вовсе не нужно договариваться об общем языке данных и общей онтологии допустимых значений.

Вот, кстати, и слово сказано — ответ на вопрос "кто вообще будет этим заниматься?" (в смысле — добавлением/экспортом семантической информации). Отдельный пользователь-автор — вряд ли (точнее — не стоит рассчитывать на всех и каждого). Но если наш пользователь-автор — участник крупной Web2.0-системы — будь то блог-хостинг, фотохостинг, голая "социальная сеть", энциклопедия, — создатель сервиса может озаботиться тем, чтобы ПО самой системы экспортировало метаинформацию (описание блоговых записей, фотографий на хостинге и т. п.).

Зачем? Чтобы потрафить семантическим поисковым системам, настоящим и будущим, и в конечном счете увеличить посещаемость и прибыли (чувствуете разницу с целями Идеального Семантического Веба — изничтожить само понятие "посещаемости отдельного сайта"?). Завтра создавать новый блог-хостинг/социальную сеть (или автономный движок для личного блога, например), не представляющую информацию о френдах в общеизвестном формате (FOAF или XFN), будет такой же глупостью, как сегодня — блог-хостинг без RSS-лент.

К вопросу "экспорта ради поиска" примыкает вопрос "экспорта ради миграции и интеграции", все больше волнующий пользователей — они жаждут возможности единожды записанные данные переносить между разными сервисами — для чего, опять-таки, все эти сервисы должны поддерживать общепонятные стандарты "описания данных по смыслу". Наиболее объемлющая инициатива такого рода — проект DataPortability, ставящий своей целью описать, какие открытые стандарты, микроформаты и протоколы (hCard, FOAF, OpenID, RSS, RDF…) должен "понимать" уважающий себя современный сервис, чтобы пользователю легко было "прийти" и "уйти" со своими данными. Учитывая, что этот молодой (основан в ноябре 2007-го) проект уже получил широчайшую поддержку рынка (по крайней мере, на словах) — от Google и Microsoft до Facebook и Twitter, — можно ожидать постепенного нарастания массы семантической информации, экспортируемой и импортируемой популярными сервисами. А вслед за "грандами" подтянутся и стандарты "хорошего тона" индустрии. Так победим!

Наконец, нельзя не упомянуть о двух последних громких проектах Настоящего Семантического Веба: OpenSocial от Google (стандарт интеграции социальных сетей — как раз через экспорт социальной информации в общепонятных форматах) и недавно анонсированном будущем семантическом поиске от Yahoo (поисковик, понимающий и индексирующий микроформаты и другую семантическую информацию, который наконец-то обобщит проблему поиска "контактов человека по имени Вася Пупкин и людей, его знающих"). Так, пока автор идеи Семантического Веба рассуждает о том, как он (Semantic Web, а не автор) убьет современные поисковики, эти самые поисковики находятся впереди планеты всей в задаче введения семантических элементов в Веб обыкновенный. Такие вот дела.

Вслед за уходящим паровозом

У читателя могло сложиться превратное впечатление о том, что идеологии и технологии, которые W3C и лично Бернерс-Ли понимают под Semantic Web, не имеют ничего общего с Настоящим Семантическим Вебом. Вообще говоря, это не совсем так. Во-первых, восемь лет разработок дали как минимум общую терминологию и "повестку дня". Во-вторых, сами технологии — RDF, OWL и иже с ними — вполне используются где-то напрямую (FOAF, как уже было сказано, — это таки RDF, точнее — OWLонтология, которую можно использовать в RDF, описывающем френдов).

В-третьих, в "семантических" комитетах W3C тоже стараются не отставать от веяний времени (не идиоты же и там): и приложения к RDF существуют [Например — eRDF, то есть embedded (встроенный) RDF], позволяющие вставлять его элементы как микроформат (то есть дополнительными свойствами к тегам существующей HTML-странички), да и все цели Веба Семантического переформулированы нынче как "семантическое приложение к некоторым частям Веба".

Кроме того, процесс "наведения мостов" между двумя мирами зачастую дает крайне интересные и общественно полезные результаты, вроде проекта SIMILE [Semantic Interoperability of Metadata and Information in unLike En vi ronments — семантическое взаимодействие метаданных в разнообразных (непохожих) окружениях], в рамках которого создан,к примеру, Piggy Bank — расширение для Firefox, позволяющее создавать (и использовать созданные другими) "превращалки" страниц некоторых сервисов в RDF — с получением всех "плюшек" семантического веба — просмотра, фильтрации и сортировки данных по смыслу, а не "по дизайну". Кстати, именно этот метод — Screen scrapping или Web scrapping, сайтоспецифичные алгоритмы "насильственного вытаскивания важной информации из страниц", — является одним из значимых звеньев нарастания семантичности веба.

Но вот чем Настоящий Семантический Веб радикально отличается от идей W3C — это способами структурирования данных и границами объектов, к которым прилагается "семантичность". Что до способов структурирования — тщательно разработанным, разветвленным и детальным онтологиям Web 2.0 противопоставил "фолксономии" — классификации на тегах, составляемые пользователями на лету (то есть если какой-то пользователь к своим данным добавил какой-то новый тег — сразу же пополнилась и "общественная" копилка тегов).

А чтобы разобраться с "границами применимости", возьмем для примера какую-нибудь ужасно прогрессивную блог-платформу, экспортирующую всю возможную информацию о записях пользователя и о нем самом. Заметим, что на уровне текста самой записи у нас попрежнему остается голый HTML, да зачастую еще и плохо отформатированный (вместо заголовков — просто строкиполужирным шрифтом, вместо списков — просто звездочка в начале строки). Возможно, ситуацию когда-нибудь исправят специальные "семантические" редакторы, мощные, удобные и требовательные (в смысле, вообще не позволяющие "просто изменить шрифт" без указания семантики форматируемой области). Но даже и в этом случае мало надежды, что каждый блоггер, журналист или автор Википедии станет заморачиваться "семантическим" указанием: например, "вот эти слова в кавычках — название книги, которую я цитирую" (хотя если это добавит записям "красивости" — вроде вставления обложки книги и ссылки на ее описание…). И в этом смысле идеи Семантического Веба (который, напомню, в первую очередь требует семантичности внутри контента, а не "вокруг" него, в метаданных) — скорее всего утопия

Касание сетки

Касание сеткиАвтор: Виктор Шепелев

Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 годаОсенью прошлого года Adobe выпустила технологию Adobe AIR, связанную с ее (точнее, купленными у Macromedia) технологиями Flash и Flex. Примерно тогда же в свет вышла Silverlight — прямой конкурент Flash/Flex. Flex, AIR, Silverlight, Google Gears, GWT, Mozilla Prizm, Sun JavaFX — все это технологии, созданные для того, чтобы навсегда изменить привычный нам Интернет, из "Сети документов" превратить его в "Сеть приложений", могучей волной смыть различие между десктопом и Интернетом, веб-сервисом и отдельной программой.