УГРОЗА
Паутина огромна. Она везде. А я могу порвать лишь пару ее ниток. Да и то неизвестно, те ли нитки. Нужно что-то глобальное. Нашествие термитов. Какой-нибудь особый техновирус, который питается электричеством и проникает всюду, как пыль. Он вырубит всю Паутину к чертовой матери!
Мерси Шелли, «Паутина»
Отчего могут порваться паутинки-ссылки? Очевидная причина – страница, на которую ссылались, перестала существовать (закрылся сайт, умер сервер, статья удалена автором) – случай простой и печальный. Но помимо этого, у Времени есть куча уловок для нарушения "ссылочной целостности" Сети. Вот лишь некоторые из них.
Смена системы управления контентом. Как правило, хорошие СУК (они же CMS) позволяют гибко настраивать схемы адресов для сайта; но далеко не каждый сайтоправитель станет с этим заморачиваться. Результат – адреса вида "example.com/index.php?articleId=150" в один прекрасный понедельник все как один преобразовываются в "example.com/articles/?id=1500&s=m". Весь контент на сайте при этом остается неизменным, но человек, пришедший по «дореформенной» ссылке, останется в растерянности.
Изменения в логике контента. Например, "слишком старые" статьи онлайнового журнала могут быть убраны в архив (с соответствующим изменением адресов на "old.журнал. ru/…" или "журнал. ru/archive/…"); или новому руководителю не понравилось деление на «новости», «колонки» и «интервью» (с соответствующими адресами); или автор сайта решает идти в ногу со временем и префикс «article» у всех статей меняет на «blog» – несть числа причудам креатива.
У сайта может поменяться домен. Простой случай: контент остался на месте, ни один адрес не изменился, но по истечении очередного года регистрации домена владелец его «проворонил» (в пользу жадного киберсквоттера, вестимо) и вынужден переехать с "адрес. com" на "адрес. net" – никакого способа оповестить о переезде тех, кто придет по старой ссылке, не существует (в отличие от более позитивного случая переезда с "сайт. narod.ru" на «взрослый» "сайт. ru" – но и здесь авторы умудряются прибрать со старого сайта все статьи, оставив одну лишь переадресацию на главную страницу нового – а там поди вспомни, по какой ссылке ты сюда забрался).
Форумы и прочие "очень динамические" сайты. Вдобавок к перечисленным проблемам (удаление, перенос в архив) ссылка на ветку форума более склонна «протухнуть», например, из-за перенесения обсуждения в другой подфорум и от прочих действий модератора; на небольших коммунальных вики-сайтах могут часто меняться имена статей (естественно, в сторону "более точных"); даже в Википедии «сомнительный» раздел может быть удален из важной статьи; а «верную» ссылку на комментарий к некоей записи в блоге дать еще сложнее…
Наконец, с точки зрения человека, поставившего ссылку, Веб может выглядеть иначе, чем с точки зрения читателя. Например, ссылка поставлена на статью на сайте, требующем авторизации, или на «подзамочную» запись чужого блога (тот, кто ставил ссылку, был «авторизован» и просто не заметил не-для-всехности статьи). Или статья ушла в "под замок" позже простановки ссылки. Или сайт, на который ссылались, склонен выдавать посетителю разный контент, в зависимости от его браузера, страны проживания и других параметров.
Мы здесь оставляем в стороне совсем наивных авторов, поставивших «ссылку» на самую свежую статью в блоге или на новостном сайте в виде "www.АдресСайта. ru", и прочие клинические случаи.
Как бы то ни было, большинство этих случаев объединяет тот факт, что "текст под ссылкой" до сих пор существует в Сети, и даже где-то «неподалеку» от того места, куда указывала ссылка, – но, увы, «сдвинулся» на несколько миллиметров в сторону. Этого уже достаточно для разрушения ниточек-ассоциаций, нужных читателю, а в самых запущенных случаях – для полного разрушения какой-то ценной части контента.
Чтобы пронаблюдать эти эффекты вживую, достаточно почитать (точнее, попытаться это сделать) ошметки "первого Рунета" (конец 90-х), с его прото-блогами, веб-обзорами, зарождением сетевого литературного сообщества […а вовсе не какой-то отдельной "сетевой литературы", которую принято глубокомысленно обсуждать].
Одна часть тогдашних "отцов Рунета" (и по сию пору людей известных и уважаемых, да вот от бумагомарания давно отошедших) публиковалась под крылом "Русского Журнала", старых "Граней. Ру" и "Вестей. Ру", – все их статьи сохранились, но как архивы – на других, часто совсем неожиданных сайтах.
Другая часть вела свои дневники-колонки (слово «блог» еще не было придумано) по адресам, выделенным провайдером или тогдашним работодателем для "страничек пользователей", – эти материалы, после утери к ним интереса авторов, пропали, кажется, безвозвратно, не осев даже и в интернет-архивах (о которых – позже). Весь этот огромный корпус гипер-текстов, написанный людьми образованными и любопытными, к тому же между собой лично знакомыми, был густо залинкован (в немалой степени он состоял из диалогов, ответов и обзоров публикаций друг друга) – и за исключением отдельных, переживших время жемчужин, ценен был именно во всей полноте. И полнота эта утеряна безвозвратно. Притом что бо, льшая часть текстов по-прежнему доступна [Интересно, что наибольшая вероятность найти по прежнему адресу страницу восьми-десятилетней давности остается для сайтов на бесплатных хостингах вроде Geocities.ru или narod.ru – там, даже если автор забросил свое «творение», никому не придет в голову "поменять структуру сайта" или "удалить страницы неактивных пользователей"].
КСТАТИ
У древних японцев считалось, что увидеть паука или паутину – хорошая примета, означающая, что скоро придет письмо.
Мерси Шелли, «Паутина»
Очевидно, что существуют способы – пусть трудоемкие, пусть не всегда работающие, но хоть какие-то – противостоять течению времени, разрушающего Паутину.
Конечно, в идеале о сохранности ссылки должен заботиться ее адресат; структуры сайтов лучше не менять, а, меняя, устанавливать умную переадресацию; «вкусные» домены не упускать… В лучшем мире, возможно, так оно и было бы. В реальности же некоторые сайтовладельцы не то чтобы не заботятся о пришедших по точным ссылкам, но… считают ссылки на внутренние страницы сайта (а не на главную) нарушением копирайта и ущемлением своих прав [Это не выдумка. Несколько соответствующих судебных дел можно найти по ключевым словам "lawsuit deep linking"; как правило, это случаи, в которых доступ к платному контенту ограничивался сомнительным способом сокрытия точных адресов страниц (и открытия их после оплаты) при полном отсутствии авторизации].
То есть "заполнение разрывов" остается делом тех, кто ставит ссылки, а также самих серферов-читателей. И для тех, и для других – базовых техник "борьбы со Временем" всего две: архивирование и использование "ассоциативных ссылок" вместо гиперссылок (но лучше – вместе с ними).
Архивирование. Архивы «всего» Интернета можно найти в кэше поисковиков (Google, Yahoo, MSN) или в специализированном Internet Archive; крупные участки Веба сохраняются также в некоторых региональных поисковиках или национальных архивах. Кэши поисковых машин, как правило, содержат более-менее актуальные копии страниц (навсегда «умершие» сайты из кэша исчезают) и оттого пригодны лишь для «добычи» временно недоступного контента (сайт упал, а статья нужна сегодня). Зато Internet Archive (archive.org) и его Wayback Machine (web.archive.org) позволяют получить «снимки» почти любого сайта за почти любой период его существования – «снимки» делаются примерно раз в полгода. Самое интересное, что все ссылки, ведущие со страницы, приведут тоже на заархивированные копии сайтов – таким образом, становится доступен целый "временной срез" Веба.