Еще раз: не плодим дубли, категорически закрываем от индексации все технические страницы, в строгом соответствии с рекомендациями в «Яндексе» и Google составляем robots.txt. На 95 % сайтов, аудит которых я проводил, robots.tx был написан с синтаксическими (что не страшно, в общем — то) или фактическими ошибками. За последние два года мне три раза приходилось сталкиваться с тем, что сайт вылетал из индекса, поскольку веб — мастер нечаянно запретил индексацию сайта в файле robots.txt, просто написав строку Allow без параметров, подумав, что она разрешает индексировать на сайте.
Смотрим, чтобы было с robots.txt. В обязательном порядке проверяем, что выдает наш сервер в ответ на запрос браузера. Если ваш сервер отвечает – типичная ситуация, – что срок валидности опубликованного материала истек 1 января 1980 года, то ни о каком регулярном и системном посещении вашего сайта поисковыми роботами и речи нет. Вы можете прописать в sitemap все параметры как положено, однако, если робот увидит эту запись в коде ответа сервера, он ваш sitemap проигнорирует. Пустячок, но я сам был свидетелем того, как новостной сайт нормально не индексировался. После того как в полях, касающихся модификации публикаций, появились валидные даты, возникла валидная дата истечения cookie, сайт взлетел просто за счет того, что робот стал заходить практически секунда в секунду с публикуемым материалом. Грубо говоря, вы делаете технически правильный сайт и потом не платите мне 30 тыс. за то, чтобы я вам сказал: «Исправьте эту строчку в robots.tx или закройте с помощью noindex технические страницы».
К слову о noindex. Он позволяет закрыть часть страницы от индексации. Проглядываю сайт, и каждое второе предложение – в noindex. Спрашиваю у владельца сайта:
– Что это такое у тебя?
– А это я придумал такой очень хороший способ уникализации текста!
– Как так?
– Вот «Яндекс» это предложение читает, это предложение читает, это предложение, и вроде как текст уникальный.
– Да «Яндекс» у тебя все прочитает, понимаешь?
Noindex – это «не помещать в индекс», это не значит «нельзя читать, нельзя анализировать». Это значит «прочти, проанализируй, но не помещай в индекс». На сайте «Яндекса» четко все написано в «Помощи», двоякие толкования исключены.
Очень серьезная контора, имеющая десятки сайтов по всему бывшему СССР Специфика компании вынуждает одни и те же позиции товара по 50, по 100 раз на одной странице приводить. В какой-то момент сайт перестает нормально индексироваться, все рушится, из индекса тоже много вылетает. Когда я проверяю сайт, в первую очередь смотрю robots.txt, потом код страницы. Открываю совсем небольшую страничку – там 150 раз noindex.
– А что это, господа?
– Понимаете, у нас слово «насос» встречается 150 раз, и мы подумали, что «Яндекс» это сочтет спамом. Только один «насос» оставили, а все остальные забрали в noindex, чтобы поисковик их не прочитал.
Во — первых, «Яндекс» никогда прайс — лист, табличку не сочтет спамом. Он не дурак и распознает, где у вас прайс — лист, а где текст, насыщенный спамом. Он это начал понимать лет десять назад. Во — вторых, если на сайте 50 тыс. страниц и на каждой надо обработать тег по 150 раз, это же какие вычислительные мощности потребуются. В конце концов, либо роботу самому «надоело», либо человек зашел, увидел 150 noindex, у него глаза из орбит вылезли, он – чпок! – нажал кнопку.
Повторюсь, когда я слышу: «Помогите, мой сайт попал под АГС!» – то, если это достаточно серьезная площадка, почти наверняка она попала не под АГС, а под информационный белый шум в Интернете, помноженный на глупость владельца.
Если не АГС, то что может грозить хорошему сайту и за что именно?
А. Ш.: Да простит меня поисковая система «Яндекс», но у нее очень часто случаются разного рода ошибки и глюки. В большинстве случаев они некритические и остались бы незамеченными, кабы владельцы сайтов, «вооруженные» информационным шумом, не следили за позициями. Здравый смысл подсказывает, что важно следить за трафиком сайта. А информационный шум говорит: «Мониторь позиции». Вдруг владелец сайта видит, что у него позиции начинают скакать. Когда подобное происходит, у меня первая мысль: «А не глюк ли это “Яндекса”?» Ведь мне известно, что с моим сайтом все нормально и ни с того ни с сего он прыгать в выдаче не начнет. А у человека, который живет в белом шуме, иная реакция: «А какой фильтр на меня наложили?» Он делает лихорадочные шаги в поисках мнимого фильтра и надеется устранить проблему, мечась от одного предположения к другому: «Ах, может быть, у меня переспам? А давай на 1 % меньше ключевых слов на всех страницах сделаем? Ах, может быть, я слишком много ссылок закупил? Дай — ка я от части откажусь, закуплю вместо них другие…» Сайт, в общем — то, стабильный и нормальный, но с ним в одночасье затевается чехарда: синхронно меняются тексты на всех страницах, ссылки скачут. Все, и никаких фильтров не надо. Просто потому, что тексты синхронно поменялись, позиции у вас упадут.