Выбрать главу

Особым образом масштабность поисковых компаний проявилась в технологии BigData. Под «большими данными» понимают возможность выявления новой информации посредством анализа больших объемов информации.

Простейший пример подобного анализа видели все посетители Интернет-магазинов, когда на сайте появляется объявление: «с этим товаром также покупают и вот эти товары…». Наверняка, многие видели, как стоит поинтересоваться одним товаром и потом реклама похожих товаров начинает тебя преследовать.

Есть более сложные связи. Например, покупатель книги X скорее всего проголосует за кандидата Y, что является основой для последующих политических манипуляций. Покупателю книги Х начинают подсовывать кандидатов из класса Y. Именно с этим связаны скандалы Фейсбука и других, когда заказчикам продавались адреса потенциальных избирателей.

Мало кто знает, что у Яндекса, и у Гугла есть феноменальная возможность следить за всеми пользователями в Интернете. Этой возможности, вероятно, нет у секретных служб.

Яндекс с Гуглом работают Большим Братом

Попробую пояснить как это происходит технологически. В русском Интернете, вероятно, несколько миллиардов страниц. Может быть, больше 20. В любом случае, это уже гигантское число. Ключевым фактом является прямая связь этих страниц с поисковыми компаниями.

Большинство страниц на значимых сайтах имеют невидимые пользователю вставки от Яндекса и от Гугла.

Как только пользователь загружает себе на компьютер страницу из 20 миллиардов эти шпионские вставки посылают короткий отчет в Яндекс и в Гугл: «такая-то страница загружена на такой-то адрес в такое-то время». Когда пользователь закрывает страницу, шпионы также сообщают «пользователь закрыл страницу в такое-то время».

Первое, что получает поисковик – это информация о времени просмотра страницы. Пользователь может сразу покинуть страницу и этот факт называется отказом.

Именно по отказам легко вычислять обманные страницы от оптимизаторов – их никто не читает. Наоборот, страница, которую смотрят долго, может быть отнесена к интересным страницам.

Дальше начинается самое важное. В отчете, который получают Яндекс и Гугл, содержится и адрес пользователя, так называемый IP адрес, комбинация из 12 цифр. Все пользователи Интернета получают свой уникальный адрес при входе в Интернет. Даже если этот адрес по статусу является динамическим, фактически он остается постоянным в силу особенностей работы Интернет каналов.

Наличие адреса позволяет накапливать информацию о загрузках пользователя. Возникает потрясающая ситуация:

база данных поисковиков помнит все загрузки на каждом адресе!

Это и есть настоящая BigData.

Имея в своем распоряжении такую базу, можно вычислять массу информации о пользователе. Точнее говоря о владельце IP адреса. Самое банальное, Яндекс и Гугл могут вычислить возраст и пол пользователя. Для этой цели выбирают, скажем, 10 тысяч самых популярных сайтов. Эксперты разделяют их по группам. Одна группа страниц нравится молодежи 19-20 лет, другая группа нравится женщинам и в той же логике дальше. У нас получаются «молодежные» сайты, «женские» или «мужские». Теперь берем список загрузок пользователя. Если пользователь читает «женские» сайты, значит он женщина, по крайней мере, он женщина с высокой вероятностью. Точно также и в отношении возраста.

Дальше действует обратная логика. После того, как определен тип пользователя, можно анализировать загружаемые страницы. Например, страницы, которые загружает пользователь-женщина, можно назвать женскими страницами. Страницы, которые загружает школьник старших классов, можно называть школьными.

Благодаря BigData поисковики получили возможность позиционировать страницы не только по наборам текстовых символов, не только по перекрестному индексу, но и по оценке, которую страницы получают от пользователей. Другими словами, семантическая метрика получила дополнительный компонент.

Следует уточнить понимание шпионского характера вставок от Яндекса и Гугла. Если Вы впервые узнали о шпионстве от Яндекса и Гугла, не стоит сразу возмущаться. На самом деле, называть поисковые вставки шпионами не совсем корректно. Вставки возникают абсолютно легально. Они, действительно, автоматически собирают и отсылают информацию в Яндекс и Гугл, но появляются вставки по доброй воле владельцев сайтов. Это добровольная хозяйственная сделка между владельцем сайта и Яндексом или Гуглом. Владелец соглашается на размещение вставок, а поисковики делятся с владельцем маркетинговой информацией о пользователях. То есть, это информационный бартер, никто никому ничего не платит, просто обмениваются информацией.