На заре Интернета все было относительно просто. Достаточно было ввести адрес и унифицированный указатель информационного ресурса (Uniform Resource Locator — URL), и файл с текстом или ссылка доставлялись заказчику, кем бы он ни был. Жизнь казалась простой.
Однако иногда обнаруживалось, что происходят ошибки, и файлы не доставляются или ссылки неверны, что приводило к отказу. В этом случае умные люди запрашивали файл регистрации ошибок сервера и искали в нем информацию об обращениях к веб-серверу (в те простые времена обращения были эквивалентны запросам файлов).
Журналы серверов фиксировали не только сам факт обращения к веб-сайту, но и некоторую дополнительную информацию, включая имя файла, время, реферрер (referrer) (веб-сайт или страница, с которой сделан запрос), IP-адрес, идентификатор браузера, операционной системы и т.д. Дело пошло интересней, поскольку теперь вы уже знали нечто об обстоятельствах обращения.
По мере того как файлы журнала увеличивались в размерах и их данными стали интересоваться и гуманитарии, программисты написали первый сценарий, который автоматически анализировал файлы журнала и выдавал элементарные показатели (рис. 1.1). Так была официально рождена веб-аналитика.
Рис. 1.1. Пример отчета приложения Analog версии 0.9 бета
Приложение Analog, написанное доктором Стивеном Турнером в 1995 году, было одним из первых анализаторов файлов журналов, широко используемых в веб. Оно все еще остается таковым и устанавливается на веб-сайтах большинством провайдеров услуг Интернета (Internet Service Provider — ISP). Приложение Analog и инструменты, подобные ему, подпитывали интерес к веб-аналитике вне групп информационных технологий (Information Technology — IT). Отчеты становились все более симпатичными, и маркетологи смогли наконец-то разобраться в происходящем.
Примерно 1995-96 году обычные пользователи Интернета начали проявлять интерес к веб-статистике из-за быстрого распространения такой восхитительной вещи, как счетчик (counter). Счетчик посещений страницы, 2 5 9 5 7 стал, вероятно, первым примером вирусного маркетинга (viral marketing) в веб (записано на счет компании по имени Web-Counter). Счетчики в веб были повсюду; они замечательно выглядели и демонстрировали степень вашей популярности.
Коммерческая веб-аналитика появилась несколькими годами позже, и новым примером для подражания стал инструмент WebTrends. Компания WebTrends усовершенствовала стандартный анализатор файла журнала, добавив представления в виде таблиц и графиков, что наконец привлекло к веб-аналитике бизнес-группы. Пример результата приведен на рис. 1.2.
Рис. 1.2. Пример отчета WebTrends
К 2000 году, с экспоненциальным ростом популярности веб, веб-аналитика твердо укрепилась как дисциплина. Такие компании, как Accrue, WebTrends, WebSideStory и Coremetrics, утвердились в качестве ведущих производителей, предоставляя все более и более сложные решения, которые информировали о все больших массивах данных.
Примерно в то же время производители инструментов веб-аналитики и их клиенты обнаружили, что использование журналов веб-сервера в качестве источников данных не является оптимальным и сопряжено со сложностями.
К проблемам использования журналов относятся следующие.
Кеширование страниц ISP. Проблема кеширования заключается в том, что при получении копии страницы ISP при последующих запросах передает именно ее, а в файлы журнала веб-сайта записи об этих запросах не заносятся.
Поисковые роботы. С увеличением популярности поисковых серверов поисковые боты (search bot) зачастую просматривали сайты целиком, оставляя записи в вебжурналах, хотя пользователь их и не посещал. Эти записи учитывались в показателях. Хотя обращения робота можно отфильтровать, с учетом скорости появления новых роботов сделать это довольно трудно (кроме того, со временем они становятся все более интеллектуальными).
Уникальность посетителей. С увеличением количества пользователей, применяющих динамические IP-адреса и приходящих через прокси-серверы, стало сложно выявлять индивидуальных посетителей, т.е. определять их уникальность. Производители попробовали прибавлять к IP-адресу идентификатор агента пользователя (операционная система пользователя и браузер), но это не оправдало ожиданий. Если сайт устанавливает файлы cookie, использовались они, но на это соглашались не все отделы информационных технологий.
По этим и некоторым другим причинам в качестве нового стандарта для сбора данных веб-сайтов стали использоваться дескрипторы JavaScript (JavaScript tag) (несколько строк кода JavaScript), что значительно упростило сбор данных: несколько строк кода JavaScript добавляются на каждую страницу и срабатывают при ее загрузке, посылая данные серверу сбора данных. Вот пример дескриптора JavaScript, используемого Crazy Egg, новым производителем в области веб-аналитики.