Даунтайм в десятую процента: почему зависают «облака» и правда ли дешевле хранить данные локально?
Евгений Золотов
Опубликовано 21 августа 2013
Минута, две, полчаса даунтайма: от такой неприятности не застрахован никто. Даже крупнейшие и старейшие из интернет-бизнесов периодически сталкиваются с неполадками, которые выбрасывают их из Сети. Но произошедшее в последние семь дней больше напоминает эпидемию, нежели череду случайностей. Один за другим, с разницей в сутки–двое, «упали» сайты и сервисы нескольких брендов мирового значения — оставив миллионы пользователей в недоумении, а партнёров и клиентов — не у дел. Самое время задуматься о гарантиях на аптайм…
Первой — устроив своеобразную прелюдию — ушла в офлайн газета New York Times. Веб-сайт одного из информационных столпов англоязычного Веба выключился 14 августа на два часа, и причина не установлена до сих пор. Предполагается, что это не было атакой: просто случайность (система рухнула буквально за минуты до планировавшейся рутинной проверки). Редакция держалась молодцом, сохранив даже чувство юмора (в редакционном «Твиттере» пообещали, что если починить сайт не удастся, то свежие материалы будут публиковаться в 140-символьном формате), что, впрочем, не помешало котировкам издательства рухнуть вниз, а конкурентам (в частности, Wall Street Journal) подсуетиться и переманить к себе часть аудитории, предоставив на ту же самую пару часов бесплатный доступ ко всем своим материалам.
Следующей стала Microsoft, потратившая всю вторую половину недели на попытки восстановить нормальную работоспособность почтовика Outlook.com, облачного накопителя SkyDrive и некоторых других популярных сервисов. Трое суток они пребывали в неадекватном состоянии, отшивая хоть не и всех, но большинство пользователей. Формальную причину поломки как будто установили (из-за нестыковок клиентского и серверного софта получилось что-то вроде самопроизвольного DDoS’а), но восстановительных работ это не ускорило: Outlook вернули в строй только на выходных.
И ещё до того, как Microsoft закончила свой ремонт, эстафету приняла Google. 17 августа «отключились» её центральный сайт и большинство сервисов: Gmail, Drive, Blogger, YouTube, прочие. На протяжении нескольких минут три четверти запросов к серверам Google возвращались с ошибкой. Что-то не работало совсем (поиск), что-то сохранило работоспособность отчасти (насчёт YouTube есть разные сведения), но — факт: по данным как минимум одного стороннего наблюдателя (GoSquared), число просматриваемых пользователями Сети веб-страниц в момент сократилось на 40%. К счастью, апокалипсис оказался недолгим: уже пять минут спустя Google вернулась к норме — однако причина случившегося осталась неизвестной.
Наконец, в этот понедельник блэкаут настиг крупнейшего интернет-ритейлера Amazon.com. И центральный сайт (по крайней мере для США и Канады), и облачные Amazon Web Services (компания, впрочем, настаивает, что их работа не прерывалась, просто возникли трудности с административным доступом) пробыли в отключке полчаса. И были возвращены к жизни опять же без упоминания причин.
Деловая пресса, взбудораженная невиданным стечением обстоятельств, бросилась оценивать ущерб, нанесённый простоем, но, погудев немного, сошлась на том, что он минимален. Amazon, считая по среднестатистическим продажам в минуту, недополучила около трёх миллионов долларов выручки. Google за пять минут недопоказала рекламы на полмиллиона. Всё это, как вы понимаете, едва заметно на фоне миллиардных квартальных оборотов. В случаях же с Microsoft и New York Times основной ущерб и вовсе логичней измерять не деньгами, а репутацией.
Сложней подсчитать убытки клиентов. Сколько, к примеру, потеряли компании, пользующиеся Google Drive, GMail или Outlook, оставшись совсем без или почти без почты и документов на срок от пяти минут до трёх суток?
Впрочем, давайте вернёмся к этому вопросу позже, а пока обратите внимание на странную деталь, объединяющую все перечисленные выше инциденты: причины их не разглашаются (и даже майкрософтовское объяснение кажется скорее PR-отпиской, нежели серьёзным обоснованием). Почему? Либо они ещё не установлены, либо компании не желают выносить сор из избы — выставляя в негативном свете свою ИТ-инфраструктуру. Ведь Amazon, Google, Microsoft — это не три сервера, посаженных на домашний интернет-канал. Google тратит на поддержание и расширение своей инфраструктуры почти полтора миллиарда долларов в квартал, Amazon — ещё больше! Их системы диверсифицированы, продублированы, оптимизированы на случай высоких нагрузок и непредвиденных обстоятельств — и, честно говоря, совершенно непонятно, как могли они разом взять и «сломаться», если слабые места, удар по которым приведёт к поломке сразу всей конструкции, должны отсутствовать у них по определению.