Выбрать главу

Проживая современную жизнь, все активнее проводя время в Интернете, мы оставляем все более заметный след из цифровых «хлебных крошек» – личные исторические данные потрясающей глубины и значительного масштаба.

Большие данные

О каком масштабе идет речь?

В компьютерных науках принято считать единицей измерения информации бит (сокращение от binary digit – двоичное число). Бит можно представить себе в виде ответа на вопрос «да или нет», где 1 – это «да», а 0 – это «нет». Группа из восьми битов называется «байт» [12].

В настоящее время цифровой след обычного человека – то есть годовой объем данных, создаваемых в мире на душу населения, – составляет немногим менее одного терабайта. Это можно сравнить примерно с 8 триллионами ответов на вопрос «да или нет». В совокупности человечество создает каждый год 5 зеттабайт данных: 40 000 000 000 000 000 000 000 (сорок секстиллионов) бит[13].

Такие огромные цифры сложно себе представить, поэтому давайте их как-то конкретизировать. Если бы вы записали вручную всю информацию, содержащуюся в одном мегабайте, то ваша строка из 1 и 0 превысила бы по высоте гору Эверест[14]. Последовательность 1 и 0, составляющая 1 гигабайт, записанная вручную, соответствует длине земного экватора. А длина записанной последовательности цифр, составляющих один терабайт, равна расстоянию от Земли до Сатурна, пройденному туда и обратно 25 раз. Длина последовательности в один петабайт, записанной вручную, равна расстоянию туда и обратно до космического аппарата «Вояджер-1» (самого удаленного от Земли аппарата, созданного человечеством). Длина последовательности в один экзабайт равна расстоянию до альфы Центавра. Длина последовательности в 5 зеттабайт, создаваемых людьми каждый год, равна расстоянию до галактического центра Млечного Пути. Если бы вместо отправки электронных писем и трансляции видео эти пять зеттабайт использовались для той же цели, что и у древних пастухов – то есть для подсчета овец, – то их стадо полностью заполнило бы всю Вселенную, не оставив свободного пространства[15].

Вот почему люди дали всей этой информации название «большие данные». И большие данные сегодняшнего дня – это лишь верхушка айсберга. Полный цифровой след, оставляемый хомо сапиенс, удваивается каждые два года[16], по мере совершенствования технологий хранения данных, повышения скорости обмена информацией и постепенного перемещения нашей жизни в Интернет. Большие данные становятся все больше, больше и больше.

Цифровая линза

Пожалуй, самое значительное различие между культурными записями в наше время и в прошедшие эпохи состоит в том, что большие данные сегодняшнего дня существуют в цифровой форме. Подобно оптической линзе, позволяющей с должной степенью надежности трансформировать свет и манипулировать им, цифровые средства передачи позволяют делать то же самое с информацией. При наличии достаточного объема цифровых данных и вычислительных мощностей на человеческую культуру можно взглянуть по-новому, благодаря чему меняется то, как мы понимаем мир и свое место в нем.

Стоит задуматься вот над чем. Что лучше поможет вам понять современное человеческое общество: неограниченный контакт с факультетом социологии ведущего университета, где работают эксперты в области функционирования обществ, или неограниченный доступ к данным Facebook, компании, цель которой направлена на помощь в организации социального взаимодействия людей в Сети?

С одной стороны, работники социологического факультета имеют определенные преимущества, связанные с глубоким знанием и пониманием процессов, протекающих в обществе (вследствие того, что они посвящают десятки лет своей жизни обучению и исследованию этих вопросов). С другой стороны, Facebook представляет собой часть повседневной социальной жизни миллиарда людей. Он знает, где они живут и работают, где и с кем играют, что им нравится, когда они болеют и о чем разговаривают с друзьями. Поэтому мы отдали бы предпочтение Facebook. И это мы еще не учли того, что произойдет в мире через 20 лет, когда Facebook или любой другой сайт подобного рода будет хранить в десять тысяч раз больше информации о каждом жителе планеты? [17]

вернуться

12

Классическую игру в «двадцать вопросов» можно также назвать «два с половиной байта», поскольку именно такой объем информации вы должны собрать, прежде чем высказать свою догадку.

вернуться

13

Подсчеты содержатся в отчете IDC Digital Universe report. См. Gantz John, Reinsel David. The Digital Universe in 2020 // EMC Corporation (декабрь 2012 г.). Доступно в сети Интернет: http://idcdocserv.com/1414. См. также: Data, Data Everywhere // Economist (25 февраля 2010 г.). Доступно в сети Интернет: http://goo.gl/VsXh5P. Bohn Roger E., Short James E. How Much Information? 2009 // Global Information Industry Center (январь 2010 г.). Доступно в сети Интернет: http://goo.gl/pt0R; Lyman Peter, Varian Hal R. How Much Information 2003? // University of California at Berkeley. Доступно в сети Интернет: http://goo.gl/vpo9N.

вернуться

14

Мы исходим из предположения, что для записи типичного бита требуется примерно шесть миллиметров. В определенной степени это зависит от соотношения единиц и нулей, поскольку «1» очень узкая. Типичный размер букв в рукописном тексте рассматривается в работе Kamath Vikram et al. Development of an automated handwriting analysis system // ARPN Journal of Engineering and Applied Sciences 6, no. 9 (сентябрь 2011 г.). Доступно в сети Интернет: http://goo.gl/4mlkTm.

вернуться

15

Таким образом, проблему подсчета овец можно будет считать полностью решенной, если только Вселенная не расширится очень сильно.

вернуться

16

Согласно расчетам IDC (International Data Corporation), цифровой след человечества вырастет со 130 экзабайт в 2005 году до 40 000 экзабайт (40 зеттабайт) в 2020 г. Иными словами, удвоение объема информации будет происходить каждый год и 10 месяцев. См. выше.

вернуться

17

См. Facebook Tops 1 Billion Users // Associated Press (4 октября 2012 г.), доступно в сети Интернет: http://goo.gl/nfK32P.