Итак, данные сами по себе в общем смысле являются набором зафиксированных на бумаге, в человеческой памяти, на цифровом носителе или еще каким-либо образом фактов. При этом любой факт сам по себе имеет смысл только в системе фактов.
Например, сам по себе факт того, что вес Проксимы Центавра составляет 2,446Е29 килограмма, ничего не скажет человеку, мало интересующемуся астрономией. Если же мы включим описанный факт в систему фактов, например, что вес этого красного карлика и ближайшей к нашему Солнцу звезды составляет 0,123 солнечной массы, эти данные обретут смысл и станут информацией. Теперь читатель может сделать вывод о том, что Проксима Центавра примерно в девять раз меньше Солнца и является не такой уж крупной звездой. При этом, чтобы сделать подобный вывод, читатель также прежде включит новые сведения в собственную систему данных, базирующуюся на представлениях о размере Солнца, школьных знаниях математики и астрономии, рассказах родителей, популярных фильмах и многом другом.
Информация, таким образом, есть данные, включенные в систему фактов и потому обретшие смысл. Иногда описанную нами схему также дополняют «знанием» как результатом обработки и структурирования информации и глубинными знаниями (или мудростью) как вершиной пирамиды информации. Подобный подход к определению информации был сформулирован в конце 80-х годов прошлого века и называется моделью DIKW (data, information, knowledge, wisdom). Впрочем, В.И. Ленин еще в 1908 году писал, что «в теории познания, как и во всех других областях науки, следует рассуждать диалектически, т.е. не предполагать готовым и неизменным наше познание, а разбирать, каким образом из незнания является знание, каким образом неполное, неточное знание становится более точным и более полным»15.
На протяжении всей своей жизни человек оценивает происходящее и принимает решение, опираясь на информацию, получаемую в результате включения новых данных в систему «больших данных», собранных нашим мозгом за весь предшествующий период. Обобщая информацию, человеческий мозг находит в ней корреляции и зависимости, например, ребенок замечает, что плачем он привлекает к себе внимание. Как мы уже говорили, с развитием цивилизации появились средства накопления, обработки и обмена информации, люди научились сохранять ее для потомков. Например, развитие науки в широком смысле включает в себя сбор данных, включение их в релевантную систему информации (научных знаний) и закрепление их в качестве новой информации в системе научных знаний.
Человеческий мозг обладает и рядом недостатков: способен забывать и терять информацию, может ошибаться в расчетах и найденных зависимостях, хранит относительно небольшие массивы информации. В нашем веке на помощь ему приходят технологии и компьютеры, имеющие возможность хранить огромные объемы данных и обрабатывать их в миллионы раз быстрее человека. Однако для использования компьютером информация обязательно должна быть записана в цифровом формате, т.е. внешний мир должен быть сперва датифицирован и сохранен в виде набора цифровых данных.
В начале научно-технической революции середины ХХ века компьютер помогал человеку в основном в узкоспециализированных направлениях науки, люди собирали необходимые данные и вводили их в компьютер. С началом новой информационной эры количественный объем собираемых и накопленных данных и технологические возможности их обработки вышли на новый уровень, войдя в повседневную жизнь, став составляющей жизни каждого человека.
Сущность технологии Big Data и перспектив ее развития заключается в превращении практически любых данных в информацию. Такое превращение становится возможным благодаря накопленному количеству данных как общей системы, возможности их автоматической обработки и получения новой информации путем, например, нахождения корреляций, зависимостей и закономерностей.
Несмотря на то, что сегодня полноценно датифицирована лишь небольшая часть жизни среднего гражданина (его действия в Интернете и социальных сетях, платежи и переводы, телефонные разговоры и перемещение, больничная карточка, выражение лица перед камерой смартфона и т.д.), этого уже достаточно, чтобы, включив данные сведения в общую систему фактов, знать об индивиде намного больше, чем он знает о себе сам. Точно так же, как один человек, обладающий большими знаниями, может, посмотрев на какую-нибудь математическую формулу, узнать фундаментальные законы мироздания, а для другого эти же данные окажутся всего лишь набором непонятных символов, так и для компаний, владеющих и использующих большие данные, на первый взгляд не имеющие смысл наборы данных после обработки в общей системе обретают конкретное значение и становятся информацией. Например, изменение средней скорости гражданки по пути на работу, сегодня фиксируемой в хронологии гугл-карт каждого владельца смартфона, не скажет ей самой ничего, кроме того, что ей вдруг захотелось идти на работу чуть медленнее. Однако анализ ее недавнего времяпрепровождения, покупок, состояния погоды и нескольких тысяч других факторов, а также данных и корреляций о поведении миллионов других людей, оказавшихся в подобной ситуации, позволит точно установить, к примеру, ее беременность, даже если она еще не сообщила никому о столь важном событии, а то и вовсе сама о нем не знает. Подобное использование данных, кстати, не является фантастикой, а реальным случаем, произошедшим в США в 2012 году: отец беременной девушки узнал о ее беременности позже маркетинговой компании. Этот прецедент принято считать символическим началом эпохи больших данных. Для раннего определения беременности маркетинговой компании даже не потребовалась высокая вариативность данных, основой послужили лишь производимые девушкой покупки.