Революция как процесс
О больших данных сегодня очень много пишут и говорят в самых разных контекстах. В наши дни практически любой человек ежедневно сталкивается с большими данными — они исправляют наши опечатки в поисковой строке или текстовом редакторе, автоматически переводят текст, предлагают оптимальных партнеров на сайтах знакомств, с удивительной точностью предсказывают погоду, показывают оптимальный маршрут до дома, позволяют рационализировать производство, предвидеть и предотвратить заболевания... Несмотря на то, что сам термин «большие данные» в академической среде использовался и раньше, широкое распространение он стал получать начиная с 2008 года, а уже в 2011 году большинство крупных производителей информационных технологий, таких как Microsoft, Oracle, IBM, использовали это понятие в своих концепциях и исследованиях'. Суть его сводится к тому, что современные технологии по сбору, обработке и хранению данных достигли небывалых высот, благодаря чему анализ данных путем нахождения скрытых корреляций и закономерностей позволяет открывать новые, неочевидные на относительно малых объемах данных факты. Кроме того, большие данные позволяют рассматривать исследуемые процессы более конкретно, на уровне тысяч или даже миллионов мельчайших взаимодействий, подобно тому, как при помощи микроскопа можно рассматривать крохотные элементы веществ, невидимые невооруженным глазом.
Поясним, что под характеристикой «малые/боль-шие» понимается не только физический объем самих данных, но и их вариативность и многообразие, скорость их прироста и возможности обработки.
При этом нельзя точно сказать, где заканчиваются малые данные и в какой момент они становятся большими. Является ли миллион отдельных показателей малыми данными, а два миллиона уже большими? Или, может быть, большие данные — это только те, которые измеряются терабайтами, для обработки которых требуются суперкомпьютеры и продвинутый искусственный интеллект, а простой структурный анализ уже невозможен?
Посмотрев на происходящую революцию, связанную с резким увеличением данных, исторически, с высоты сотен и тысяч лет, мудрый читатель заметит, что люди испокон веков собирали и обрабатывали данные, пытаясь познать и подчинить себе окружающий мир.
Древние люди держали все собранные знания в голове, передавая важнейшие из них через различные табу, сказания и наскальные рисунки. В Месопотамии для хранения данных использовали глиняные таблички, а в Египте— папирус. Постепенное накопление данных и совершенствование способов их сохранения оказывали не последнее влияние на становление таких общественных институтов, как религия, государство, наука. С течением времени человечество собирало все больше данных и стремилось извлечь из них максимальную пользу. От ранних веков до нового времени и наших дней разнообразные разведки и статистические службы старательно занимались сбором всевозможных данных — начиная с подсчета количества овса, потребного для кавалерии, и заканчивая перлюстрацией любой личной переписки, до которой могли дотянуться. Данные накапливались до того объема, чтобы называться «большими», и в докомпьютерную эпоху даже анализировались без помощи искусственного интеллекта. Так, авторы бестселлера «Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим» приводят в пример Мори Мэтью Фонтейна, служившего руководителем Картографического департамента ВМС США: исследовав старые, десятилетиями пылившиеся на складе корабельные книжки и дополнив их данными из формы, заполняемой вновь прибывшими кораблями, он еще в первой половине XIX века составил фундаментальную карту морского пространства, позволяющую капитанам судов экономить сотни часов и дней своих плаваний, используя наиболее оптимальные маршруты с учетом течений и ветров2. В массовости данных также нет ничего нового — еще в 1924 году у Евгенического учетного бюро в Колд-Спринг-Харбор было более 750 000 записей, описывающих «врожденные физические, умственные и темпераментные свойства» американских семей3. Или же другой пример — применение больших данных в спорте. Много говорят о том, что победа профессиональной спортивной команды сегодня — это во многом победа стоящей за ее спиной команды математиков4. Анализ игры, поведения соперников, многочисленных разнообразных показателей позволяет спортсменам существенно улучшить результат и добиться успеха. Впрочем, подобные методы в большом спорте применялись в Советском Союзе как минимум с семидесятых годов прошлого века5.