Революционное свойство больших данных состоит в том, что даже абсолютное знание о предмете не дает таких возможностей, как знание о предмете в системе больших данных.
Американский социолог Сет Стивенс-Давидович, длительное время проработавший в компании Google на должности аналитика больших данных и выпустивший известную, насыщенную яркими примерами книгу
«Все Лгут. Поисковики, Big Data и Интернет знают о вас всё», посвященную возможностям больших данных в изучении общества и его отдельных индивидов, выделяет 4 могущественных особенности больших данных:
- способность предложить новые типы фактов;
- предоставление самых правдивых фактов;
- возможность проводить многочисленные причинно-следственные эксперименты;
- возможность рассматривать самые мелкие подмножества людских сообществ.
Недостатком или, скорее, особенностью применения технологии анализа больших данных является то, что, с одной стороны, она позволяет дать ответы на самые трудные вопросы и показать скрытую информацию, а с другой, часто существует сложность в объяснении причин выявления той или иной полученной информации. Проще говоря, анализ больших данных в нынешних условиях (с существующими компьютерами и алгоритмами) в основном отвечает на вопрос «что?», но не «почему?». Это, кстати, стало одной из причин отказа китайских властей от массового использования системы борьбы с коррупцией Zero Trust: алгоритм крайне эффективно находил коррупционеров, но не мог объяснить или доказать их причастность к экономическим преступлениям25.
Сегодня мы находимся лишь на заре новой революции. Многочисленные примеры эффективного использования больших данных имеются еще как минимум с начала ХХ века, но задача получения максимально быстрого и точного ответа на поставленные вопросы диктует мировой экономике и обществу необходимость массового внедрения современных технологий — в первую очередь систем сбора и обработки данных, получения максимально быстрого и точного ответа на поставленные вопросы.
Вместе с тем в наши дни обработка больших данных сопряжена с огромным количеством сложностей. Для того чтобы в наши дни найти ответ на любой поставленный вопрос, в подавляющем большинстве случаев не хватает данных, представляющих различные аспекты исследуемого предмета. Датификация по-прежнему охватывает лишь определенную, не столь значительную часть нашей жизни. Когда же набирается большой объем данных, из них порой становится еще сложнее выделить релевантные значения, отсеяв малозначимые сведения. В итоге решение принимается на основе лишь малой толики реально существующей информации. Ошибки датчиков или других инструментов сбора данных могут остаться незамеченными и испортить целые информационные системы. Наконец, существует проблема ложных корреляций, когда найденные закономерности не всегда могут говорить о реальности взаимосвязей между предметами (вроде корреляции между ежегодным количеством фильмов с Томом Хэнксом и жертв транспортных происшествий), что ставит под угрозу целесообразность всех принятых на основе анализа больших данных решений.