Выбрать главу

Получая огромные массивы данных нового типа, в некоторых случаях можно пренебречь точностью, если удается спрогнозировать общие тенденции. Мы живем как раз в условиях такого парадокса. Небольшой магазин может подсчитать прибыль к концу дня вплоть до копейки, но мы не стали бы (да и не смогли бы) проделывать то же самое с ВВП страны. В условиях перехода к большим масштабам меняется не только ожидаемая степень точности, но и практическая возможность ее достижения. Отношение к данным как к чему-то несовершенному и неточному (пусть поначалу и вопреки логике) дает возможность делать всеобъемлющие прогнозы, а значит, лучше понимать окружающий мир.

Получается, что беспорядочность не является неотъемлемой частью больших данных как таковых. Она скорее результат несовершенства инструментов, которые мы используем для измерения, записи и передачи информации. Если бы технологии вдруг стали совершенными, проблема неточности исчезла бы сама собой. Беспорядочность — не внутренняя характеристика больших данных, а объективная реальность, с которой нам предстоит иметь дело. И, похоже, она с нами надолго. Как правило, кропотливое повышение точности нецелесообразно с экономической точки зрения, поскольку польза от гораздо большего количества данных выглядит более убедительно. Происходит смещение центра внимания, как и в предыдущую эпоху, когда специалисты по сбору статистики отказались от наращивания размеров выборки в пользу увеличения случайности. Теперь же мы готовы мириться с незначительными неточностями в обмен на дополнительные данные.

В рамках проекта Billion Prices Project[51] можно найти занимательный пример. Каждый месяц американское Бюро статистики труда публикует индекс потребительских цен (ИПЦ), который используется для расчета уровня инфляции. Эти цифры крайне важны для инвесторов и компаний. Федеральная резервная система учитывает ИПЦ при решении вопроса о повышении или понижении процентных ставок. Основной оклад компаний увеличивается с поправкой на инфляцию. Федеральное правительство учитывает величину оклада при расчете пособий (таких как пособие по социальному обеспечению), а также процента, выплачиваемого по некоторым облигациям.

Чтобы получить эти цифры, сотни сотрудников бюро по телефону, факсу или лично связываются с магазинами и офисами в 90 городах по всей территории США. В итоге они формируют отчет из 23 000 цен на все товары и услуги — от помидоров до такси. На это уходит около 250 миллионов долларов США в год. В такую сумму обходятся однородные, понятные и упорядоченные данные. А к моменту публикации они успевают устареть на несколько недель.

Как показал финансовый кризис 2008 года, такое отставание может быть непростительным. Ответственным лицам нужно быстрее получать показатели инфляции, чтобы действовать эффективнее. Но с традиционными методами, которые сосредоточены на сборе выборок и придают большое значение точности, это невозможно.

В ответ на это два экономиста из Массачусетского технологического института (MТИ), Альберто Кавелло и Роберто Ригобон, предложили альтернативу — взять курс на большие данные, отличающиеся гораздо большей беспорядочностью. Используя программное обеспечение для сканирования веб-страниц, они ежедневно собирают полмиллиона цен на товары. Эти данные беспорядочны, и не все собранные точки данных легко сопоставимы. Но, объединив собранные большие данные с глубоко продуманными системами анализа, в рамках проекта удалось обнаружить дефляционные колебания цен, последовавшие сразу за банкротством инвестиционного банка Lehman Brothers в сентябре 2008 года. Те же, кто привык ориентироваться на официальные данные ИПЦ, смогли увидеть это только в ноябре.

Проект МТИ вырос до пяти миллионов продуктов от 300 розничных торговцев в 70 странах и дал начало коммерческой компании PriceStats, которая используется банками и другими заинтересованными лицами для принятия взвешенных экономических решений. Безусловно, полученные цифры требуют осторожного истолкования и лучше демонстрируют тенденции в области ценообразования, чем точные цены. Но поскольку в данном случае сведений о ценах гораздо больше и они поступают в режиме реального времени, это дает ответственным лицам значительное преимущество.

вернуться

51

Billion Prices Project — проект в рамках учебной инициативы, в котором используются цены, ежедневно собираемые на сотнях сайтов розничных торговцев по всему миру, для проведения экономических исследований.

полную версию книги