Выбрать главу

Работа Inrix с данными о дорожном движении – наглядный пример того, насколько агрегированные показатели множества устройств могут быть полезнее для принятия решений, чем первичные данные одного-единственного человека[50]. Упреждающие системы, действующие на основе анализа социальных данных, будут консультировать нас по вопросам персональных проблем, финансов, рабочих ситуаций, медицинского обслуживания и во многих других областях, а возможно, и стимулировать к принятию определенных решений.

Кроме того, на этом примере особенно хорошо заметна ключевая роль интерпретации в процессе обработки данных. Обработанные данные могут представляться в трех видах: как описание, прогноз или инструкция. Описание характеризует нечто уже состоявшееся. Прогноз экстраполирует прошлое и настоящее на будущее в предположении, что система не будет подвергаться воздействиям или манипуляциям, способным повлиять на результат. Инструкция рекомендует, как действовать для получения желаемого результата исходя из анализа прошлых событий.

ИНФОРМАЦИЯ
НЕ ДОЛЖНА
РУКОВОДИТЬ НАМИ.
ОНА ДОЛЖНА
РАСШИРЯТЬ СПЕКТР
НАШИХ ВОЗМОЖНОСТЕЙ

В описательной статистике данные обобщаются, например, в виде кластеров однородных элементов информации. Такие данные могут формировать условия для принятия решений в виде набора критериев для сравнительной оценки конкретной ситуации. Если вам нужно узнать, как в данный момент обстоят дела с пробками на Манхэттене, вы можете посмотреть по данным геолокации с мобильных телефонов, насколько быстро движутся и где встают потоки автомобилей. Но даже в таком относительно простом вопросе присутствует элемент интерпретации. Скорее всего, вы увидите данные о большом скоплении автомобилей в районе небоскреба MetLife. Но, может быть, это следствие того, что MetLife находится рядом с вокзалом Гранд Сентрал, где всегда полно такси, ожидающих пассажиров, и самих пассажиров, садящихся в такси, и поэтому мобильные телефоны показывают как бы «остановившееся» движение? Если вам нужно узнать, насколько хорошо идет предрождественская торговля в вашем магазине в этом году, вам нужно не только подытожить продажи, но и найти подходящую базу для сравнения. Сопоставление с вашими же данными за аналогичный период прошлого года не будет полностью корректным, поскольку в таком случае не будут учтены изменения, случившиеся в местной экономике. Вместо этого вы можете сравнить результаты своего магазина с результатами похожих магазинов по соседству.

Когда я работал в Amazon, мы исследовали динамику промежутков времени между просмотром товара и его покупкой. Некоторые статистические значения были явно ошибочными – они были отрицательными, а человек физически не может купить товар прежде, чем просмотрит его. Мы не знали, почему происходит такая ошибка, и просто не стали учитывать такие данные. При этом у нас накопилась масса данных, указывающих на то, что многие пользователи выжидают по восемь часов, прежде чем совершить покупку. Очень странно. И только потом мы сообразили, что, поскольку часть компьютеров Amazon настроена в тихоокеанском часовом поясе США, а часть – по Гринвичу, эта разница отражает различие во временных поясах применительно к кликам. Как часто случается, то, что сначала казалось шагом к интересным новым представлениям, в итоге объяснилось обычной ошибкой.

Интерпретация данных – итеративный процесс. Вот один из примеров этого. Одна авиакомпания решила провести целевую рекламную кампанию для потенциальных пассажиров бизнес-класса и поручила группе специалистов по работе с данными выявить владельцев смартфонов, регулярно прибывающих и убывающих через нью-йоркский аэропорт имени Дж. Ф. Кеннеди. Проблема состояла в том, что людьми, регулярно посещающими любой аэропорт, являются вовсе не бизнесмены, а сотрудники авиакомпаний и самого аэропорта. Аналитики убедились в этом по данным с телефонов, показывающим закономерности перемещений их владельцев. Часть постоянных посетителей ежедневно приезжала и уезжала по четкому сменному графику – это были работники аэропорта. Труднее оказалось выделить экипажи самолетов, базирующихся в Нью-Йорке, но и их удалось более или менее точно вычислить по сайтам и приложениям, которыми они пользовались через wi-fi аэропорта: поиск отеля или авторизация в Uber для заказа машины для них были редкостью, а вот в приложения для знакомств они заходили очень часто[51].

вернуться

50

Мой друг Джон Сквайр, генеральный директор DynamicAction, а в прошлом – главный стратег IBM Smarter Commerce, подчеркивает важность комбинирования данных из разных источников фразой «Ценность – в объединении».

вернуться

51

Из беседы автора с Клаудией Перлич, главным научным сотрудником Dstillery, 25 января 2015 года. Клаудиа – моя хорошая знакомая, она была моей студенткой в Колорадском университете в Боулдере и Нью-Йоркском университете.