Выбрать главу

Люди чересчур озабочены определением больших данных. Лично я всегда предпочитал самое короткое из всех существующих определений. Пусть оно противоречит остальным, зато состоит всего из двух слов: «Не нужно!» Поначалу такой ответ может показаться вам экстремальным. С чего я это взял? Позвольте объясниться.

Если главная задача организации – решить некую бизнес-проблему путем внедрения операционной аналитики, ее не должно волновать определение больших данных. И вот почему. Схема действий, которой должна следовать организация и которой она, вероятно, следовала много лет в прошлом, очень проста. Если у вас есть проблема, требующая решения, вы должны посмотреть вокруг и задать себе вопрос: «Какие данные, если их собрать, организовать и использовать для аналитического процесса, помогут нам решить эту проблему?» Когда вы определите, что это за данные, вы должны придумать, как их собрать, организовать и включить в аналитику. Но тут возникает ключевой момент. Вопрос «Полезны ли эти данные для моего бизнеса?» не имеет абсолютно никакого отношения к определению больших данных. Полезными для бизнеса могут оказаться большие данные, малые данные или же ряд электронных таблиц.

Если же организация придет к пониманию, что ей необходимо использовать нечто похожее на большие данные, то беспокоиться насчет определения будет уже поздно: нужны будут данные как таковые. Они могут быть не очень хорошо структурированными и в переизбытке. Они могут просто соответствовать знаменитой концепции «трех V»: Volume, Variety, Velocity (объем, многообразие, скорость), выведенной исследовательской компанией Gartner{10}. Однако знание того, что нужные вам данные соответствуют концепции «трех V», бесполезно, поскольку в момент, когда данные вам понадобятся, не останется иного выбора, кроме как придумать способ их использования, – и совершенно не важно, являются ли они большими данными. Я всегда считал, что в концепции не хватает самой важной V, которая часто упускается из виду, а именно Value, т. е. ценности больших данных{11}. Можно добавить и прочие характеристики, если веришь, что в данных есть ценность, и считаешь, что усилия по их сбору и анализу того стоят.

Важно не определение, а результат

Даже если бы существовало общепринятое и единственное определение больших данных, это ничем бы не способствовало решению проблем бизнеса. Попытка дать определение большим данным – занятное теоретическое упражнение, но если вы узнáете, что конкретный источник данных официально относится (или нет) к категории больших данных, то в этом не будет никакого проку. Когда потребуется проанализировать источник данных, вам придется найти для этого способ вне зависимости от того, какой ярлык вы к нему прикрепите.

Поймите мои слова правильно. Если организация имеет дело с данными, подпадающими под типичные определения больших данных, это, безусловно, будет влиять на выбор тех методов и инструментов, которые она должна использовать для включения больших данных в аналитические процессы. Однако выбор методов и инструментов относится уже к области тактики, и в этом важное отличие. В первую очередь нужно ответить на стратегический вопрос: «Содержат ли эти данные важную для нас информацию?» Только получив на него положительный ответ, организация может приступить к запуску данных в работу.

Не тратьте силы на попытки понять, относятся ли нужные вам данные к категории больших данных или нет. Лучше сосредоточьтесь на включении выявленных вами значимых источников данных в аналитические процессы организации.

Начните с правильного подхода

Как следует из вышесказанного, важно начать с правильного подхода. Нет смысла собирать данные и хранить их в надежде на то, что однажды им будет найдено полезное применение. Как показано на рис. 2.1, организация должна для начала определить бизнес-проблему, а затем подобрать для нее необходимые данные. Сделайте усилие и примите на себя расходы по приобретению и использованию источника данных, когда это станет необходимо. В мире больших данных очень легко удариться в собирательство всех данных подряд с прицелом на то, что когда-нибудь они пригодятся. В результате организация может настолько увлечься сбором данных, что никогда ими и не воспользуется.

вернуться

10

См.: “Gartner IT Glossary”, www.gartner.com/it-glossary/big-data/. Также см.: Svetlana Sicular, “Gartner’s Big Data Definition Consists of Three Parts, Not to Be Confused with Three ‘V’s,” Forbes, 27 марта 2013 г., на www.forbes.com/sites/gartnergroup/2013/03/27/gartners‐big‐data‐definition‐consists‐of‐three‐partsnot‐to‐be‐confused‐with‐three‐vs/

вернуться

11

См. мою статью «Определение больших данных: пропущенное “V” (“Defining Big Data: The Missing ‘V’”), IT Briefcase, 2 августа 2012 г., www.itbriefcase.net/defining-big-data-the-missing-v