Думаю, эта книга акцентирует внимание именно на том, на чем нужно. Она в первую очередь посвящена эффективному анализу больших объемов данных, а не управлению ими. Она начинается с данных и переходит к таким темам, как фреймовое представление решения, построение аналитического центра и создание аналитической культуры. Разумеется, здесь упоминается об управлении большими данными, однако основное внимание уделено созданию, организации, подбору персонала и воплощению аналитических инициатив, которые позволяют извлечь из входных данных пользу.
На тот случай, если вы этого не заметили: в настоящее время тема аналитики крайне актуальна в бизнес-среде. Я занимался в основном вопросами конкуренции компаний в области аналитики, и мои книги и статьи по этой теме были самыми популярными из всех, что я когда-либо писал. Конференции на тему аналитики проводятся повсеместно. У таких крупных консалтинговых фирм, как Accenture, Deloitte и IBM, имеется большой практический опыт в этой области. Многие компании, государственные и даже некоммерческие организации сделали аналитику своим стратегическим приоритетом. Сегодня наблюдается повышенный интерес к проблеме больших данных, однако в центре внимания должны по-прежнему оставаться способы приведения этих данных в форму, позволяющую проанализировать их и использовать в процессе принятия решений.
Билл Фрэнкс находится в уникальном положении: он может описать пересечение области больших данных и аналитики. Его компания Teradata, в отличие от других поставщиков систем хранения данных, всегда была максимально сосредоточена именно на анализе данных и извлечении из них пользы для бизнеса. И хотя компания хорошо известна как поставщик корпоративных инструментов для хранения данных, Teradata в течение многих лет также предоставляла набор аналитических приложений.
За последние несколько лет Teradata наладила тесное партнерство с SAS – ведущим поставщиком аналитического программного обеспечения – для разработки высокомасштабируемых инструментов проведения анализа больших баз данных. Эти инструменты, которые часто подразумевают встроенный анализ в среде хранилища данных, предназначены для таких мощных аналитических приложений, как системы обнаружения мошенничества в режиме реального времени и крупномасштабного скоринга[1] покупательского поведения потребителей. Билл Фрэнкс – скоринг-директор по аналитике этого партнерства и поэтому имеет доступ к идеям и опыту в области проведения крупномасштабного анализа и «обработки в базе данных». Вероятно, лучшего источника на эту тему просто не существует.
Так что же еще особенно интересного и важного содержится в этой книге?
• Глава 1 включает в себя обзор концепции больших данных и объясняет, что «размер не всегда имеет значение». На протяжении всей книги Фрэнкс отмечает, что большая часть данных вообще бесполезна и очень важно уметь отфильтровывать ненужные данные.
• Обзор источников больших данных в главе 3 – интересный, полезный и необыкновенно подробный каталог. Подход к веб-данным и веб-аналитике в главе 2 может заинтересовать людей и организации, которые стремятся понять поведение потребителей, совершающих покупки через интернет. Этот подход выходит далеко за рамки обычной веб-аналитики, ориентированной на отчетность.
• Глава 4, посвященная «эволюции масштабируемости аналитических систем», представит вам технологические платформы для больших данных и аналитики с такой точки зрения, которую вы больше нигде не найдете. В ней автор также описывает такие современные технологии, как MapReduce, и разумно утверждает, что анализ больших данных потребует использования комбинации сред.
• Эта книга содержит ультрасовременные сведения о том, как создавать аналитические среды и управлять ими, – эти сведения вы также нигде больше не найдете. Если вы хотите познакомиться с новейшими размышлениями на тему «аналитических песочниц» и «аналитических наборов данных предприятия» (это была новая для меня тема, однако теперь я знаю, что они собой представляют и какое значение имеют), вы найдете их в главе 5, которая также содержит важные замечания по поводу необходимости в системах и процессах управления моделями и скорингом.
• В главе 6 рассматриваются доступные сегодня типы аналитического программного обеспечения, в том числе программной среды R с открытым исходным кодом. Обычно очень трудно найти здравое рассуждение о сильных и слабых сторонах различных аналитических сред, однако здесь оно представлено. И наконец, описание методов анализа будет понятно даже далеким от техники людям.
• Третья часть книги сосредоточена на том, как управлять человеческим и организационным аспектами аналитики. В этом автор также опирается на здравый смысл. Мне, например, особенно понравился акцент на фреймовом представлении проблем и решений в главе 7. Слишком многие аналитики принимаются за анализ, не задумываясь о более важных вопросах, связанных с постановкой проблемы.
• Недавно меня спросили, описывал ли кто-нибудь, кроме меня, аналитическую культуру. Я сказал, что не знаю, однако это было до того, как я прочитал четвертую часть книги Фрэнкса. Она связывает аналитическую и инновационную культуру так, как никто прежде этого не делал.
Хотя книга содержит технические сведения, она доступна для широкой аудитории, в том числе для людей с ограниченными техническими познаниями. Совет Фрэнкса по поводу инструментов для визуализации данных касается всей книги: «Чем проще, тем лучше. Прибегайте к усложнению только в случае крайней необходимости».
Если ваша организация собирается заняться аналитикой – а так и должно быть! – вам придется столкнуться со многими аспектами, затронутыми в этой книге. Даже если вы не специалист в технических вопросах, необходимо ознакомиться с некоторыми темами, связанными с обеспечением аналитических возможностей компании. Если же вы как раз являетесь техническим специалистом, то многое узнаете о человеческом аспекте аналитики. Если вы читаете это предисловие в книжном магазине или просматриваете описание книги на сайте, смело покупайте ее. Если вы ее уже купили, немедленно приступайте к чтению!
Введение
Вы получили электронное письмо: вам предлагают приобрести персонализированную компьютерную систему. Кажется, магазин прочитал ваши мысли, поскольку всего несколько часов назад вы просматривали информацию о компьютерах на его сайте…
Вы отправились в магазин за компьютером, и по пути поступает предложение купить со скидкой кофе в кофейне, мимо которой вы проезжаете: можете получить 10 %-ную скидку, если заедете в течение ближайших 20 минут…
Пока пьете кофе, приходит извинение от производителя товара, на качество которого вы пожаловались вчера на своей странице в Facebook, а также на сайте компании…
Наконец, возвращаетесь домой, а вас ждет предложение приобрести специальную броню для вашей любимой онлайн-видеоигры, которая поможет пройти некоторые места, на которых вы застряли…
Звучит неправдоподобно? Думаете, это картины далекого будущего? Нет, эти сценарии возможны уже сегодня! Большие данные. Передовая аналитика. Аналитика больших данных. Кажется, что сегодня уже не обойтись без этих понятий. Люди обсуждают, пишут и продвигают идеи больших данных и передовой аналитики. Теперь к их суждениям можно добавить и эту книгу.
1
Скоринг (англ. score – подсчет очков) – система оценки кредитоспособности, в основу которой положены численные статистические методы обработки анкет потенциальных заемщиков. Суть ее в том, что за каждую позицию анкеты («стаж работы» или «количество детей») потенциальный заемщик получает некое количество баллов. В зависимости от суммы набранных баллов принимается решение об одобрении или отказе в выдаче кредита.