Мало кто знает, что работать с данными в конечном итоге означает быть рассказчиком, передающим информацию. Так же, как и структурные компоненты историй, проекты по анализу и обработке данных тоже организованы логически. В книге «Работа с данными в любой сфере» четко выделяются пять этапов, которые составляют то, что я называю процессом обработки и анализа данных. Это не единственный подход, который можно использовать, но он обеспечит нашему проекту связь с практикой и продвижение к логическому завершению. И он четко и ясно структурирован, что мне так нравилось в детстве.
И вот я решил рассказать историю данных…
Но я абсолютный новичок
Наука о данных фактически является одной из тех областей, которые извлекают выгоду из опыта других сфер. Я надеюсь, что многие мои читатели уже весьма преуспели в той или иной профессии. Хорошо. Вы ничего не потеряете, если обратитесь к науке о данных, работая в другой области. Отнюдь не вредно для начала разбираться в чем-то еще. Это своего рода фундамент, который вам пригодится, чтобы стать хорошим аналитиком данных.
Начав работать в транснациональной консалтинговой компании Deloitte, я не знал ни одного из алгоритмов, которые мы рассмотрим в этой книге. Да никто от меня этого и не ожидал. Совсем немногие начали свою карьеру с науки о данных. Прочитав книгу, вы обнаружите, что те, кто добился успеха в этой сфере, даже не думали о ней, пока находились в начале своей карьеры. Итак, отбросьте страх перед цифровой неграмотностью – взяв эту книгу, вы сделали первый шаг на пути в мир науки о данных.
Эй, а где код?
Если вы, как и я, пролистываете книгу, прежде чем приступить к чтению, то, возможно, заметили, что вам не встретилось ни одной строки кода. Я слышу, как вы говорите: «Но это ведь книга о науке о данных, так что же происходит?» Наука о данных – чрезвычайно широкий предмет. «Работа с данными в любой сфере» погружает вас в тему и вдохновляет на размышления о том, как эта дисциплина может быть включена в вашу текущую или будущую деловую практику. Вы узнаете методы науки о данных – потому что ее «ингредиенты» (код) легко доступны онлайн. Если воспользоваться аналогией с приготовлением пищи, перед вами в меньшей степени просто книга рецептов и в большей – подробная информация об основных методах, используемых в науке о данных. Изучите их тщательно, и вы начнете интуитивно понимать, почему вам нужно применять определенные коды и методы, – гораздо более эффективный подход к обучению, чем просто предоставление строк кода для подключения к вашему проекту.
Как пользоваться этой книгой
Я написал эту книгу специально для того, чтобы вы могли обратиться к ней, где бы вы ни находились – в поезде, в ванне, в ожидании человека своей мечты. Читайте ее по частям или в один присест, по главам, выбирая самое лучшее, выделяя нужное желтым маркером, наклейками. В начале каждой части вы найдете краткое введение, помогающее быстро определить, какая глава окажется для вас наиболее интересной. Часть первая более объемна, она дает общее представление о науке о данных. Вторая и третья части сосредоточены на процессах анализа и обработки данных, интуиции, стоящей за некоторыми из самых мощных на сегодняшний день аналитических моделей, и на том, как повысить ваши шансы на успех, совершая первые шаги в направлении цели.
Если вы новичок, то получите максимальную отдачу от книги, прочитав ее от корки до корки. Если вы знакомы с наукой о данных как с дисциплиной и хотите добраться до сути того, как применять ее методы, не стесняйтесь обратиться к главе, которая вам больше всего поможет.
Часть первая
«Что это?» Ключевые принципы
Учитывая очевидно безграничный потенциал технических и прикладных наук и связанные с ними широкие возможности для умелых предпринимателей, некоторые могут спросить, почему они вообще должны заниматься наукой о данных – почему бы просто не изучить технологические принципы? В конце концов, технологии управляют миром и не выказывают никаких признаков сдачи позиций. Любой читатель, заботящийся о своей карьере, может подумать, что научиться разрабатывать новые технологии, несомненно, будет наилучшим способом двигаться вперед.
Легко расценивать технологии как фактор, который меняет мир, – они дали нам персональный компьютер, интернет, искусственные органы, беспилотные автомобили, глобальную систему позиционирования (GPS), – но мало кто думает о науке о данных как о движущей силе многих из этих изобретений. Вот почему вам стоит прочитать именно эту книгу, а не книгу о технологиях: вам нужно понять, как работает система, чтобы внести в нее изменения.