Что любопытного в этих цифрах? Деньги, возвращенные Синтии Мёрфи ($30 800), эквивалентны максимальному годовому взносу, который может внести частное лицо в пользу комитетов национальной партии. Возможно, она хотела объединить два взноса в одну транзакцию, но ей было отказано. Деньги, возвращенные Стивену Джеймсу Дэвису ($25 800) теоретически равны разнице между $30 800 и $5 000 (максимально возможный взнос в любой другой политический комитет).
Еще один любопытный вывод из последнего графика – это горизонтальная линия, показывающая взносы республиканским кандидатам: от $5 000 до $2 500. Для большей наглядности я изобразил только взносы кандидатам–республиканцам. Получившийся график – это отличный пример выявления закономерностей, которые иначе не удалось бы обнаружить.
Рис 74. Removing outliers 2 (Gregor Aisch)
Мы видим, что многие кандидаты–республиканцы получили взносы по $5 000. При более близком рассмотрении видно, что таких взносов 1234, т.е. только 0,3% от общего числа взносов. Но так как взносы равномерно распределены во времени, просматривается линия. Интересно то, что частные взносы ограничены суммой в $2 500. Следовательно, каждый доллар сверх лимита был возвращен спонсору, в результате чего возникла вторая линия на уровне –$2 500. Такая закономерность не прослеживается, если проанализировать взносы в пользу Барака Обамы.
Рис 75. Removing outliers 3 (Gregor Aisch)
Таким образом, было бы интересно выяснить, почему тысячи спонсоров кандидатов–республиканцев не знали об ограничении, существующем для частных взносов. Для дальнейшего анализа рассмотрим общее количество взносов в размере $5 000 на каждого кандидата.
Рис 76. Donations per candidate (Gregor Aisch)
Конечно, это не совсем точная картина, так как не учитывается общее количество взносов каждому кандидату. Следующий график показывают долю взносов в сумме $5 000 на каждого кандидата.
Рис 77. Where does the senator’s money come from?: donations per candidate (Gregor Aisch)
Какой можно сделать вывод
Зачастую подобный наглядный анализ нового массива данных кажется очень увлекательным путешествием в незнакомую страну. Вы – чужеземец, при вас только данные и предположения, но с каждым шагом, с каждым новым графиком вы все больше вникаете в вопрос. На основе полученных выводов вы предпринимаете новые шаги, решаете, какие вопросы требуют более тщательного изучения. Как становится ясно из этой главы, процесс визуализации, анализа и преобразования данных можно повторять практически бесконечно.
Исходный код
Все графики, изображенные в этой главе, были созданы с помощью очень полезного и эффективного инструмента R. Создавался он главным образом как инструмент визуального представления научных данных, но трудно найти способ визуализации или извлечения данных, который бы не был уже предусмотрен в R. Для тех, кто интересуется работой с R, я даю ссылки на исходные коды графиков, представленных в этой главе. Существует также множество книг и руководств по этой программе.
Точечная диаграмма: взносы на каждого кандидата
График: все взносы за период времени
График: взносы от уполномоченных комитетов
— Грегор Эйш Open Knowledge Foundation
Представление данных
Представление данных общественности
Существует много разных способов представить ваши данные общественности — начиная с публикации наборов исходных данных вместе с информационно–аналитическими материалами, и заканчивая созданием красивых визуализаций и интерактивных веб–приложений. Мы попросили ведущих журналистов, работающих с данными, обозначить подсказки и дать советы по поводу того, как представлять данные общественности.
Визуализировать или не визуализировать?
Бывают случаи, когда данные могут рассказать историю и передать суть материала лучше слов или фотографий, вот почему такие термины как «новостное приложение» и «визуализация данных» получили статус своего рода модного словечка в столь многих ньюсрумах в последнее время. Также подпитывает интерес и небывалый урожай новых инструментов и технологий (зачастую, свободно распространяемых и бесплатных), предназначенных для того, чтобы помочь даже самым продвинутым журналистам данных создать проект в области визуализированной подачи материала.
Такие инструменты как таблицы Google Fusion (Google Fusion Tables), Many Eyes, Tableau, Dipity, и другие, облегчают задачу, будь то создание карт, графиков, диаграмм, или даже полноценных и полномасштабных приложений по работе с данными, которые до того были исключительно прерогативой специалистов. В результате в условиях, когда барьер для входа в эту область ныне уменьшился до размеров дорожного полицейского, перед журналистами теперь встал вопрос не столько о том, как превратить ваш набор данных в визуализацию, сколько о том, стоит ли это делать. Плохая визуализация данныххуже во многих отношениях, чем никакой визуализации.
— Арон Пилхофер, New York Times
Использование анимированной графики
С четким, жестким сценарием, четко размеченной по времени анимацией и ясными объяснениями, анимированная графика может отлично служить решению задачи оживления сложных цифр или идей, может направлять вашу аудиторию по ходу освоения ею вашего сюжета или материала. Видео–лекции Ханса Рослинга (Hans Rosling) могут служить хорошим примером того, как данные могут воплотиться в жизнь, ожить и заиграть новыми красками, чтобы рассказать основанную на цифрах историю. И вы бы не стали, или вам не следовало бы, представлять эту графику в виде статичной картинки. Там слишком много всего происходит. А когда это выстраивается и монтируется шаг за шагом, у вас остается понимание того, как и когда авторы пришли к этому показателю. С анимированной графикой и анимированными короткими роликами вы можете усилить то, что слышит ваша аудитория из озвучки, путем объясняющих все видео– и визуализаций, что дает в итоге очень мощный и запоминающийся способ создания сюжета и рассказа истории.
— Лулу Пинней,BBC
Повествуя всему миру
Наш рабочий процесс обычно начинается в Excel. Это очень простой способ быстро выяснить и решить, есть ли в данных что–нибудь интересное. Если у нас появляется ощущение, что в них что–то есть, тогда мы уже идем в редакцию информационного отдела. Нам правда повезло, так как мы сидим прямо рядом с основным новостным отделом в Guardian. Потом мы смотрим, как нам стоит визуализировать эти данные или показать их на странице. Потом мы пишем пост, который сопровождает данные. Когда я пишу, у меня обычно открыта сокращенная версия таблицы рядом с текстовым редактором. Часто я провожу небольшой анализ, когда пишу, чтобы выделить и отметить наиболее интересные моменты. Потому я публикую пост и трачу некоторое время на то, чтобы написать твит о нем, при этом пишу разным людям, и в итоге удостоверяюсь, что на этот пост есть ссылки изо всех нужных мест.
Половина трафика для некоторых из наших постов идет с «Твиттера» или с «Фэйсбука». Мы весьма гордимся тем, что среднее количество времени, которое пользователи проводят в статье в Datablog, составляет 6 минут, по сравнению с одной минутой в среднем для остальной части вебсайта Guardian. Шесть минут это весьма хороший показатель, а время, проведенное пользователем на странице, является одним из ключевых индикаторов при анализе нашего трафика.
Это также помогает убедить наших коллег в ценности и полезности того, что мы делаем. Это, а также большие основанные на данных сюжеты и материалы, которые мы создали, и которые знакомы каждому в ньюсруме: COINS, Wikileaks и британские волнения. Для проекта данных по расходам COINS у нас было 5–6 спецкорреспондентов в Guardian, которые работали над тем, чтобы представить свою точку зрения на данные, когда они были обнародованы британскими властями. У нас также была команда из еще 5–6 человек, которая работала на проектом, посвященным расходам британского правительства в размере свыше 25 000 фунтов стерлингов — в эту команду входили также хорошо известные журналисты, такие как Полли Кертис (Polly Curtis). Данные Wikileaks также совершенно очевидно были очень большими — множество историй об Ираке и Афганистане. Проект по беспорядкам в Британии также был очень большим, и набрал более 550 000 «хитов» всего за два дня.