Для редактора новостей и журналиста, работающего с графикой, это было логическим продолжением и расширением работы, которую я уже делал, аккумулируя новые наборы данных и споря с ними в попытке разобраться и увидеть смысл в новостных сюжетах дня.
На вопрос, который мне задавали, уже был у нас ответ. Это были невероятные несколько лет для общедоступных данных. Обама своим первым законодательным актом открыл хранилища данных американского правительства, и за ним последовали сайты правительственных данных по всему миру – в Австралии, в Новой Зеландии, и британский портал правительственных данных Data.gov.uk.
У нас был скандал с расходами парламентариев – самый неожиданный пример журналистики данных в Британии – а его итогом стало то, что английский парламент стал приверженцем публикации огромных объемов данных каждый год.
У нас были всеобщие выборы, на которых каждая из ведущих политических партий была привержена идее прозрачности в том, что касается данных, открывая наши собственные хранилища данных для доступа всего мира. Наши газеты посвящали ценнейшие абзацы и места на полосах раскрытию информации из базы данных казначейства COINS.
В то же самое время, по мере того как интернет выдает все больше и больше данных, читатели со всего мира начинают гораздо больше, чем раньше, интересоваться исходными данными, которые лежат в основе тех или иных сюжетов и информационных материалов. Когда мы запускали Datablog, мы думали, что его основную аудиторию составят разработчики, конструирующие приложения. Но на самом деле основную аудиторию проекта составили простые люди, которые хотели больше знать о выбросах СО2 или о восточноевропейской иммиграции или о росте смертельных случаев в Афганистане, или даже о том, сколько раз группа Beatles использовала слово «любовь» (love) в своих песнях (613).
Постепенно работа Datablog’а дала результат и начала вносить свой вклад в сюжеты, которые мы готовили и с которыми сталкивались. Мы осуществили поиск по 485 000 документов, имеющих отношение к расходам парламентариев, и проанализировали подробную информацию о том, какие парламентарии что говорили и заявляли. Мы помогли нашим читателям исследовать и изучить подробные базы данных о расходах Министерства финансов и опубликовали данные в дополнение к новостям.
Но фактором, который без преувеличения стал переломным моментом для журналистики данных, стала одна таблица, появившаяся весной 2010 года: 92 201 строчка данных, каждая из которых содержала подробный расклад какого–то военного события в Афганистане. Это были документы о войне, раскрытые WikiLeaks. Часть первая, кстати говоря. За которой последовали еще две – документы о войне в Ираке и дипломатические депеши. Официальный термин для обозначения первых двух частей – SIGACTS: База данных американского военного ведомства о значимых действиях.
В информационных организациях очень важна география – и близость к редакции. Если вы близки к ней, легко предлагать сюжеты и быть частью процесса; и наоборот, если вы физически далеко, то и обо всем остальном в плане проявления активности можно забыть. До появления массивов документов от WikiLeaks мы сидели на разных этажах с графической службой. Со времен WikiLeaks мы поселились на одном этаже, и прямо рядом с редакционным блоком. Это означало, что нам стало легче предлагать и продвигать свои идеи, а журналистам в ньюсруме стало проще просить нас о помощи при подготовке сюжетов и материалов.
Еще не так давно журналисты были блюстителями и цензорами официальных данных. Мы писали сюжеты о цифрах и выдавали их благодарной публике, которая не интересовалась исходной статистикой. Идея о том, что мы можем поделиться с кем–то нашими исходными данными, выдать их для публикации в наших газетах, была просто кощунственной, по крайней мере, это казалось точно чем–то невообразимым.
Сейчас данная динамика изменилась до неузнаваемости. Наша роль начинает заключаться в том, чтобы служить переводчиками, помогая людям понимать данные – и даже просто публикуя их потому, что они интересны сами по себе.
Но цифры без анализа – это просто цифры, и тут нам стоит вмешаться. Когда британский премьер–министр заявил, что беспорядки августа 2011 года не были связаны с проблемой нищеты, мы смогли составить карту, нанеся на нее адреса участников беспорядков и наложив информацию об уровне бедности по этим адресам, чтобы продемонстрировать правду, стоящую за этим заявлением.
Ну и наконец, важно то, что сюжеты и материалы из области журналистики данных – это процесс. Наполнение в них все время меняется, по мере того, как мы используем новые методы, новую технику, новые инструменты. Некоторые говорят, что главной фигурой становится своего рода супер–программист, пишущий код и погружающийся в SQL. Можно решить использовать и такой подход. Но значительная часть работы, которую мы делаем, выполняется просто в Excel.
Прежде всего, мы определяем и дислоцируем данные, или получаем их из разных источников, из срочных новостей, из правительственных данных, из результатов журналистских поисков, и так далее. Затем мы начинаем анализировать, что мы можем сделать с данными – и нужно ли нам объединить их с другим массивом данных? Как мы можем продемонстрировать происходящие с течением времени изменения? Эти таблицы часто приходится серьезно отчищать – все эти посторонние столбцы и странным образом объединенные ячейки на самом деле не помогают. И это еще мы исходим из того, что это не PDF – наихудший формат представления данных из всех, известных человечеству.
Часто официальные данные поступают с добавленными к ним официальными кодами – каждая школа, больница, избирательный округ и местный орган власти имеют свой уникальный идентификационный код.
У стран они тоже есть (код Великобритании, например – GB). Они полезны, потому что вы можете захотеть начать смешивать базы данных, соединяя их, и тогда по–настоящему впечатляет – насколько же много различных вариантов произношения, написания и сочетания слов может встретиться вам на этом пути. Например, это Бирма и Мьянма, или округ Файетт в США – таковых округов, под одинаковым названием, в стране 11 – в самых разных штатах, от Джорджии до Западной Вирджинии. Коды позволяют нам сравнивать подобное с подобным.
В конце этого процесса получаем результат; будет ли это сюжет, или графический проект, или визуализация, и какие инструменты мы будем применять? Нашими основными инструментами являются бесплатные инструменты, с помощью которых мы можем что–то сделать быстро. Более сложную графику делает наша команда разработчиков.
Что означает, что чаще всего мы пользуемся Google Charts для небольших графиков и диаграмм или Google Fusion Tables для быстрого и легкого создания карт.
Все это может показаться новым, но на самом деле таковым не является.
В самом первом выпуске Manchester Guardian, который вышел в свет в субботу, 5 мая 1821 года, новости были на последней странице, как у всех газет в тот день. А первым номером на первой странице было большое объявление о пропавшем лабрадоре.
И, помимо сюжетов и поэтических отрывков, треть последней страницы занимают, ну, скажем так, факты. Всеобъемлющая таблица стоимости обучения в школах в районе никогда ранее «не выкладывалась на обозрение общественности», — пишет «NH».
NH хотел, чтобы его данные были опубликованы, потому что в противном случае факты будут оставлены на долю неподготовленных священнослужителей. Его мотивация заключалась в том, что «та информация, которая в них содержится, является ценной; потому что, без знаний о той степени, в которой образование… преобладает, даже самое лучшее мнение, которое можно будет составить о состоянии и будущем прогрессе общества, обязательно будет неверным». Другими словами, если люди не знают, что происходит, как может общество становиться лучше?