Читать онлайн "Пособие по журналистике данных" - Грей Д. - RuLit

Мы запросили у базы данных названия табачных компаний и производителей табака. Выяснилось, что компания British American Tobacco получает полтора миллиона евро за фабрику в Германии.

Так как правил затрат Комиссии исключают финансирование, мы очень быстро нашли повод для статьи.

Никогда не знаешь, какую информацию можно будет получить из массива данных, поэтому будьте внимательны. Нужно быть очень предприимчивым, так как лучше всего этот метод подходит для определения очевидных характеристик, которые выявятся в процессе сортировки (самые большие или предельные значения, наиболее часто встречающиеся и т.п.).

— Селейн Барр, Citywire

Данные в статье

Иногда складывается впечатление, что журналистика данных заключается исключительно в представлении данных – визуализации, которая быстро и наглядно передает содержание цифр, или интерактивных базах данных с функцией поиска, которые позволяют, скажем, найти улицу или больницу в районе. Все это, конечно, может быть полезно, но, как и другие виды журналистики, журналистика данных предполагает написание статьи. Так какие статьи можно написать о данных? На основе моего опыта работы в BBC, я составил «типологию» статей, представляющих данные.

Думаю, стоит иметь в виду этот список – не только в процессе анализа данных, но и на стадии их сбора (ищете ли вы данные в свободном доступе или компилируете широкий набор информационных запросов).

1. Измерение

Простейшая история ; подсчет или подведение итога: «В прошлом году муниципалитеты потратили на скрепки Х миллиардов фунтов».

Зачастую сложно понять, много это или мало. Нужен контекст, который можно дать при помощи:

2. Соотношения

«В прошлом году муниципалитеты закупили скрепок на две трети своего бюджета на канцтовары»

3. Внутреннего сравнения

«Муниципалитеты тратят больше денег на скрепки, чем на передвижную кухню для престарелых»

4. Внешнего сравнения

«Муниципальные затраты на скрепки в прошлом году в два раза превысили государственный бюджет помощи иностранным государствам»

5. Изменение во времени

«Муниципальные затраты на скрепки за последние четыре года выросли втрое»

6. Ранжирования

Ранжировать можно по географическому местоположению или по учреждениям, но убедитесь, что основание для сравнения справедливо (например, учитывает численность местного населения).

«Муниципалитет Борсетшира тратит на скрепки для сотрудников больше, чем другие органы власти, и в четыре раза выше, чем тратится в среднем по стране».

Вы также можете разделить субъекты данных по группам:

7. Анализа по категориям

«Муниципалитеты Красной партии тратят на скрепки в 1,5 раза больше, чем муниципалитеты Желтой партии».

Вы можете соотнести факторы с помощью цифр

8. Ассоциаций

«Муниципалитеты, возглавляемые политиками, получившими взносы от производителей канцтоваров, тратят на скрепки больше, и на каждый фунт взноса приходится в среднем сто фунтов затрат»

Разумеется, не забывайте, что корреляция и причинная зависимость – не одно и то же.

Поэтому, изучая затраты на скрепки, получаете ли вы следующие цифры?

 Общие затраты для контекста

 Сортировку по географическим/историческим/иным факторам, чтобы получить сравнительные данные

 Дополнительные данные, чтобы обеспечить справедливость сравнения (например, численность населения)

 Другие данные, которые могут стать основой любопытного анализа, и с которыми можно сравнить или соотнести затраты

— Мартин Розенбаум, ВВС

Журналисты, работающие с данными, обсуждают выбранные инструменты

Шршршр. Вот с таким звуком ваши данные сыплются из герметичной упаковки. Что теперь? Что вы ищите? Какие инструменты вы используете, чтобы начать работу? Мы попросили журналистов, работающих с данными, рассказать о том, как они работают. Вот что они ответили.

В блоге «Guardian Datablog» мы любим общаться с читателями. Мы позволяем им копировать наши исследования, а значит, они могут написать что–то на основе нашей работы и иногда подметить то, что от нас ускользнуло. Мы стараемся выбирать инструменты, которые может легко освоить любой без изучения языков программирования, без специального обучения или бьющей по карману лицензионной платы.

Именно по этой причине мы сейчас используем продукты Google. Все массивы данных, которые мы чистим и публикуем, доступны в формате Google Spreadsheet, а значит, пользователи, имеющие аккаунт в Google, смогут скачать данные, импортировать в свой аккаунт и составить собственные графики, отсортировать данные и создать сводные таблицы, либо импортировать данные в ту программу, которую они предпочитают использовать.

Для преобразования данных мы используем таблицы Google Fusion. Когда мы создаем теплокарты в Fusion, то расшариваем свои шейп–файлы KML, чтобы читатели смогли скачать их и создать свои теплокарты, может быть, добавив дополнительные слои данных на первоначальную карту Datablog. Еще одно преимущество инструментов Google – они работают на множестве платформ, с которых наши читатели заходят на наш блог (настольный компьютер, мобильные устройства, планшетники).

Помимо таблиц Google и Fusion мы используем в своей работе еще два инструмента. Первый – это планшет для визуализации многомерных массивов данных. Второй – это ManyEyes для быстрого анализа данных. Они, конечно, не совершенны, поэтому мы продолжаем искать более подходящие средства визуализации, которые понравятся нашим читателям.

The Guardian— Лиза Эванс

Буду ли я когда–нибудь программистом? Очень сомневаюсь! Не думаю, что журналистам обязательно уметь программировать. Но полезно представлять возможности программистов, чтобы уметь правильно поставить задачу.

На начальном этапе действуйте аккуратно. Сначала нужно убедить коллег и редакторов, что для работы над статьей вам необходимы данные и игра стоит свеч. Когда они поймут ценность такого подхода, вы можете расширить свою работу до более сложных статей и проектов.

Рекомендую научиться работать в Excel, чтобы сначала выполнять простые операции с данными. Постепенно переходите к анализу баз данных и созданию теплокарт. В Excel столько можно сделать. Это очень полезный инструмент, и большинство людей не знают и половины его возможностей. При случае пойдите на курс работы в Excel для журналистов (такой, например, предлагают в Центре журналистских расследований).

Что касается интерпретации данных: все не так просто. Будьте внимательны ко всем деталям, подвергайте сомнению результаты. Записывайте наблюдения по работе с данными, храните копию оригинальных данных. Очень просто совершить ошибку. Я всегда провожу анализ два или три раза, причем практически с начала. Еще лучше – привлеките редактора или другого коллегу проанализировать данные отдельно от вас и сравните результаты.

Financial Times— Синтия О’Мурчу

Раньше от журналиста не требовалось одновременно уметь писать и так же быстро использовать сложные программы. Раньше работа с данными отнимала у журналистов гораздо больше времени. Все изменилось благодаря развитию двух открытых и бесплатных фреймворков: Django и Ruby on Rails, которые были разработаны в 2000–е годы.

Django, написанный на языке Python, разработал Адриан Головатый и журналисты оперативных выпусков The Lawrence Journal–World в г. Лоуренс, штат Канзас. Ruby on Rails был разработан в Чикаго Дэвидом Хайнемайером Ханссоном и компанией–разработчиком веб–приложений 37Signals.

Хотя фреймворки используют разные подходы к модели MVC, они оба отлично подходят для быстрой разработки даже очень сложных веб–приложений. Они освобождают от самой первичной работы по созданию приложений. В них уже встроены функции создания и переноса данных из баз, сопоставление URL с кодами в приложении, поэтому у разработчиков нет необходимости писать код для таких элементарных вещей.