Если я скажу вам, что люди стали больше пить во время кризиса, вы можете ответить, что причина заключается во всеобщей депрессии. Если я скажу вам, что люди стали пить меньше, вы можете ответить, что у всех просто кончились деньги. Иными словами, сами по себе данные не оказывают никакого влияния на то, как вы собираетесь их интерпретировать, а именно, если вы собираетесь сказать, что все ужасно так или эдак. Если пить стали больше — плохо, если пить стали меньше — плохо. Я хочу сказать, что если вы верите в данные, то старайтесь понять их до того, как на них наложится ваше настроение, убеждения или ожидания. Вокруг нас столько данных, что очень часто вы сможете находить подтверждения своим давним убеждениям, просто оглянувшись вокруг. Другими словами, журналистика в сфере данных, по крайней мере на мой взгляд, имеет мало смысла, если вы отличаетесь предвзятостью. Она настолько объективна, насколько вы стремитесь к этому, ее объективность определяется не лежащими в ее основе цифрами.
Неопределенность — это не страшно. Мы ассоциируем данные с авторитетом и точностью. Но бывает так, что ответ заключается в том, что ответа нет, либо ответ может быть самым лучшим из возможных, и все равно не отличаться точностью. Я считаю, что мы должны говорить об этом. Если вам покажется, что такой подход просто убьет все возможные статьи, я возражу, сказав, это замечательный способ поднять новые темы. И еще, зачастую существует много законных способов обрезать данные. Цифры не обязательно должны представлять собой либо правду, либо неправду.
Статью можно сделать из самого расследования. История о том, как вы пытались получить результат, как переходили от одних свидетельств к другим, может стать настоящим произведением журналистики — особенно когда речь идет о свидетельствах, основанных на данных. Различные источники предлагают новые точки зрения, новые идеи, более широкое понимание. Интересно, не стремимся ли мы быть излишне авторитетными, давая людям готовые ответы — что приводит к тому, что мы упускаем возможность показать сам процесс расследования.
Самые хорошие вопросы — это проверенные вопросы: это действительно важные цифры? Откуда они взялись? Вы уверены, что они обозначают то, что вы думаете? Это всего лишь подсказки о том, как следует размышлять о данных, о первых выводах, сделанных на основании какой–то одной цифры, о трудностях реальной жизни, о широком ряде других потенциальных сравнений по времени, группе или географии — короче говоря, о контексте.
— Майкл Бластленд, журналист–фрилансер.
Основные этапы работы с данными
Перед запуском проекта с данными вам необходимо усвоить три основные идеи:
Запрос данных должен начинаться со списка вопросов, на которые вы хотите получить ответ.
Данные зачастую приходят запутанными и требуют сортировки.
Данные могут включать незафиксированные элементы
Рис 67. Messy Data
Понимайте вопросы, на которые хотите получить ответ
Во многом работа с данными напоминает интервью в прямом эфире. Вы задаете вопросы и пытаетесь выудить ответы. Но точно так же, как каждый источник может ответить только на те вопросы, в которых он сведущ, массив данных может только ответить на вопросы о том, о чем в нем имеются достоверные данные и необходимые переменные. Это означает, что вы должны как следует продумать вопросы, прежде чем собирать данные. По сути, вы работаете в обратном порядке. Сначала составьте список утверждений для вашей статьи, которые вы хотите подкрепить данными. Затем определите, какие переменные и данные необходимо собрать и проанализировать, чтобы получить такие утверждения.
Рассмотрим это на примере репортажей из местной криминальной хроники. Скажем, вы хотите написать статью о статистике преступлений, которые произошли в вашем городе. Вы хотите включить в репортаж время суток и дни недели, в которые чаще всего случаются разные виды преступлений, а также в каких частях города чаще всего случаются те или иные преступления.
Вы увидите, что запрос данных должен включать дату и время, когда о преступлении было заявлено в полицию, а также вид преступления (убийство, кража, ограбление и т.д.) и место совершения преступления. Таким образом, дата, время, вид преступления и место – минимальный набор данных, которые нужны, чтобы ответить на поставленные вопросы.
Но будьте внимательны. Есть множество потенциально интересных вопросов, ответы на которые не даст этот набор данных из четырех переменных. Это, например, раса и пол жертвы, полная стоимость украденных ценностей или кто из полицейских производит больше арестов. Вы также сможете получить данные только за определенный период (например, за последние три года), а это значит, что вы не сможете сказать, изменилась ли статистика преступлений за более долгий период времени. Эти вопросы могут выходить за планируемые рамки репортажа, и это нормально. Но будьте предусмотрительны: если вы уже начали анализировать данные, а потом решили, что хотите узнать процент преступлений, закончившихся арестом, будет уже поздно.
Хорошим советом здесь будет запросить ВСЕ переменные и данные из базы, а не только подмассив данных, который может дать информацию исключительно для текущего репортажа. На самом деле получить все данные будет дешевле, чем их часть, так как во втором случае придется платить агентству за программирование фильтра. Вы всегда сможете вычленить данные самостоятельно, а имея доступ к более широкому набору данных, сможете получить ответы, возникающие в процессе работы над статьей, и даже написать дополнительный материал. Возможно, политика конфиденциальности не позволит вам получить некоторые переменные (например, имена жертв или конфиденциальных осведомителей). Но даже часть данных это лучше, чем ничего, если вы хорошо понимаете, на какие вопросы может и не может ответить отфильтрованная база данных.
Сортировка беспорядочных данных
Самая сложная проблема в работе с базами данных заключается в том, что зачастую вам придется анализировать данные, собранные с бюрократической целью. Проблема в том, что требования, предъявляемые к точности обоих типов данных, будут различаться.
Например, база данных системы уголовного правосудия существует главным образом для того, чтобы некий подзащитный Джонс был вовремя доставлен из тюрьмы на слушание к судье Смиту. Поэтому не так уж важно, точно ли указана в базе дата рождения Джонса, правильно ли написан его домашний адрес и даже вторая инициала его имени. Эти неточные данные не помешают доставить Джонса в зал суда к судье Смиту в назначенное время.
Но такие ошибки могут помешать журналисту, работающему с данными, обнаружить в базе данных закономерность. Поэтому первым делом после получения новых данных следует определить, насколько они беспорядочны, и устранить ошибки. Сделать это быстро можно, создав таблицы частоты категориальных переменных, т.е. такие таблицы, где разброс значений по идее должен быть сравнительно небольшой. (в Excel, например, это можно сделать через фильтр или сводные таблицы).
Простой пример – графа «пол». Может оказаться, что в этой графе встречаются различные варианты: «мужской», «женский», «М», «Ж», «1», «0», «МУЖСКОЙ», «ЖЕНСКИЙ» и т.д., включая варианты с ошибочным написанием («жнский»). Для толкового гендерного анализа вам придется стандартизировать эти данные и остановиться, например, на М и Ж, а затем подвести все значения под единый стандарт. Есть еще одна известная база данных с подобными проблемами – это база финансирования избирательных кампаний в США, где в графе «профессия» может стоять «адвокат», «юрист», «юрисконсульт», «юрконсульт», «адв.» и прочие варианты, в том числе с орфографическими ошибками. Опять же, фокус в том, чтобы привести названия профессий к единому стандарту и существенно сократить список вариантов.