Выбрать главу

Мы проанализировали цифры, сконцентрировав внимание на наиболее популярных моделях и сравнив машины того же возраста. И тут были выявлены серьезные расхождения. Например, среди всех машин трехлетнего возраста 28% автомобилей Renault Mégane не прошли свои тесты Минтранса, по сравнению с всего 11% машин марки Toyota Corolla. Цифры были озвучены по телевидению, радио и в онлайне.

Данные были предоставлены нам в форме 1200–страничного PDF–документа, который нам потом пришлось конвертировать в таблицу, чтобы провести анализ. Вместе с нашими выводами мы опубликовали эту таблицу в Excel (с более чем 14 000 строками данных) на сайте ВВС News вместе с нашим сюжетом. Это дало всем остальным доступ к данным в приемлемой для обработки форме.

Результатом стало то, что другие потом использовали эти данные для своего собственного анализа, который у нас не было времени провести, так как мы спешили выдать сюжет побыстрее, или когда в некоторых случаях такой анализ превышал наши технические возможности на тот момент. Сюда входило и изучение рейтинга поломок для машин других возрастов, сравнение по производителям, а не по конкретным моделям, и создание удобных для поиска баз данных, в которых можно было просмотреть результаты по конкретным моделям. Мы добавили ссылки на эти сайты в наш онлайн–текст, так что наши читатели могли воспользоваться плодами этой дополнительной работы.

Это продемонстрировало ряд преимуществ публикации исходных данных вместе с построенным на этих данных сюжетом. Тут могут быть исключения (например, если вы планируете использовать данные для других последующих сюжетов позднее и хотите сохранить исходники для собственного использования на какое–то время), но в целом публикация исходных данных дает некоторые важные преимущества.

 Ваша работа заключается в том, чтобы найти информацию и рассказать о ней людям. Если вы столкнулись с проблемами в получении всех необходимых данных, это часть вашей работы, которую можно передать дальше.

 Другие люди могут найти и выделить определенные интересные моменты, которые вы упустили, или просто найти детали и подробности, которые имеют значение для них, даже если они оказались недостаточно важными для того, чтобы удостоиться освещения в вашем собственном сюжете.

 Другие могут построить на основе вашей работы дальнейшие изыскания, провести более подробный анализ данных или применить другую технику для предоставления и визуализации цифр, используя свои собственные идеи или технические навыки, которые могут дать возможность продуктивным образом обработать данные иными способами.

 Это часть процесса встраивания подотчетности и прозрачности в журналистский процесс. Другие могут при желании понять ваши методы и проверить вашу работу.

Мартин Розенбаум, BBC

Субсидирование автобусных перевозок в Аргентине

Начиная с 2002 года субсидирование общественного автобусного транспорта в Аргентине росло по экспоненте, каждый год ставя новые рекорды. Но в 2011 году, после победы на выборах, новое правительство Аргентины объявило о сокращении субсидирования коммунальных услуг начиная с декабря того же года.

В то же самое время национальное правительство решило передать управление и администрирование местных автобусных маршрутов и линий метро властям города Буэнос–Айреса. А так как вопрос с переводом субсидий этому местному правительству не был четко разрешен, а соответствующих местных фондов было недостаточно, чтобы гарантировать безопасность транспортной системы, власти города Буэнос–Айрес отклонили это решение.

Когда происходил этот процесс, мои коллеги в La Nación и я в первый раз встречались для того, чтобы обсудить, как нам начать работать в области журналистики данных. Наш редактор финансового отдела предложил начать с данных о субсидиях, публикуемых Министерством транспорта  — это стало бы хорошей проблемой, с изучения которой можно было бы начать, так как из этих данных очень сложно было извлечь смысл – из–за неудобного формата и непонятной терминологии.

Плохое состояние системы общественного транспорта влияет на жизнь более чем 5 800 000 пассажиров каждый день. Опоздания, задержки, забастовки, поломки транспорта и аварии происходят все чаще и чаще. Поэтому мы решили взглянуть на то, куда уходят деньги, выделяемые в Аргентине на субсидирование общественного транспорта, и сделать полученную информацию легко доступной для всех граждан Аргентины посредством нашего проекта «Исследователь транспортных субсидий» (Transport Subsidies Explorer), который сейчас продолжает наполняться информацией.

Рис 48. The «Исследователь транспортных субсидий» (Transport Subsidies Explorer)(La Nación)

Начали мы с того, что подсчитали, сколько автобусные компании получают каждый месяц от государства. Чтобы сделать это, мы просмотрели все данные, публикуемые на вебсайте Министерства транспорта, где мы нашли больше 400 PDF–файлов, содержащих информацию о ежемесячных денежных выплатах более чем тысяче тремстам компаний начиная с 2006 года.

Рис 49. Рейтинг субсидируемых транспортных компаний (La Nación)

Мы объединились со старшим программистом, чтобы разработать программу для автоматизации процесса регулярного скачивания и преобразования этих PDF–файлов в файлы Excel и баз данных. Получившийся в результате набор данных из более чем 285 000 записей мы используем в наших исследованиях и для визуализации информации, как в печатном виде, так и в режиме онлайн. Вдобавок, мы делаем эти данные доступными в машиночитаемом формате для каждого аргентинца, который может сам их использовать или поделиться ими с кем–то.

Следующим шагом было определить, в какую сумму обходилось властям ежемесячное содержание единицы общественного транспорта в среднем. Чтобы выяснить это, мы направились на другой правительственный вебсайт, сайт Национальной комиссии по транспортному регулированию ( Comisión Nacional de Regulación del Transporte  — CNRT), которая отвечает за регулирование транспортной отрасли в Аргентине. На этом сайте мы нашли список автобусных компаний, которые все вместе в совокупности владели 9 000 транспортных средств. Мы разработали нормализатор, чтобы сверить и согласовать между собой названия автобусных компаний и сделать перекрестные ссылки между двумя наборами данных.

Чтобы идти дальше, нам требовался регистрационный номер каждого транспортного средств. Мы нашли на сайте CNRT список автобусов каждой компании с их номерами. Регистрационные номера в Аргентине состоят из букв и цифр, которые соответствуют «возрасту» транспортного средства. Например, номер моей машины – IDF234, где I соответствует марту–апрелю 2011 года. Мы декомпилировали номера автобусов, принадлежащих всем компаниям из списка, чтобы выяснить средний возраст автобусов в той или иной компании, и тем самым показать, сколько денег идет каждой компании, и сравнить суммы со средним возрастом их парка транспортных средств.

Рис. 50. Сравнение возраста автобусного парка с суммами, которые соответствующие компании получают от властей. (La Nación)

В разгар этого процесса содержание выпущенных властями PDF–файлов с данными, которые были нам нужны, таинственным образом изменилось, хотя URL–ы и названия файлов остались теми же самыми. Что именно изменилось? А изменилось то, что в некоторых PDF–файлах исчезли вертикальные графы «всего», что сделало невозможным перекрестные проверки по всему исследуемому временному периоду, с 2002 по 2011 годы.

Мы вынесли этот вопрос на хакатон, организованный группой Hacks/Hackers в Бостоне, где разработчик Мэтт Перри (Matt Perry) щедро создал и поделился с нами приложением, которое мы назвали «PDF–шпион» (PDF Spy). Это приложение было отмечено в номинации «Самое интригующее» на этом мероприятии. «PDF–шпион» ( PDF Spy) обрабатывает веб–страницу с PDF–файлами и проверяет, изменилось ли содержание этих PDF–файлов. «Никого больше не обманет и не оставит в дураках «правительственная прозрачность», — отмечает Мэтт Перри.