Организации, выступающие в защиту чего–либо, ученые и исследователи зачастую имеют больше и времени, и возможностей, чтобы проводить более обширные, более масштабные исследования в области данных, чем журналисты. Было бы очень выгодным, полезным и продуктивным объединяться с ними и работать в команде.
— Люси Чемберс и Джонатан Грэй, Фонд Open Knowledge
Финские парламентские выборы и финансирование предвыборной кампании
Рис 38. Финансирование предвыборной кампании(Helsingin Sanomat)
В последние месяцы активно проходят судебные процессы, связанные с финансированием избирательной кампании во время всеобщих выборов в Финляндии 2007 года.
После выборов 2007 года пресса обнаружила, что законы о предаче гласности информации о финансировании подобных кампаний не оказали никакого воздействия на политиков. В основе своей финансирование кампаний использовалось для того, чтобы купить благосклонность политиков, которые потом не смогли гласно заявить о своем финансировании, как их обязывает финское законодательство.
После этих инцидентов законы стали жестче. После всеобщих выборов в марте 2011 Helsingin Sanomat решила внимательно изучить все доступные данные о финансировании предвыборных кампаний. Новый закон предусматривает, что финансирование предвыборных кампаний должно быть полностью открытым, и информация о нем должна раскрываться, и только взносы в размере до 1 500 евро могут быть анонимными.
1. Поиск данных и разработчиков.
Helsingin Sanomat начала организовывать собственные открытые хакатоны (так называемые HS Open) начиная с марта 2011 года. Мы приглашали и приглашаем финских программистов, кодеров, журналистов и графических дизайнеров на цокольный этаж нашего здания. Участников делим на группы по трое, и предлагали им разработать приложения и визуализации. В каждом из трех проведенных нами к настоящему моменту мероприятий приняли участие примерно по 60 человек. Мы решили, что данные о финансировании предвыборной кампании должны оказаться в центре внимания мероприятия HS Open №2, которое прошло в мае 2011 года.
Национальное аудиторское управление Финляндии является тем учреждением, которое хранит документы о финансировании кампаний. Это была легкая часть задачи. Руководитель информационной службы Яакко Хамунен (Jaakko Hamunen) создал вебсайт, который давал возможность доступа к базе данных о финансировании кампаний в режиме реального времени. Аудиторское управление сделало это всего через два месяца после нашего запроса.
Сайт Vaalirahoitus.fiбудет предоставлять средствам массовой информации и общественности данные о финансировании предвыборных кампаний по каждым выборам начиная с данного момента.
2. Мозговой штурм в поисках идей.
Участники хакатона HS Open 2 выработали 20 разных пилотных моделей, предлагая варианты того, что делать с данными. Все варианты можно найти на нашем вебсайте(текст на финском языке).
Исследователь в области биоинформатики по имени Яанне Пелтола (Janne Peltola) заметил, что данные о финансировании предвыборных кампаний выглядели похожими на генетические данные, которые они исследовали, в плане того, что они содержали множество взаимосвязей и взаимозависимостей. В биоинформатике есть один открытый, бесплатный инструмент под названием Cytoscape, который используется для составления карт таких взаимозависимостей. Поэтому мы прогнали наши данные через Cytoscape и получили очень интересный опытный образец.
3. Реализация идеи на бумаге и в сети.
Закон о финансировании избирательных кампаний обязывает избранных членов парламента задекларировать данные о финансировании своих кампаний в течение двух месяцев после выборов. На практике это означает, что мы получили реальные данные только в середине июня. На HS Open у нас были только данные от тех парламентариев, которые подали соответствующую информацию заранее, до истечения крайнего срока.
Также была проблема с форматом данных. Национальное аудиторское управление предоставило данные в виде двух CSV–файлов. Один содержал информацию об общем бюджете кампании, а во втором был список всех жертвователей и источников финансирования. Нам надо было объединить эти два набора данных, создав файл, который содержал бы три столбца: «жертвователь/источник финансирования», «получатель» и «сумма». Если бы политики использовали свои собственные деньги, то в нашем формате данных это выглядело бы так: Политик А пожертвовал сумму Х евро политику А. Возможно, парадоксально и не интуитивно понятно, но для Cytoscape это сработало.
Когда данные были очищены и переформатированы, мы просто пропустили их через Cytoscape. Потом наша графическая служба сделала из этого полностраничный график.
Наконец, мы создали отличную красивую визуализацию на нашем вебсайте. Это был не график сетевого анализа. Мы хотели дать людям легкий способ узнать, насколько велико было финансирование кампании и кто дает деньги. Первая картинка показывает распределение средств между парламентариями. Кликая на фамилию конкретного парламентария, вы получаете полную информацию о конкретно его или ее финансировании — кто и сколько выделил ему или ей денег. Также можно проголосовать, является ли тот или иной жертвователь, по вашему мнению, хорошим, качественным, или нет. Визуализация подготовили Юха Рувинен (Juha Rouvinen) и Юкка Кокко (Jukka Kokko) из агентства под названием Satumaa. В интернет–версии визуализации проекта финансирования избирательной кампании использованы те же данные, что и для сетевого анализа.
4. Публикация данных.
Конечно, Национальное аудиторское управление уже публикует данные, так что нет нужды в повторной публикации. Но когда мы очистили информацию и придали ей более удобную и качественную структуру, мы решили опубликовать ее. Мы выпустили наши данные с авторской лицензией Creative Commons Attribution licence. Впоследствии несколько независимых разработчиков сделали визуализации данных, и некоторые из этих визуализаций мы опубликовали.
Для реализации проекта мы использовали следующие инструменты: Excel и Google Refine для очистки данных и их анализа, Cytoscape для сетевого анализа, и Illustrator и Flash для создания визуализаций. На самом деле вместо Flash должен был использоваться HTML5, но нам не хватило времени.
Чему мы научились? Возможно, самым важным уроком было то, что структуры данных могут быть очень сложными. Если оригинальные данные существуют в неподходящем формате, переподсчет и конвертация их отнимут много времени.
Хакинг выборов (Electoral Hack) в режиме реального времени
Рис 39. Выборы 2011 года(Hacks/Hackers Buenos Aires)
«Хакинг выборов» ( Electoral Hack) — это проект из области политического анализа, который визуализирует данные предварительного результата голосования 23 октября 2011 года на выборах в Аргентине. Система также содержит информацию с предыдущих выборов, и социально–демографическую статистику со всей страны. Проект обновлялся в режиме реального времени информацией, поступающей по ходу предварительного подсчета голосов на национальных выборах 2011 года в Аргентине, и представил итоговые результаты выборов. Это была инициатива группы Hacks/Hackers Buenos Aires, которую она осуществила совместно с политологом Энди Тоу (Andy Tow). Проект был осуществлен совместными усилиями журналистов, разработчиков, дизайнеров, аналитиков, политологов и других специалистов из местного отделения Hacks/Hackers.