Выбрать главу

Краудсорсинг работает лучше всего, когда пользователи занимаются сбором данных или решают задачу обработки и очистки данных.

Просите предоставить источник

Мы обдумывали и взвешивали вопрос, просить ли пользователей сканировать оригинальные счета, полагая, что такая просьба может удержать некоторых из них от сотрудничества (особенно учитывая, что наша целевая аудитория была старше среднего возраста). И хотя некоторых это требование действительно удержало, оно, тем не менее, увеличило степень достоверности и надежности собранных данных.

Создайте механизм обоснования и легализации

Мы создали целевую систему и механизм экспертной оценки и дружественной проверки, для осмотра и исследования вкладов пользователей. Это оказалось слишком сложным и витиеватым для пользователей, которым не хотелось повторно заходить на сайт. Однако это было использовано командой France Libertés, десять или около того сотрудников которой чувствовали себя более мотивированными системой баллов.

Делайте все просто

Мы создали автоматический почтовый механизм, чтобы пользователи могли составить запрос о свободе информации в отношении цен на воду посредством всего нескольких кликов. И хотя этот механизм был инновационным и хорошо сконструированным, данная система не обеспечила достаточного числа откликов (только сто запросов было отправлено).

Достигайте вашей целевой аудитории

France Libertés вступила в партнерские отношения с журналом о правах потребителей 60 Millions de Consommateurs, который включил свою аудиторию в этот процесс. Это стало идеальным решением для подобной операции.

Внимательно выбирайте ключевые индикаторы

Проект собрал только 45 000 посетителей за 4 месяца, что эквивалентно 15 минутам трафика на, например, сайт nytimes.com. Что действительно важно, так это то, что каждый пятый посетитель зарегистрировался, и каждый десятый потратил время на то, чтобы отсканировать и загрузить свой счет за коммунальные услуги.

Николас Кайзер–Бриль, Journalism++

Получение данных

Итак, вы готовы приступить к вашему первому проекту в сфере журналистики, посвященной данным. С чего следует начать? В первую очередь вам потребуются какие–то данные. В данном разделе рассказывается, где вы их можете найти. Вы научитесь искать данные в Интернете, запрашивать их, пользуясь законодательством о свободе информации, «выскребать данные с экрана» при сборе данных из неструктурированных источников, использовать методы «привлечения общественности» для сбора необходимых данных у ваших читателей. Мы узнаем, что говорит законодательство о публикации наборов данных, и научимся использовать простые правовые инструменты, которые позволят другим лицам вновь использовать ваши данные. А в конце данного раздела мы познакомимся с некоторыми смешными и не очень рассказами о том, через что пришлось пройти нашим авторам, чтобы получить те данные, которые они искали.

Краткий справочник

Рис 52. datacatalogs.org(Open Knowledge Foundation)

Ищите данные по конкретной теме или вопросу? Не знаете, какие данные имеются и где их найти? Не знаете, с чего начать? В данном разделе мы узнаем о том, с чего начинать поиск открытых источников информации в сети.

Направьте ваш поиск в нужное русло

Многие базы данных в Интернете, даже те, которые бывает трудно найти, проиндексированы поисковиками, причем независимо от того, хотел их издатель того или нет. Вот несколько подсказок по поиску:

 При поиске данных убедитесь, что вы ввели в поисковый запрос как термины, относящиеся к содержанию данных, которые вы хотите найти, так и некоторую информацию, относящуюся к формату или источнику, в котором, как вы ожидаете, находятся эти данные. Например, вы можете искать только таблицы (дополняя ваш поисковый запрос указателями типов файлов «filetype:XLS filetype:CSV»), географические данные («filetype:shp») или выдержки из баз данных («filetype:MDB, filetype:SQL, filetype:DB»). Если вы захотите, вы можете искать даже PFD–файлы («filetype:pdf»).

 Также можно вести поиск по части URL–адреса. Введя в запрос при поиске в Google «inurclass="underline" downloads filetype:xls», вы будете искать файлы Excel, в веб–адресе которых есть слово «downloads» (если вы найдете всего один загружаемый файл, зачастую имеет смысл проверить, какие имеются другие результаты для той же папки на веб–сервере). Вы также можете ограничить свой поиск отдельным доменным именем, задав в условиях поиска, например, «site:agency.gov».

 Еще одним популярным способом является поиск не непосредственных результатов, а тех мест, в которых могут находиться данные. Например, введение в условия поиска запроса «site:agency.gov Directory Listing» приведет к тому, что вы получите некоторые созданные веб–сервером списки, предоставляющие удобный доступ к исходным файлам, в то время как запрос «site:agency.gov Database Download» выдаст в результатах специально созданные списки.

Поиск по сайтам и сервисам баз данных

В последние годы в Интернете появился ряд посвященных базам данных порталов, хабов и других сайтов, на которых вы можете ознакомиться с хранящимися там данными. Для начала вы можете обратить внимание на следующие из них:

 Официальные порталы данных.

 Различные страны по разному относятся к раскрытию тех или иных баз данных. Все больше стран запускают порталы данных (вдохновляемые такими сайтами, как американский data.gov или английский data.gov.uk) для предоставления возможности гражданскому обществу и коммерческим организациям пользоваться предоставляемой властями информацией. На ресурсе datacatalogs.orgвы сможете найти самый актуальный глобальный перечень таких сайтов. Еще одним удобным сайтом является Guardian World Government Data, поисковик, включающий в себя большое количество каталогов баз данных, публикуемых иностранными правительствами.

The Data Hub

 Ресурс, поддерживаемый фондом «Открытая информация» (Open Knowledge Foundation), который способствует легкому поиску, обмену и использованию открытых доступных источников данных, в частности, благодаря автоматизации данных процессов.

ScraperWiki

 Онлайн–инструмент, облегчающий «извлечение полезных битов данных, которые затем могут использоваться в других приложениях или внимательно изучаться журналистами и исследователями». Большая часть «скребков» и собираемых ими баз данных находятся в открытом доступе и могут свободно использоваться.

 Порталы данных Всемирного банкаи Организации Объединенных Нацийсодержат высококачественную информацию обо всех странах, зачастую за много лет.

 Появился ряд новых проектов, преследующих своей целью построить сообщества вокруг обмена данными и их перепродажи. К ним относятся, например, Buzzdata, — место, посвященное обмену частными и открытыми базами данных и сотрудничеству в данной сфере, и такие магазины данных, как Infochimps, и DataMarket.

DataCouch — Место, куда вы можете загрузить свои данные, обработать их, поделиться ими или визуализировать их.

 Интересный проект Google Freebaseпредлагает «сущностной график людей, мест и вещей, созданный сообществом, любящим открытые данные».

 Исследование данных.

 Многочисленные национальные или отраслевые агрегаторы исследовательских данных, такие как, например, UK Data Archive. В то время как многие данные являются бесплатными, существует также большое количество баз данных, для использования которых необходима подписка или которые не могут использоваться или распространяться без предварительного разрешения.