Поиск данных


В основе этого текста лежит очередной урок из вводного курса по работе с данными – и опять же, из Школы данных (School of Data). Речь пойдет о том, как приступить к поиску данных, где их искать и каким образом.

Источники данных

Существует три основных способа получить данные:

  • Можно найти данные. Это значит произвести поиск и найти данные, которые уже опубликованы.
  • Можно получить неопубликованные данные. Во-первых, это теоретически можно сделать, направив запрос в инстанцию, от которой бы хотелось получить данные. Во-вторых, можно собрать данные с сайта, где они содержатся совершенно открыто, но недоступны в готовом виде для скачивания (и, соответственно, обработки). Этот процесс называется «скрэпингом» (data-scraping).
  • Наконец, можно собрать данные самостоятельно. Это значит, что вы тем или иным способом собираете данные в базу или таблицу – самостоятельно или в ходе коллективной работы.

В этом уроке мы поговорим о первом способе – то есть о том, как найти те данные, которые уже опубликованы. В дальнейшем будут и уроки, посвященные остальным способам.

Шаг 1: Определите для себя источник данных

Многие источники часто публикуют свои данные в открытом доступе. Вот несколько примеров:

Правительства. В последние годы правительства начали раскрывать свои данные для общественности. Многие правительства создают специальные платформы (открытых) государственных данных, чтобы публиковать там данные, которые они собирают. Например, в Великобритании для этого открыли портал data.gov.uk. Аналогичные порталы существуют в США, Бразилии, Кении, Австрии и во многих других странах. В России такого портала пока нет, хотя его и собираются сделать до окончания 2013 г. Хороший исходный пункт для поиска правительственных данных – Datacatalogs.org.

Организации. Еще один обильный источник данных – это крупные организации. Например, регулярно публикуют отчеты и новые наборы данных такие организации, как Всемирный банк и Всемирная организация здравоохранения.

Наука. Научные проекты и институты публикуют данные для научного сообщества и для широкой общественности. Например, открытые данные собирает NASA. Для многих научных дисциплин есть специальные репозитории, и некоторые из них – открытые. К тому же появляется всё больше инициатив, направленных на то, чтобы обеспечить доступ к уже опубликованным данным (например Dryad).

Чтобы помочь людям искать данные, созданы такие проекты, как список дата-репозиториев в Open Access Directory или datahub.io, который организовала Open Knowledge Foundation. Также School of Data собирает с помощью пользователей свой вспомогательный список data sources.

Шаг 2: Искать данные в таком формате, который вам подходит

В вводном тексте «Что такое данные» вскользь упоминалось такое понятие, как «машиночитаемые» данные. Вы избежите многочисленных проблем и сэкономите свое время, если вы будете работать с такими данными, которые с самого начала представлены в надлежащем формате. Если вы ищите данные через Google, есть удобный способ с самого начала задавать формат. Например, если вы ищите файлы CSV через Гугл, то в поисковой строке к ключевому слову можно добавить +filetype:csv. Если вы введете в поисковую строку South Africa +filetype:csv, то в результатах у вас появятся файлы CSV, в которых упоминается ЮАР. То же самое вы можете проделывать с другими форматами файлов. Например, можно искать файлы xls, если вам нужны таблицы Excel или pdf, если вам зачем-то понадобился pdf.

2013-07-16 01_05_51-South Africa +filetype_csv - Google Search

В качестве дополнительного источника информации о том, как искать данные, можно почитать соответствующие разделы в так называемом «Руководстве по журналистике данных». Оригинал Data Journalism Handbook находится здесь. На русском языке в переводе РИАН этот сборник можно найти здесь. Собственно тема поиска данных освещается в следующих разделах:

PS

Несколько слов  по поводу поиска данных по России

Сразу скажем, открытых данных, выпущенных российскими ведомствами, сейчас, если сравнивать с другими юрисдикциями, мало. Качественных данных, своевременно обновляемых, содержащих адекватную информацию, нормально скачиваемых и хотя бы относительно аккуратных, и того меньше. Что делать?

  • Есть международные данные, собираемые международными организациями (вроде того же Всемирного банка), в которых, естественно, есть данные и по России. Их можно и нужно использовать.
  • В Рунете есть инициативы по сбору и очистки данных из неофициальных источников – на настоящий момент наиболее адекватные в плане удобства для использования – спасибо их создателям, — но, увы, в силу неофициальности, довольно скудные. Тем не менее, они есть. Например: OpenGovData.ru, Открытая полиция.
  • Наконец, ведомственные инстанции всё же начали выкладывать данные, согласно правительственному предписанию. Другое дело, что зачастую эти данные оставляют желать лучшего. Но можно и нужно пытаться использовать их и пытаться настаивать на том, чтобы инстанции принимали меры по улучшению ситуации.
  • Тема особенно актуальна для нас, потому что нам, в первую очередь, и придется с ней разбираться как носителям языка. В таких, мягко выражаясь, стесненных условиях очень важно сотрудничать, обмениваться опытом, источниками и впечатлениями, чтобы быть в курсе происходящего и ориентироваться в обстановке.

Подготовка данных к обработке в Google Таблицах. Азы


Инструмент: Google Таблицы

Требуемые навыки: Разве что некоторое представление о том, как работать в Интернете

Нижеследующее представляет собой прохождение одного из простых заданий, которые давали во время онлайн Экспедиции данных (совместный проект School of Data и P2P University). С одной стороны, в качестве иллюстрации, с другой стороны, есть вероятность, что кому-то пригодится как руководство к действию. При всей простоте, сам тот факт, что нужно взаимодействовать с таблицей, некоторых участников приводил в смятение. Даже слово придумали: Dataphobia (фобия данных).

Сразу скажу, в применении к Экспедиции оптимальным вариантом было использование таблиц Google, потому что плоды трудов надо было регулярно демонстрировать коллегам, а удобнее всего это делать как раз таки при помощи расшариваемых носителей. Соответственно, и прохождение ориентировано на работу с Google-таблицами.

Итак, для начала всем участникам разослали исходную таблицу с данными по выбросам углекислого газа по странам за период с 1980 по 2009 гг. И еще одну (вторая вкладка в таблице) – по выбросам углекислого газа на душу населения (с 2005 по 2009 гг.).

Вот ссылка: https://docs.google.com/spreadsheet/ccc?key=0AnCa4pymWsNNdGEtUV9kR3dZVktzVDhKQnRzNjJkY0E#gid=1

Вот сама таблица [1]:

Читать далее Подготовка данных к обработке в Google Таблицах. Азы