Поиск данных


В основе этого текста лежит очередной урок из вводного курса по работе с данными – и опять же, из Школы данных (School of Data). Речь пойдет о том, как приступить к поиску данных, где их искать и каким образом.

Источники данных

Существует три основных способа получить данные:

  • Можно найти данные. Это значит произвести поиск и найти данные, которые уже опубликованы.
  • Можно получить неопубликованные данные. Во-первых, это теоретически можно сделать, направив запрос в инстанцию, от которой бы хотелось получить данные. Во-вторых, можно собрать данные с сайта, где они содержатся совершенно открыто, но недоступны в готовом виде для скачивания (и, соответственно, обработки). Этот процесс называется «скрэпингом» (data-scraping).
  • Наконец, можно собрать данные самостоятельно. Это значит, что вы тем или иным способом собираете данные в базу или таблицу – самостоятельно или в ходе коллективной работы.

В этом уроке мы поговорим о первом способе – то есть о том, как найти те данные, которые уже опубликованы. В дальнейшем будут и уроки, посвященные остальным способам.

Шаг 1: Определите для себя источник данных

Многие источники часто публикуют свои данные в открытом доступе. Вот несколько примеров:

Правительства. В последние годы правительства начали раскрывать свои данные для общественности. Многие правительства создают специальные платформы (открытых) государственных данных, чтобы публиковать там данные, которые они собирают. Например, в Великобритании для этого открыли портал data.gov.uk. Аналогичные порталы существуют в США, Бразилии, Кении, Австрии и во многих других странах. В России такого портала пока нет, хотя его и собираются сделать до окончания 2013 г. Хороший исходный пункт для поиска правительственных данных – Datacatalogs.org.

Организации. Еще один обильный источник данных – это крупные организации. Например, регулярно публикуют отчеты и новые наборы данных такие организации, как Всемирный банк и Всемирная организация здравоохранения.

Наука. Научные проекты и институты публикуют данные для научного сообщества и для широкой общественности. Например, открытые данные собирает NASA. Для многих научных дисциплин есть специальные репозитории, и некоторые из них – открытые. К тому же появляется всё больше инициатив, направленных на то, чтобы обеспечить доступ к уже опубликованным данным (например Dryad).

Чтобы помочь людям искать данные, созданы такие проекты, как список дата-репозиториев в Open Access Directory или datahub.io, который организовала Open Knowledge Foundation. Также School of Data собирает с помощью пользователей свой вспомогательный список data sources.

Шаг 2: Искать данные в таком формате, который вам подходит

В вводном тексте «Что такое данные» вскользь упоминалось такое понятие, как «машиночитаемые» данные. Вы избежите многочисленных проблем и сэкономите свое время, если вы будете работать с такими данными, которые с самого начала представлены в надлежащем формате. Если вы ищите данные через Google, есть удобный способ с самого начала задавать формат. Например, если вы ищите файлы CSV через Гугл, то в поисковой строке к ключевому слову можно добавить +filetype:csv. Если вы введете в поисковую строку South Africa +filetype:csv, то в результатах у вас появятся файлы CSV, в которых упоминается ЮАР. То же самое вы можете проделывать с другими форматами файлов. Например, можно искать файлы xls, если вам нужны таблицы Excel или pdf, если вам зачем-то понадобился pdf.

2013-07-16 01_05_51-South Africa +filetype_csv - Google Search

В качестве дополнительного источника информации о том, как искать данные, можно почитать соответствующие разделы в так называемом «Руководстве по журналистике данных». Оригинал Data Journalism Handbook находится здесь. На русском языке в переводе РИАН этот сборник можно найти здесь. Собственно тема поиска данных освещается в следующих разделах:

PS

Несколько слов  по поводу поиска данных по России

Сразу скажем, открытых данных, выпущенных российскими ведомствами, сейчас, если сравнивать с другими юрисдикциями, мало. Качественных данных, своевременно обновляемых, содержащих адекватную информацию, нормально скачиваемых и хотя бы относительно аккуратных, и того меньше. Что делать?

  • Есть международные данные, собираемые международными организациями (вроде того же Всемирного банка), в которых, естественно, есть данные и по России. Их можно и нужно использовать.
  • В Рунете есть инициативы по сбору и очистки данных из неофициальных источников – на настоящий момент наиболее адекватные в плане удобства для использования – спасибо их создателям, — но, увы, в силу неофициальности, довольно скудные. Тем не менее, они есть. Например: OpenGovData.ru, Открытая полиция.
  • Наконец, ведомственные инстанции всё же начали выкладывать данные, согласно правительственному предписанию. Другое дело, что зачастую эти данные оставляют желать лучшего. Но можно и нужно пытаться использовать их и пытаться настаивать на том, чтобы инстанции принимали меры по улучшению ситуации.
  • Тема особенно актуальна для нас, потому что нам, в первую очередь, и придется с ней разбираться как носителям языка. В таких, мягко выражаясь, стесненных условиях очень важно сотрудничать, обмениваться опытом, источниками и впечатлениями, чтобы быть в курсе происходящего и ориентироваться в обстановке.

Оставьте комментарий