Условие задачи
Проанализируйте данные с сайта открытых данных data.gov.ru, насколько они актуальны и в каком виде размещаются. Для этого:
1. Постройте диаграмму распределения наборов данных по категориям.
2. Сколько % наборов относятся к категории «Государство»?
3. Постройте диаграмму отражающую статистику размещения на портале данных по
дате первой публикации набора данных.
4. Посмотрите статистику распределения наборов данных по дате актуальности (дата,после которой должна быть обновлена текущая версия набора данных).
5. Есть ли такие наборы данных, которые не обновляются?
6. Какой % наборов данных планируется обновить в текущем году?
7. Постройте диаграмму распределения наборов данных по дате последнего
изменения.
8. Исходя из п. 4,5,6 и 7 сделайте выводы о том, какие данные можно считать
актуальными.
9. Некоторые наборы данных повторяются: одно и тоже название набора данных и
владелец встречаются в реестре по несколько раз. Выявите такие наборы данных. Постройте диаграммы распределения по повторам.
10. Проанализируйте, есть ли одни и те же наборы данных, выставленные в разных
категориях?
11. Используя средства Excel проведите проверку по заполнению текстовых полей в паспортах наборах данных. Заполните таблицу:
12. Постройте круговую диаграмму распределения по принципу: разделим все наборы данных на две категории: все поля заданы, не задано хотя бы одно поле.
13. Проанализируйте в каких форматах выкладываются данные. Какой формат является наиболее популярным?
14. Постройте столбчатую (накопительную) диаграмму.
15. Постройте диаграммы показывающие распределение типов наборов данных по годам.
Опишите проделанные действия, сделайте выводы.
Ответ
Анализ наборов данных с портала открытых данных data.gov.ru
Портал открытых данных должен предоставлять наиболее актуальные сведения об открытых данных федеральных органов власти, органов региональной власти и иных организаций (цитата с сайта data.gov.ru). Посмотрим, какие данные на портале, насколько они актуальны и в каком виде размещаются.
Ниже на круговой диаграмме представлено распределение наборов данных по категориям.