Условие задачи
1. Зайдите на портал открытых данных https://data.gov.ru/
2. Загрузите реестр наборов открытых данных, связанных с ЕСИА.
3. Посмотрите наборы данных, каких полей в каких наборах не хватает?
4. Сделайте выборку из данных: возьмите только названия наборов данных и владельцев. Посчитайте количество повторов. Оставьте только те наборы данных, которые встречаются более одного раза.
5. Изобразите это графически. Посмотрите распределение повторов с помощью круговой диаграммы.
6. Проверьте гипотезу: новые версии выкладываются с новыми идентификаторами.
Ответ
В рамках работы над новым проектом возникла задача поиска и загрузки некоторых наборов данных с сайта открытых данных России. На станице сайта, предоставляющей доступ к реестру наборов открытых данных, присутствует возможность экспорта реестра в форматах csv или xls. Это очень хорошо, а главное удобно.
Загружаем набор в формате csv. В файле содержится следующая информация о наборе данных:
-
Название ...