Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.
Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.
Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.
Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.
Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.
#datasets #esimo #climate #weather #datacrafter #data
Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.
Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.
Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.
Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.
#datasets #esimo #climate #weather #datacrafter #data
DataCrafter
Климат и погода
Климатические и погодные данные включая данные Росгидромета, данные об обстановке мирового океана, данные измерений погодных станций
Набор данных «Справочник регионов РФ и связанных с ними географических объектов»
Ссылка: https://data.apicrafter.ru/packages/rusregions/tables.
Режим доступа: открытые данные.
Набор данных включает справочник регионов, границ регионов с другими странами, федеральные округа и все города в Российской Федерации. Связанные с набором данных таблицы: субъекты РФ, федеральные округа, военные округа, экономические регионы, границы и страны, города, моря, трубопроводы, железные дороги, федеральные трассы.
Для каждой таблицы опубликована схема данных, документация и пример 100 записей в формате JSON. В подразделе «Версии и сборки» вы можете скачать целый дамп данных в формате JSON или BSON. Если вам нужна укороченная версия датасета с определенными атрибутами, например, в формате CSV — вы можете подключиться к API DataCrafter и получить нужный вам набор данных.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.
Ссылка: https://data.apicrafter.ru/packages/rusregions/tables.
Режим доступа: открытые данные.
Набор данных включает справочник регионов, границ регионов с другими странами, федеральные округа и все города в Российской Федерации. Связанные с набором данных таблицы: субъекты РФ, федеральные округа, военные округа, экономические регионы, границы и страны, города, моря, трубопроводы, железные дороги, федеральные трассы.
Для каждой таблицы опубликована схема данных, документация и пример 100 записей в формате JSON. В подразделе «Версии и сборки» вы можете скачать целый дамп данных в формате JSON или BSON. Если вам нужна укороченная версия датасета с определенными атрибутами, например, в формате CSV — вы можете подключиться к API DataCrafter и получить нужный вам набор данных.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.
Forwarded from Ivan Begtin (Ivan Begtin)
Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.
Чтобы было понятно:
- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.
В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.
А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.
Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.
Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics
#opendata #datasets
Чтобы было понятно:
- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.
В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.
А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.
Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.
Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics
#opendata #datasets
rosstat.gov.ru
Росстат — Открытые данные
Иван Бегтин выступил на конференции «Региональные данные», посвященной роли данных и моделей в развитии территорий России, с презентацией проекта DataCrafter (https://data.apicrafter.ru/) и рассказал о возможностях и технических особенностях системы.
Видеозапись: https://youtu.be/ccz7ysPHVrA.
Презентация: https://clck.ru/Y6rcx.
Видеозапись: https://youtu.be/ccz7ysPHVrA.
Презентация: https://clck.ru/Y6rcx.
В каталог DataCrafter загружены свежие данные из нескольких крупных государственных каталогов данных. Это данные с портала открытых данных г. Москвы 874 набора собранные в одноименную группу г. Москва в каталоге, а также данные из системы справочников ФФОМС России, 91 наборов данных помещенных в группы Справочники и классификаторы и Медицина.
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Единый реестр медицинских организаций - это чуть менее чем 20 тысяч организаций
- Адресный реестр города Москвы - 440 тысяч записей
Напомню, что все данные загружаемые в DataCrafter проходят преобразование из изначальных форматов в формат JSON/BSON, хранятся внутри MongoDB и доступны через унифицированные выгрузки и API.
На сегодня в Datacrafter'е собрано:
- 4392 набора данных с 4534 таблицами
- 408 миллионов записей
- 5258 файлов экспорта (сборок данных)
- 281.7 гигабайт структурированных данных в СУБД
- более 60 тысяч полей
- из которых недокументировано 25 тысяч, а классифицировано 9.7 тысяч
Вскоре в каталог DataCrafter'а будут загружены данные из других каталогов государственных данных, как федеральных, так и российских региональных. Это уже требует реорганизации интерфейса и выгрузок данных, как минимум, удобного поиска по всем наборам, а не только по их названиям как сейчас.
#data #classifiers #moscow #catalogs #datacatalog
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Единый реестр медицинских организаций - это чуть менее чем 20 тысяч организаций
- Адресный реестр города Москвы - 440 тысяч записей
Напомню, что все данные загружаемые в DataCrafter проходят преобразование из изначальных форматов в формат JSON/BSON, хранятся внутри MongoDB и доступны через унифицированные выгрузки и API.
На сегодня в Datacrafter'е собрано:
- 4392 набора данных с 4534 таблицами
- 408 миллионов записей
- 5258 файлов экспорта (сборок данных)
- 281.7 гигабайт структурированных данных в СУБД
- более 60 тысяч полей
- из которых недокументировано 25 тысяч, а классифицировано 9.7 тысяч
Вскоре в каталог DataCrafter'а будут загружены данные из других каталогов государственных данных, как федеральных, так и российских региональных. Это уже требует реорганизации интерфейса и выгрузок данных, как минимум, удобного поиска по всем наборам, а не только по их названиям как сейчас.
#data #classifiers #moscow #catalogs #datacatalog
DataCrafter
Город Москва
Данные органов власти и организаций города Москвы и данные о Москве, организациях Москвы, статистике и инфраструктуре
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.
Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей
В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.
#opendata #datacatalogs #medicine #data #datasets
DataCrafter
Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем (10-й пересмотр, том…
<p><span style="color:black">Данный справочник является электронным представлением </span><span style="color:black">XX</span> <span style="color:black">класса Тома 3 Международной статистической классификации болезней и проблем, связанных со здоровьем, и…
Очень хорошо что открытые API появляются и у государственных проектов. Открытые документированные API, что немаловажно
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В проекте СП РФ "Госрасходы" теперь доступен открытый и документированный API с данными о расходах федерального бюджета.
Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.
Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.
API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).
Документация и подробности тут: https://spending.gov.ru/pages/devs_api/
Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.
Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.
API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).
Документация и подробности тут: https://spending.gov.ru/pages/devs_api/
В каталог DataCrafter были добавлены 40 наборов данных судебной системы города Москвы, они собраны в разделе Судебная система и включают такие наборы данных как:
- Перечень всех дел, находящихся в судах общей юрисдикции города Москвы - 5,3 миллиона дел
- Информация по первичным документам гражданского производства в судах общей юрисдикции города Москвы - 757 тысяч документов
- Расписание судебных заседаний в судах общей юрисдикции города Москвы - 3,7 миллиона записей
и многие другие наборы данных в общей сложности на 20 гигабайт структурированных данных.
Для работы с этими данными требуется регистрация на портале, доступ к ним осуществляется через ключ выдаваемый автоматически в личном кабинете.
Общая статистика
В общей сложности в каталоге DataCrafter на 27.10.2021 собрано 5952 наборов данных, 6094 таблицы, 433 миллиона строк (записей) в СУБД, 312 ГБ структурированных данных, 75 813 уникальных полей метаданных из которых классифицировано 9731 поле (выявлен один из идентификаторов - ИНН/ОГРН/ОКАТО и др).
- Перечень всех дел, находящихся в судах общей юрисдикции города Москвы - 5,3 миллиона дел
- Информация по первичным документам гражданского производства в судах общей юрисдикции города Москвы - 757 тысяч документов
- Расписание судебных заседаний в судах общей юрисдикции города Москвы - 3,7 миллиона записей
и многие другие наборы данных в общей сложности на 20 гигабайт структурированных данных.
Для работы с этими данными требуется регистрация на портале, доступ к ним осуществляется через ключ выдаваемый автоматически в личном кабинете.
Общая статистика
В общей сложности в каталоге DataCrafter на 27.10.2021 собрано 5952 наборов данных, 6094 таблицы, 433 миллиона строк (записей) в СУБД, 312 ГБ структурированных данных, 75 813 уникальных полей метаданных из которых классифицировано 9731 поле (выявлен один из идентификаторов - ИНН/ОГРН/ОКАТО и др).
DataCrafter
Судебная система
Данные из судебной системы относящиеся к Верховному суду, Арбитражным судам, Судам общей юрисдикции, Судебному департаменту и так далее.
Что известно о лифтах и их производителях в домах Москвы?
В каталоге DataCrafter есть набора данных об установленных лифтах в городе Москве, включая: адрес установки, регистрационный номер, грузоподъемность лифта, скорость и наименование производителя.
Режим доступа: по API и уникальному ключу, доступному после регистрации. Объем: 73 761 записей, 20.0 MB.
Набор данных: https://data.apicrafter.ru/packages/moslifts.
Немного выводов на основе данных. Самые популярные производители лифтов многоэтажных домов в Москве: Карачаровский механический завод (КМЗ), Щербинский лифтостроительный завод (ЩЛЗ) и OTIS.
44,7% от общего числа лифтов в этом наборе данных имеют грузоподъемность не более 400 кг. Еще 18,8% — не более 630 кг.
В среднем самые быстрые лифты — это Hangzhou Aolida Elevator (2 м/c), SIGMA Elevator Company (1,55 м/c), KONE (1,4 м/c), SCHINDLER (1,37 м/с).
Набор данных может быть интересен тем, кто анализирует городские данные в исследовательских целях, а также предпринимателям рынка лифтов.
В каталоге DataCrafter есть набора данных об установленных лифтах в городе Москве, включая: адрес установки, регистрационный номер, грузоподъемность лифта, скорость и наименование производителя.
Режим доступа: по API и уникальному ключу, доступному после регистрации. Объем: 73 761 записей, 20.0 MB.
Набор данных: https://data.apicrafter.ru/packages/moslifts.
Немного выводов на основе данных. Самые популярные производители лифтов многоэтажных домов в Москве: Карачаровский механический завод (КМЗ), Щербинский лифтостроительный завод (ЩЛЗ) и OTIS.
44,7% от общего числа лифтов в этом наборе данных имеют грузоподъемность не более 400 кг. Еще 18,8% — не более 630 кг.
В среднем самые быстрые лифты — это Hangzhou Aolida Elevator (2 м/c), SIGMA Elevator Company (1,55 м/c), KONE (1,4 м/c), SCHINDLER (1,37 м/с).
Набор данных может быть интересен тем, кто анализирует городские данные в исследовательских целях, а также предпринимателям рынка лифтов.
APICrafter
Что известно о лифтах и их производителях в домах Москвы? В каталоге DataCrafter есть набора данных об установленных лифтах в городе Москве, включая: адрес установки, регистрационный номер, грузоподъемность лифта, скорость и наименование производителя. Режим…
Что можно сделать еще?
— Проанализировать данные о лифтах сопоставив их с данными из базы о жилых домах, которая содержит сведения, паспорта, данные по управляющим компаниям и ТСЖ по жилым домам в Москве: https://data.apicrafter.ru/packages/dommosru.
— Имея данные о конкретных адресах, где установлен лифт, добавить колонки с административными округами и районами.
— Геокодировать адреса домов, где установлен лифты, чтобы визуализировать на карте.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru
Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, напишите нам на эл. почту [email protected].
— Проанализировать данные о лифтах сопоставив их с данными из базы о жилых домах, которая содержит сведения, паспорта, данные по управляющим компаниям и ТСЖ по жилым домам в Москве: https://data.apicrafter.ru/packages/dommosru.
— Имея данные о конкретных адресах, где установлен лифт, добавить колонки с административными округами и районами.
— Геокодировать адреса домов, где установлен лифты, чтобы визуализировать на карте.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru
Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, напишите нам на эл. почту [email protected].
DataCrafter
База жилых домов в Москве
Базовые сведения, паспорта, данные по управляющим компаниям и ТСЖ по жилым домам в Москве
В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.
Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.
Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.
Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds
#opendata #datasets #weather
Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.
Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.
Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds
#opendata #datasets #weather
DataCrafter
Архив экстренных сообщений Росгидромета
Экстренные сообщения с официального сайта Росгидромета https://www.meteorf.ru/product/emergency/ с 2013 по 2021 годы
Об инструменте командной строки APIBackuper для архивирования/резервного копирования вызовов API, который используется при работе с каталогом DataCrafter.
Ссылка: https://github.com/ruarxive/apibackuper
Ссылка: https://github.com/ruarxive/apibackuper
GitHub
GitHub - ruarxive/apibackuper: Python library and cmd tool to backup API calls
Python library and cmd tool to backup API calls. Contribute to ruarxive/apibackuper development by creating an account on GitHub.
Forwarded from Ivan Begtin (Ivan Begtin)
Один из инструментов с открытым кодом который используется внутри каталога данных DataCrafter - это утилита командной строки APIBackuper.
Изначально она разрабатывалась для архивации данных которые предоставляются только через API. Таких примеров много, многие государственные информационные системы устроены именно так - есть API, чаще недокументированное, и поверх него работает веб интерфейс. Но, конечно, это не только про государственные информационные системы, такое есть и у частных проектов.
Эта утилита работает без кода, через настройки конфиг файла в котором указываются параметры обращения к API. Вот тут пример по получению данных из API российского реестра удостоверяющих центров.
Чтобы собрать данные нужно в папке с этим конфигом запустить утилиту
apibackuper run full
А после сбора данных выполнить команду apibackuper export jsonl data.jsonl
На выходе получается файл в формате JSON lines который можно обрабатывать другими инструментами.
#opendata #tools #api #openapi
Изначально она разрабатывалась для архивации данных которые предоставляются только через API. Таких примеров много, многие государственные информационные системы устроены именно так - есть API, чаще недокументированное, и поверх него работает веб интерфейс. Но, конечно, это не только про государственные информационные системы, такое есть и у частных проектов.
Эта утилита работает без кода, через настройки конфиг файла в котором указываются параметры обращения к API. Вот тут пример по получению данных из API российского реестра удостоверяющих центров.
Чтобы собрать данные нужно в папке с этим конфигом запустить утилиту
apibackuper run full
А после сбора данных выполнить команду apibackuper export jsonl data.jsonl
На выходе получается файл в формате JSON lines который можно обрабатывать другими инструментами.
#opendata #tools #api #openapi
Адресный реестр объектов недвижимости города Москвы
В каталоге DataCrafter вы можете найти данные Москвы об адресах земельных участков, зданий, сооружений, объектов незавершенного строительства, помещений и машино-мест.
Объем набора данных: более 440 тысяч записей, 765,7 мб.
Режим доступа: открытые данные.
Ссылка: https://beta.apicrafter.ru/packages/datamos-addressreestr.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.
В каталоге DataCrafter вы можете найти данные Москвы об адресах земельных участков, зданий, сооружений, объектов незавершенного строительства, помещений и машино-мест.
Объем набора данных: более 440 тысяч записей, 765,7 мб.
Режим доступа: открытые данные.
Ссылка: https://beta.apicrafter.ru/packages/datamos-addressreestr.
Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.