APICrafter
200 subscribers
32 photos
59 links
Открытые и коммерческие API для доступа к данным о компаниях, статистики, госфинансам, финансовой сфере и так далее.
Download Telegram
Forwarded from Ivan Begtin (Ivan Begtin)
Я так часто участвую или организую в мероприятия в которых технологии неотделимы от госполитики/политики/GR/бизнес применения что немного отвык от больших технологических конференций. Так что с удовольствием вчера прочитал свой доклад о каталогах данных на конференции Smart Data https://smartdataconf.ru в СПб и с удовольствием слушаю других выступающих.

Могу сказать что это, конечно, особый кайф рассказывать про интересные задачи и их сложные решения. А рассказывал я про каталог данных DataCrafter https://data.apicrafter.ru и то как туда загружаются данные и как они используются и с какими проблемами приходится сталкиваться.

Например, одна из проблем - это не-плоские данные. С этими данными сложно работать "классическими" инструментами обработки данных и data pipelines вроде dbt, airflow, meltano и тд.

Другая проблема в том что если продолжать грузить данные как это делается сейчас - одна таблица-одна коллекция, то скоро упираешься в ограничение в 24 тысячи таблиц на один экземпляр MongoDB. Поэтому до сих пор в каталог не загружено около 15 тысяч наборов данных которые можно загрузить одним махом, но надо менять архитектуру хранения данных.

Уже после конференции я расскажу подробнее об архитектуре каталога, скорее всего в форме большого лонгрида у себя в блоге https://begtin.tech или в рассылке https://begtin.substack.com

#data #datacatalogs
Большое обновление в данных DataCrafter'а. В каталог загружены 1514 наборов данных о климате и погоде из Единой государственной системы информации об обстановке в Мировом океане (ЕСИМО). Все данные были преобразованы в унифицированные форматы и доступны в каталоге как открытые данные через API или в виде сборок/слепков данных.

Данные загружены вместе с описанием каждого поля, сведения доступны в разделе "Документация" к каждой таблице. Например, документация к набору данных Оперативные данные о сопутствующих метеонаблюдениях, передаваемых по коду FM-18 X BUOY. Период хранения в БД.

Несмотря на то что многие данные в системе ЕСИМО являются архивными, они могут пригодиться исследователям работающим с данными о мировом океане, климатологам, специалистам по работе с погодными данными и данными экономики моря.

Для нас загрузка такого числа наборов данных оказалась вызовом по причине числа наборов данных, всё таки 1514 наборов из системы ЕСИМО - это почти в 4 раза больше 393 наборов данных которые ранее к нам были загружены и сейчас интерфейс уже недостаточно удобен для работы с таким числом наборов данных, но мы уже работаем над его доработкой.

Второй вызов был в том что данные имеют свою специфику и текущие алгоритмы распознавания типов данных определяют типы данных наборов данных из ЕСИМО достаточно ограниченно. В ближайшее время начнётся работа по классификации этих полей и доработке алгоритмов под эту задачу.

#datasets #esimo #climate #weather #datacrafter #data
Набор данных «Справочник регионов РФ и связанных с ними географических объектов»

Ссылка: https://data.apicrafter.ru/packages/rusregions/tables.

Режим доступа: открытые данные.

Набор данных включает справочник регионов, границ регионов с другими странами, федеральные округа и все города в Российской Федерации. Связанные с набором данных таблицы: субъекты РФ, федеральные округа, военные округа, экономические регионы, границы и страны, города, моря, трубопроводы, железные дороги, федеральные трассы.

Для каждой таблицы опубликована схема данных, документация и пример 100 записей в формате JSON. В подразделе «Версии и сборки» вы можете скачать целый дамп данных в формате JSON или BSON. Если вам нужна укороченная версия датасета с определенными атрибутами, например, в формате CSV — вы можете подключиться к API DataCrafter и получить нужный вам набор данных.

Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru.
Forwarded from Ivan Begtin (Ivan Begtin)
Я сейчас гружу в APICrafter кучу данных с сайта Росстата [1] в раздел "Статистика" [2] и чуть позже сделаем официальный пост от проекта с тем сколько новых наборов данных появилось, а пока скажу вам друзья что всё что мы слышали или слышим про качество работы с открытыми данными у Росстата - это сказки.

Чтобы было понятно:

- с сайта Росстата скачано 1547 наборов данных
- у 742 наборов однотипная структура из CSV файлов с полями: area,gender,urban,value (все их можно было опубликовать как один набор данных)
- ещё 617 наборов данных это однотипные показатели в формате SDMX без документации, также их можно было опубликовать как один набор данных
- надо ли объяснять что это получается куча мелких файлов, эдакое "необоснованное дробление данных" (c) ради числа наборов данных
- половина данных опубликовано как CSV, другая половина как XML. Файлы CSV имеют ту особенность что половина с разделителем запятой (,), половина с разделителем (;).
- у 20 наборов данных у файлов CSV отсутствуют заголовки
- итого, если делать всё по уму, то у Росстата на сайте было бы всего 188 наборов данных. А если ещё объединить в один датасет вакансии всех террорганов Росстата то и всего то около 103-105 наборов данных. Чувствуете разницу?
- некоторые из наборов данных имеют расширение csv, а внутри это zip файлы. А иногда это zip файлы внутри которых файлы csv которые... на самом деле не csv, а тоже zip файлы
- около 30% опубликованных CSV файлов в кодировке windows-1251, остальные в UTF-8, нигде при этом не указано что в каком виде.
- несколько наборов данных XML - это дампы показателей из внутренней BI системы. Без документации.


В итоге пришлось дорабатывать код подготовки пакетов данных для автоматического распознавания кодировки, разделителей и выявления CSV файлов без заголовков. Это не так уж сложно, но окунаться в ад работы с плохоформатированными CSV файлами - это то ещё удовольствие.

А в качестве послесловия я добавлю что это ещё далеко не самый худший ФОИВ по опубликованию данных. Да, много где ситуация сильно хуже, но Росстат тоже, умеет удивлять отсутствием управления данными и таким вот дроблением датасетов на кучу мелких наборов данных.

Как бы то ни было, все они будут у нас в каталоге сегодня уже к концу дня. И, похоже, вводить критерии качества каталогов данных важно не меньше качества содержания наборов данных.

Ссылки:
[1] https://rosstat.gov.ru/opendata
[2] https://data.apicrafter.ru/topics/statistics

#opendata #datasets
Иван Бегтин выступил на конференции «Региональные данные», посвященной роли данных и моделей в развитии территорий России, с презентацией проекта DataCrafter (https://data.apicrafter.ru/) и рассказал о возможностях и технических особенностях системы.

Видеозапись: https://youtu.be/ccz7ysPHVrA.

Презентация: https://clck.ru/Y6rcx.
В каталог DataCrafter загружены свежие данные из нескольких крупных государственных каталогов данных. Это данные с портала открытых данных г. Москвы 874 набора собранные в одноименную группу г. Москва в каталоге, а также данные из системы справочников ФФОМС России, 91 наборов данных помещенных в группы Справочники и классификаторы и Медицина.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Единый реестр медицинских организаций - это чуть менее чем 20 тысяч организаций
- Адресный реестр города Москвы - 440 тысяч записей

Напомню, что все данные загружаемые в DataCrafter проходят преобразование из изначальных форматов в формат JSON/BSON, хранятся внутри MongoDB и доступны через унифицированные выгрузки и API.

На сегодня в Datacrafter'е собрано:
- 4392 набора данных с 4534 таблицами
- 408 миллионов записей
- 5258 файлов экспорта (сборок данных)
- 281.7 гигабайт структурированных данных в СУБД
- более 60 тысяч полей
- из которых недокументировано 25 тысяч, а классифицировано 9.7 тысяч

Вскоре в каталог DataCrafter'а будут загружены данные из других каталогов государственных данных, как федеральных, так и российских региональных. Это уже требует реорганизации интерфейса и выгрузок данных, как минимум, удобного поиска по всем наборам, а не только по их названиям как сейчас.

#data #classifiers #moscow #catalogs #datacatalog
В каталог DataCrafter загружены данные каталога справочников и классификаторов Минздрава РФ nsi.rosminzdrav.ru, это 1520 справочников помещенных в группы Справочники и классификаторы и Медицина. Их совокупный объём составляет более 7 гигабайт.

Все данные доступны как открытые данные, могут быть выгружены в виде цельных датасетов для MongoDB и с открытым API.

Из интересных данных, например:
- Алфавитный указатель к Международной статистической классификации болезней и проблем, связанных со здоровьем - это чуть менее чем 1 миллион 250 тысяч записей
- Классификатор адресов России. Улицы (1.2.643.5.1.13.2.1.1.663) - создан на базе КЛАДР 4.0, включает 520 тысяч записей

В общей сложности новые наборы данных содержат 15 тысяч полей и около 7 миллионов записей. В ближайшее время все загруженные наборы данных будут подвергнуты автоматическому анализу и классификации, типы полей будут идентифицированы и привязаны к кодам классификации в разделе Классификация проекта.

#opendata #datacatalogs #medicine #data #datasets
Очень хорошо что открытые API появляются и у государственных проектов. Открытые документированные API, что немаловажно
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В проекте СП РФ "Госрасходы" теперь доступен открытый и документированный API с данными о расходах федерального бюджета.

Мы продолжаем не только публиковать машиночитаемые открытые данные по госфинансам, но и расширять наборы данных, предоставляемых по API.

Теперь по API можно получать не только данные о контрактах, заказчиках, субсидиях, получателях субсидий и нацпроектах, но и о расходах федерального бюджета.

API содержит:
- строки бюджета;
- расходы бюджета в разрезах ГРБС, разделов и подразделов, нацпроектов и госпрограмм;
- справочники, используемые в модуле "Бюджет" (справочник по разделам бюджета, перечень ГРБС, перечень госпрограмм и непрограммных направлений расходов, перечень нацпроектов, перечень видов расходов).

Документация и подробности тут: https://spending.gov.ru/pages/devs_api/
В каталог DataCrafter были добавлены 40 наборов данных судебной системы города Москвы, они собраны в разделе Судебная система и включают такие наборы данных как:
- Перечень всех дел, находящихся в судах общей юрисдикции города Москвы - 5,3 миллиона дел
- Информация по первичным документам гражданского производства в судах общей юрисдикции города Москвы - 757 тысяч документов
- Расписание судебных заседаний в судах общей юрисдикции города Москвы - 3,7 миллиона записей
и многие другие наборы данных в общей сложности на 20 гигабайт структурированных данных.

Для работы с этими данными требуется регистрация на портале, доступ к ним осуществляется через ключ выдаваемый автоматически в личном кабинете.

Общая статистика
В общей сложности в каталоге DataCrafter на 27.10.2021 собрано 5952 наборов данных, 6094 таблицы, 433 миллиона строк (записей) в СУБД, 312 ГБ структурированных данных, 75 813 уникальных полей метаданных из которых классифицировано 9731 поле (выявлен один из идентификаторов - ИНН/ОГРН/ОКАТО и др).
Что известно о лифтах и их производителях в домах Москвы?

В каталоге DataCrafter есть набора данных об установленных лифтах в городе Москве, включая: адрес установки, регистрационный номер, грузоподъемность лифта, скорость и наименование производителя.

Режим доступа: по API и уникальному ключу, доступному после регистрации. Объем: 73 761 записей, 20.0 MB.

Набор данных: https://data.apicrafter.ru/packages/moslifts.

Немного выводов на основе данных. Самые популярные производители лифтов многоэтажных домов в Москве: Карачаровский механический завод (КМЗ), Щербинский лифтостроительный завод (ЩЛЗ) и OTIS.

44,7% от общего числа лифтов в этом наборе данных имеют грузоподъемность не более 400 кг. Еще 18,8% — не более 630 кг.

В среднем самые быстрые лифты — это Hangzhou Aolida Elevator (2 м/c), SIGMA Elevator Company (1,55 м/c), KONE (1,4 м/c), SCHINDLER (1,37 м/с).

Набор данных может быть интересен тем, кто анализирует городские данные в исследовательских целях, а также предпринимателям рынка лифтов.
APICrafter
Что известно о лифтах и их производителях в домах Москвы? В каталоге DataCrafter есть набора данных об установленных лифтах в городе Москве, включая: адрес установки, регистрационный номер, грузоподъемность лифта, скорость и наименование производителя. Режим…
Что можно сделать еще?

— Проанализировать данные о лифтах сопоставив их с данными из базы о жилых домах, которая содержит сведения, паспорта, данные по управляющим компаниям и ТСЖ по жилым домам в Москве: https://data.apicrafter.ru/packages/dommosru.
— Имея данные о конкретных адресах, где установлен лифт, добавить колонки с административными округами и районами.
— Геокодировать адреса домов, где установлен лифты, чтобы визуализировать на карте.

Больше открытых данных на другие темы вы найдете на сайте DataCrafter: https://data.apicrafter.ru

Если вы представляете некоммерческий, исследовательский или научный проект, и хотите получить данные, уже опубликованные на DataCrafter, напишите нам на эл. почту [email protected].
В каталог APICrafter'а загружен архив экстренных оповещений Росгидромета с 2013 по 2021 год включительно, актуальные сведения на 28 октября 2021 года [1]. В архиве 7672 записи, общим объёмом 2,9 мегабайта. Поскольку в первоисточнике присутствуют только записи о точной дате и времени оповещения и краткий текст, то и здесь представлены эти же данные.

Данные можно скачать без авторизации в формате пакета данных в формате MongoDB (BSON) [2], а также через API.

Они могут быть полезны исследователям обучающих алгоритмы выявления именованных объектов, разработчикам систем оповещения с расшифровкой упоминаемых географических объектов и погодных явлений, журналистам исследующим природные катастрофы и их частоту в нашей стране.

Ссылки:
[1] https://data.apicrafter.ru/packages/meteorf-extramessage
[2] https://data.apicrafter.ru/packages/meteorf-extramessage/builds

#opendata #datasets #weather
Об инструменте командной строки APIBackuper для архивирования/резервного копирования вызовов API, который используется при работе с каталогом DataCrafter.

Ссылка: https://github.com/ruarxive/apibackuper
Forwarded from Ivan Begtin (Ivan Begtin)
Один из инструментов с открытым кодом который используется внутри каталога данных DataCrafter - это утилита командной строки APIBackuper.

Изначально она разрабатывалась для архивации данных которые предоставляются только через API. Таких примеров много, многие государственные информационные системы устроены именно так - есть API, чаще недокументированное, и поверх него работает веб интерфейс. Но, конечно, это не только про государственные информационные системы, такое есть и у частных проектов.

Эта утилита работает без кода, через настройки конфиг файла в котором указываются параметры обращения к API. Вот тут пример по получению данных из API российского реестра удостоверяющих центров.

Чтобы собрать данные нужно в папке с этим конфигом запустить утилиту
apibackuper run full

А после сбора данных выполнить команду apibackuper export jsonl data.jsonl

На выходе получается файл в формате JSON lines который можно обрабатывать другими инструментами.

#opendata #tools #api #openapi