APICrafter
200 subscribers
32 photos
59 links
Открытые и коммерческие API для доступа к данным о компаниях, статистики, госфинансам, финансовой сфере и так далее.
Download Telegram
Новые наборы данных в APICrafter:
- база лицензий такси в Москве с 2011 года по июль 2021 года https://beta.apicrafter.ru/tables/mostaxi/licenses всего 544 тысячи лицензий по 84 тысячам юридических лиц и ИП. Охватывает все лицензии выданные в Москве, возможен поиск по ИНН и ОГРН получателей лицензий

- база лифтов Москвы https://beta.apicrafter.ru/packages/moslifts/tables всего 73 тысячи лифтов 93 производителей. Позволяет найти дома с лифтами произведенными на определенных заводах, содержит уникальные номера лифтов, их грузоподъёмность и скорость движения.

- база выплат ресурсодобывающих компаний правительствам стран https://beta.apicrafter.ru/packages/resourceprj/tables 1008 компаний, 12 тысяч платежей и 9705 проектов. Включая данные по российским нефтегазовым компаниям таким как Газпром, Роснефть, Лукойл, EN+, Фосагро и многие другие.
Это набор данных полностью доступен как открытые данные, можно использовать API без авторизации, например, https://api.crftr.net/open/rawapi/v3/resprojects/companies?where={%22country%22:%22Russian%20Federation%22} выдаст список ресурсодобывающих компаний ведущих деятельность в России.
Данные собраны из открытого проекта Resource Projects и охватывают компании отчитывающиеся публично на биржах США, Великобритании и Канады. Также эти данные можно скачать в виде цельного пакета данных в разделе сборки данных https://beta.apicrafter.ru/packages/resourceprj/builds содержит все таблицы в jsonl формате.
Новые наборы данных в APICrafter:
- Кадастровая оценка недвижимости в Санкт-Петербурге https://beta.apicrafter.ru/packages/commimspbcadastr/tables по зданиям, земельным участкам, машиноместам и тд. всего чуть менее 268 тысяч объектов
- Объекты недвижимости комитета имущества Санкт-Петербурка https://beta.apicrafter.ru/packages/commimspbrealestate/tables чуть менее 49 тысяч объектов включая: Нестационарные торговые объекты, Объекты творческих мастерских, Свободные объекты и другие
- Реестр собственности Санкт-Петербурга https://beta.apicrafter.ru/packages/commimspbrealty/tables включая недвижимое и движимое имущество. Всего 364 тысячи объектов

Все эти данные находятся в тематической группе "Инфраструктура" https://beta.apicrafter.ru/topics/infrastructure и по всем есть сведения о их местонахождении, кадастровом номере и адресе.

Данные доступны через API после регистрации на портале DataCrafter - https://beta.apicrafter.ru, каталоге первичных данных проекта APICrafter

#spb #datasets #realty
Новые наборы данных в APICrafter:
- Регистровая книга речных судов в Российской Федерации https://beta.apicrafter.ru/tables/rivreg/rivreg более 23 тысяч судов и сведений о них включая: реестровый номер, наименование, строительный номер, проект судна, тип и назначение и многое другое.
- Реестр организаций признанных Минюстом России нежелательными https://beta.apicrafter.ru/packages/mjunwantedorgs небольшой набор данных, можно скачать его напрямую https://beta.apicrafter.ru/packages/mjunwantedorgs/builds

Сейчас APICrafter реже обновляется отдельными наборами данных поскольку мы работаем над внесением сразу большого числа (сотни и тысячи!) датасетов разом и для этого обновляем код чтобы эти наборы данных лучше отображались и с ними можно было работать.

Скоро данных будет больше!

#opendata #datasets
Новые наборы данных в APICrafter:
- Статистика регистрации юридических лиц по почтовым индексам https://beta.apicrafter.ru/packages/egrulpoststats
- Статистика регистрации юридических лиц по кодам КЛАДР https://beta.apicrafter.ru/packages/egrulkladrstats
- Записи из ЕГРЮЛ сокращённые для статистического анализа https://beta.apicrafter.ru/packages/egrulstatsrecords (11,2 миллиона записей), 5.8 гигабайт

Если первые два набора - это уже рассчитанные статистические показатели, то третий набор включает данные для анализа регистрации и ликвидации юридических лиц по почтовым индексам, кодам КЛАДР, кодам ОКОПФ, кодам ОКФЭД и основаниям ликвидации. Фактически, можно замерить сколько юр лиц по конкретному коду ОКВЭД создаётся и ликвидируется по дням, месяцам, годам, территориям и так далее.

Эти наборы данных являются открытыми и их можно скачать целиком в форматах CSV, BSON и JSON lines в разделах "версии и сборки" по каждому набору данных или воспользоваться API для доступа к данным.

Все эти наборы данных созданы на базе ЕГРЮЛ, доступ к которому также есть через систему APICrafter https://apicrafter.ru и там же можно оформить подписку для коммерческого доступа к данным.

#opendata #data #egrul
На каких автомобилях ездят таксисты в Москве и Подмосковье?

В Тинькофф — журнале вышла статья Алексея Смагина о такси, зарегистрированных в России, Москве и Подмосковье, со статистикой и данными о типах машин, используемых таксистами.

Ссылка на статью: https://journal.tinkoff.ru/taxi-stat.

От проекта DataCrafter мы предоставили редакции полный набор данных о такси в Москве и Подмосковье.

Ссылка на датасет: https://beta.apicrafter.ru/tables/mostaxi/licenses.

Если вы журналист и работаете над дата-материалом, данные для которого есть у нас в коллекции, то обращайтесь к нам на емейл [email protected], и мы постараемся вам помочь!
Forwarded from Инфокультура
🗺 С 10 по 30 сентября пройдет масштабный марафон по картографированию городов России в формате открытых данных с помощью OpenStreetMap! Инфокультура и APICrafter @apicrafter выступают партнерами мероприятия и предоставят специальные призы победителям.

Каждый желающий может оставить след на карте и помочь сотням исследователей и активистов собрать данные о стране.

🔹 Почему это важно?
В России большая проблема не только с самими дорогами, но и c данными по ним. Открытых источников данных практически нет, а те, что есть, часто неполные.
Провести анализ доступности транспорта, рассчитать число велодорожек, посмотреть, какие факторы больше всего влияют на число жертв в ДТП — все это возможно только на основе открытых карт OpenStreetMap, данные в которых пополняются самими пользователями.
Но даже накопленных за много лет данных недостаточно для улучшения улиц российских городов. Организаторы конкурса хотят сделать карты полнее, доступнее и лучше, объединив усилия сотен добровольцев со всех уголков страны.

🔹 Что надо фиксировать?
Организаторы выбрали самые важные факторы, влияющие на ДТП, качество городских пространств и общественного транспорта. Это простые, но важные объекты: число полос, скоростной режим, островки безопасности, пешеходные переходы и др., — анализ которых позволит сделать улицы комфортнее.

🏆 В конкурсе 2 номинации — новички и профессионалы. Победители получат денежные призы и специальные подарки от партнеров.

Для тех, кто никогда раньше не работал с картами, организаторы специально подготовили простые инструкции, а также поддержку менторов.

👉 Подробности о конкурсе и регистрация для участия на сайте: https://osm-competition.tilda.ws/
API российских государственных сервисов

Открытые данные и API — это одно из самых технологичных и демократичных проявлений деятельности органов государственной власти.

Многие из существующих государственных баз и наборов открытых данных уже пополняют коллекцию DataCrafter (https://beta.apicrafter.ru/topics). Расскажем о наиболее полных и функциональных государственных первоисточниках открытых данных с API:

— Портал открытых данных Минкультуры России предлагает разработчикам и аналитикам воспользоваться программным интерфейсом (API) и автоматизировать получение и обновление наборов открытых данных Минкультуры России, интегрируя их в свои проекты. Например, с его помощью вы можете получить доступ к данным «Государственный каталог Музейного фонда Российской Федерации».

— Единый портал бюджетной системы РФ «Электронный бюджет» (ЕПБС) имеет раздел с открытыми данными и предоставляет недокументированный API.

К примеру, ЕПБС является источником данных по распределителям и получателям субсидий для проекта «Госзатраты» (@clearspending.ru). Данные об организациях собраны из Реестра участников бюджетного процесса, а также юридических лиц, не являющихся участниками бюджетного процесса. Ссылка на сводный реестр: https://bit.ly/2SnFn0F.

Портал открытых данных Правительства Москвы. На портале опубликовано более 1000 тематических наборов данных и справочников, в которых содержится информация более чем о 1,9 млн объектах городской инфраструктуры. Для разработчиков данные представлены в специализированных машиночитаемых форматах и доступны через API.

Портал открытых данных Санкт-Петербурга. На портале опубликовано 119 наборов данных, большая часть из которых относится к данным о городской инфраструктуре: объекты образования, спорта, здравоохранения, а также культурные и досуговые места. Разработчики могут скачивать отдельные наборы данных в машиночитаемых форматах, а также получить к ним доступ через API.

Больше открытых данных вы можете найти на портале DataCrafter: https://beta.apicrafter.ru/topics. Подключайтесь к API и используйте данные в своих проектах!
Изучаете некоммерческий сектор? Хотите узнать, какими социальными проблемами НКО занимаются в вашем регионе? Или оценить, насколько они аффилированы с властью? Интересна тема госНКО? Предлагаем вашему вниманию подборку источников данных о секторе:

— Портал «Открытые НКО» (https://openngo.ru) представляет собой систему раскрытия информации о некоммерческих организациях (НКО) в России. На портале можно посмотреть профили организаций с основной информацией о деятельности и руководителях, а также узнать, как финансируются разные типы НКО из государственных источников: гранты, госконтракты, субсидии. Для поиска информации об определенной НКО нужно всего лишь знать ее название или ИНН. База данных портала является открытой и к ней можно обращаться с помощью API: https://bit.ly/openngo-API.

— На сайте Фонда президентских грантов (ФПГ) в разделе «Открытость» опубликованы открытые данные с ретроспективой с 2017 года о заявках НКО на получение грантов: https://bit.ly/opendata-FPG. Данные содержат сведения о поданных и поддержанных проектах, на реализацию которых у ФПГ запрашивали финансирование.

— Расширенная версия базы некоммерческих организаций. База данных сформирована на основе данных проекта «Открытые НКО» (openngo.ru) с обогащением данных следующими атрибутами: пол руководителей и учредителей, наличие таких организаций в группах НКО, как ДОСААФ, РПЦ, политические партии и органы государственной власти. Набор данных: https://beta.apicrafter.ru/packages/openngodbext.

— Верифицированный реестр социально-ориентированных НКО в формате XLSX, сформированный в 2020 году Минэкономразвития с целью поддержки некоммерческих организаций в условиях коронавирусной пандемии. Ссылка: https://economy.gov.ru/material/dokumenty/reestr_socialno_orientirovannyh_nekommercheskih_organizaciy.html.

Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://beta.apicrafter.ru. А также мы бесплатно даем данные для ваших некоммерческих, исследовательских и научных проектов — для их запроса напишите нам на эл. почту [email protected].
В России доступно большое количество данных, отражающих состояние экономики и социальной политики на федеральном уровне. При этом в открытом доступе крайне мало хорошо структурированных данных, прежде всего, данных о качестве жизни в хорошей муниципальной детализации, привязке к отраслевым, территориальным схемам и программам развития. Еще сложнее с данными по прогнозам и планам развития.

Хотя на эти данные есть запрос со стороны бизнеса, который на их основе может создавать различные сервисы и аналитические инструменты, помогающие в эффективном управлении территориями и улучшающие качество жизни.

📆 На конференции 8 октября мы обсудим с представителями региональных властей, федеральных ведомств и коммерческих компаний вопросы доступности и качества данных, моделей анализа, оценки, прогнозирования и планирования с детализацией до муниципального и регионального уровня.

➡️ Присоединяйтесь! Подробности и регистрация на сайте: https://regiondata.aurd.ru/
Что такое таблица? Краткий обзор API для обеспечения доступности

Информация на госсайтах должна быть доступна каждому. Представляем вам технические рекомендации по верстке таблиц на веб-сайтах от Эда Соудена, разработчика государственных цифровых сервисов в Великобритании.

Эд рассказывает про работу с таблицами с точки зрения их доступности. Скринридеры позволяют перемещаться по таблицам не только от колонки к колонке, но и к следующей строке в пределах одной колонки. Если назначить не те атрибуты и применить к таблице не те свойства, то скринридер не сможет воспринимать таблицу как таблицу, и навигация будет сломана. Поэтому из-за того, что недостаточно использовать семантические теги, рекомендуется всегда проверять вёрстку сайта с помощью инструментов доступности в каждом из браузеров отдельно, так как они используют собственные характеристики для идентификации табличной вёрстки.

Добавим, что открытые данные — это следующий уровень доступности информации на сайте. Поэтому рекомендуем публиковать большие таблицы в формате открытых данных в соответствии с принятыми стандартами во всем мире.

Принципы Хартии открытых данных.
Стандарт публикации открытых данных Frictionless Data.
Открытые стандарты публикации данных в Project Open Data.
Открытые стандарты для данных от The ODI.
Открытые стандарты для данных от Университета Джона Хопкинса.

Оригинальное название доклада "What even is a table? A quick look at Accessibility APIs". Презентация: https://speakerdeck.com/edds/what-even-is-a-table-a-quick-look-at-accessibility-apis?slide=1

Пересказ доклада нашли в блоге Defront: https://defront.ru/posts/2019/10-october/19-what-even-is-a-table/

#opendata #API #a11y
Как распарсить любой веб-сайт?

Очень часто данные, представляющие общественный интерес, публикуются в неудобных немашиночитамых форматах прямиком на веб-страницах сайтах.

В коллекцию DataCrafter (https://data.apicrafter.ru/) попадают не только уже открытые данные в машиночитаемом формате, но и собранные в ручную с помощью инструментов веб-скрейпинга и парсинга.

Делимся с вами статьей об одном из подходов извлечения информации с сайтов: с чего начать, куда смотреть и что использовать.

Краткие рекомендации:
1. Проверьте, есть ли у сайта официальный API, RSS-лента, sitemap.xml и другие интерфейсы для разработчиков.
2. Найдите XHR запросы в консоли разработчика.
3. Найдите данные в JSON в HTML коде страницы.
4. Если ничего из перечисленного выше нет, пишите скрипт для парсинга HTML тегов. Вам помогут регулярные выражения, библиотеки Python — BeautifulSoup4 и Scrapy, а также фильтры XPath, CSS-selectors.

Полный текст: https://habr.com/ru/post/579336
Пока все засматриваются на визуализацию невидимой инфраструктуры интернета от Тайлера Морган-Уолла, представляем подборку источников данных о мобильных операторах и связи в России:

— Вышки сотовых операторов на основе данных OpenCellid (https://opencellid.org). Набор данных поможет сделать карту покрытия мобильной связи по операторам. Ссылка на датасет: https://data.apicrafter.ru/packages/opencellid

— Точки продаж Мегафон
https://data.apicrafter.ru/packages/megaphonsalespoints

— Точки продаж МТС
https://data.apicrafter.ru/packages/mtssalespoints

— Точки продаж Теле2
https://data.apicrafter.ru/packages/tele2salespoints

— Точки продаж Yota
https://data.apicrafter.ru/packages/yotasalespoints

— Реестр лицензий в области связи
https://data.apicrafter.ru/packages/rknliccomm

— Реестр операторов, занимающих существенное положение в сети связи общего пользования
https://data.apicrafter.ru/packages/rknsigntele

Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://data.apicrafter.
Insomnia — оптимизированный клиент API для отправления запросов REST, SOAP, GraphQL и gRPC.

Ain — это терминальный клиент HTTP API. Альтернатива дата-платформам Postman, Paw и Insomnia. Функциональность: гибкая организация API с помощью файлов и папок; использование shell-скриптов и исполняемых файлов для общих задач; легко делиться результатами с помощью командной строки curl, wget или httpie.

FastAPI — это быстрый веб-фреймворк для создания API с Python 3.6+ на основе стандартных подсказок типов Python. Основан на открытых стандартах API: OpenAPI (ранее известный как Swagger) и JSON Schema.

SQLModel — это библиотека для взаимодействия с базами данных SQL с помощью кода Python. Основана на Pydantic и SQLAlchemy.

Альтернатива Airtable с открытым исходным кодом. Превращает базу данных в MySQL, PostgreSQL, SQL Server или SQLite в в электронную таблицу. Имеет внутри программные API для REST и GraphQL. Удобна для создания собственных автоматизаций.
Digital-книжный червь: базы данных, корпуса текстов и API
— Free Bible API. Бесплатное API для получения данных из Библии на разных языках. Все ответы возвращаются в формате JSON. Можно запросить определенные сущности: конкретный перевод, стих и т.д. Есть документация. Ссылка: https://freebibleapi.com

— Проект OPUS — это пополняемый корпус текстов с параллельным переводом (parallel text) с открытым исходным кодом. Имеет публичное API. Параллельные корпуса текстов — это совокупности текстов, переводы которых уже согласованы друг с другом, как правило, предложение за предложением. Например, это параллельный корпус Организации Объединенных Наций (ООН) (https://conferences.unite.un.org/uncorpus), который состоит из официальных отчетов и других парламентских документов — все они являются общественным достоянием. Ссылка: https://opus.nlpl.eu.

— Open Library — это открытый, редактируемый библиотечный каталог, создающий веб-страницу для каждой когда-либо опубликованной книги. Есть открытое API. Карточка книги содержит информацию: тема, название, автор, издание и т.д. Ссылка: https://openlibrary.org/

— Harry Potter API — база данных всех персонажей, домов и заклинаний из вселенной о Гарри Поттере. Ссылка: https://peritract.github.io/2020/05/31/harry-potter/

— The One API — это API c доступом к базе данных о вселенной «Властелин колец». Проект открывает доступ к JSON-формату данных о книгах, персонажах, фильмах и цитатах. Есть документация. Ссылка: https://the-one-api.dev

Больше открытых данных на другие темы вы найдете на портале DataCrafter: https://data.apicrafter.ru
API - как много в этом слове)

В рамках стажировки у Николая @leftjoin осваиваю API для получения данных с разных сайтов. Очень интересно, много нового, времени не хватает. Но, как говорится, no pain - no gain))))

Мои выстраданные рекомендации тем, кто только вступает на этот тернистый путь:

1. Не забывайте ставить задержку (time.sleep хотя бы на 1-2 сек) между каждым вызовом функций API. Скрипт будет работать медленнее, но зато не забанят)

2. Сохраняйте дамп запрошенной информации на диск. В питоне для этого есть классная библиотека json. Просто в некоторых API есть дневная квота на вызов функций. Например, 1 вызов 1 функции стоит 1 юнит, а всего на сутки дается 10000 юнитов. Поверьте, при отладке скриптов юниты так и улетают) Если вдруг потребовалось собрать новые данные из полей, то использование уже сохраненного дампа будет и быстрее, и сохранит дневную квоту.

В целом разобраться с работой механизма API можно в этом материале. Ну и не забывайте про справку для каждого интересующего вас сайта. И конечно же stackoverflow в помощь)

Очень интересно услышать о вашем опыте работы с API. Помните, как все начиналось?
Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам

Сегодня в 18:30 Иван Бегтин выступит на конференции SmartData для дата-инженеров.
Доклад Ивана будет посвящён созданию каталогов и озер данных в проекте DataCrafter на базе MongoDB и больших разнородных общедоступных данных сложных форматов из неуправляемых источников.

Каталог включает такие реализованные возможности, как:
— автоматическое создание схемы данных;
— автоматическая классификация/идентификация типов пол (кадастровые номера, email, идентификаторы организаций, ссылки и т.д.);
— автоматизированное документирование;
— автоматическая оценка качества данных (в работе).

По ссылке доступна презентация доклада: https://smartdataconf.ru/talks/data-catalog-and-data-lake-based-on-mongodb-building-tech-stack-from-scratch.

Программа конференции на Хабре: https://habr.com/ru/company/jugru/blog/577864.