Ivan Begtin
9.32K subscribers
2.33K photos
4 videos
110 files
5.02K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

CTO&Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email [email protected]

Ads/promotion agent: @k0shk
Download Telegram
В рубрике интересных и полезных наборов данных geoBoundaries [1] база данных, открытые данные и открытое API с данными по границам стран с детализацией территорий, иногда, до 5 уровня, а в целом хотя бы на уровне охвата основных границ территорий.

Весь проект с открытым кодом [2] и данные всех последних версий хранятся в Github в LFS хранилище для больших файлов.

На сайте ещё и предусмотрено использование разных источников для отображения основной границы страны (да их много и они отличаются) и поддерживаются базы GADM, OCHA ROCCA, Who's On First, OSM-Boundaries возможно ещё какие-то, все не просмотрел.

Как и почти во всех таких проектах по картированию границ, здесь данные соответствуют международно-признанным границам и странам. Поэтому в аналитике где нужны ещё и, к примеру, границы Приднестровья, Южной Осетии или Абхазии и иных непризнанных территорий, эти данные необходимо дополнять.

Если Вы ищете данные с границами регионов и муниципалитетов, то на этот источник точно стоит обратить внимание. Например, данные по границам российских муниципалитетов там есть.

Данные в форматах SHP, GeoJSON, Geopackage.
Распространяются под лицензией CC-BY.
Созданы и поддерживаются Геолабораторией в университете William & Mary [3]

Ссылки:
[1] https://www.geoboundaries.org
[2] https://github.com/wmgeolab/geoBoundaries
[3] https://sites.google.com/view/wmgeolab/

#opendata #boundaries #geodata #datasets
32
Давно хочу написать на эту тему, но она какая-то огромная, о доступных данных в США. Сейчас в Dateno проиндексировано по США ~1.2 миллиона датасетов [1] из которых более 300 тысяч с портала data.gov. Это много, но есть и побольше.

Для сравнения по Германии есть 2.7 миллионов наборов данных [2].

Почему так? Потому что в Германии есть несколько государственных каталогов геоданных где они сверхдетально нарезали данные по малым сообществам. То есть это скорее про форму упаковки данных, чем про реальный их объём.

Но есть и другие факторы

Первый фактор в том что в США из-за их конфедеративной модели государства очень много данных находится в ведении отдельных штатов, а также городов и муниципалитетов (counties), в особенности это касается геоданных которых в США очень много и они очень рассеяны по разным сайтам

Второй фактор в том что многие дата продукты госорганами в США делаются ещё до того как сам термин открытые данные появился и до сих пор публикуются очень консервативно, выгрузками на FTP серверах. Соответственно чтобы превратить их в датасеты надо их правильно индексировать обогащая метаданными которые реконструировать из таблиц на веб сайтах, форм поиска и запроса и тд.

Наглядный пример, данные TIGER [2] (Topologically Integrated Geographic Encoding and Referencing database) информационной системы Бюро переписи США. Это десятки тысяч, может быть даже больше, файлов с геоданными с детализацией до городов и муниципалитетов и ещё и за разные годы. Они доступны через FTP сервер службы. [4] Но лишь в малой степени проиндексированы на национальном портале data.gov

Таких примеров много, это и база Sciencebase [5] USGS (Геологической службы США), и большие объёмы научных данных созданных и опубликованных в репозиториях финансируемых NSF и многое другое.

Я бы сказал если в каких то странах пр-ва пытаются завышать число реальных датасетов на национальных дата порталах, то в США ровно наоборот. Есть ощущение что команда data.gov совершенное не спешит его развивать, хотя от 2 до 5 миллионов наборов данных они могли бы добавить туда без феноменальных усилий.

В общем, лентяи;) Даже австралийцы сделали агрегатор и поисковик по госданным на базе движка Magda.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=United%20States
[2] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Germany
[3] https://tigerweb.geo.census.gov
[4] https://www2.census.gov/geo/tiger/
[5] https://www.sciencebase.gov/

#opendata #usa #geodata #datasets
👍7