Ivan Begtin
7.99K subscribers
1.87K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике бизнеса на открытых данных Social Explorer [1], продукт и одноимённая компания в США предоставляющая аналитический сервис с визуализацией данных на картах с детализацией до отдельных графств (Counties), аналог российских муниципальных образований. Практически все данные в их продукте - это общедоступные данные переписи США, избирательных комиссий, отчетов ФБР по преступности и других статистических индикаторов публикуемых в США с довольно высокой детализацией. Особенность продукта в том что он почти полностью ориентирован на университетскую подписку. Университеты приобретают подписку и предоставляют доступ преподавателям и студентам. Поэтому в платформе отдельно реализованы разделы по быстрому старту по тому как учить и как учиться с ней работать.

Ссылки:
[1] https://www.socialexplorer.com

#startups #opendata #geodata #usa
В рубрике интересных наборов данных CloudDrift, a platform for accelerating research with Lagrangian climate data [1] - это программная библиотека для доступа к данным собираемым с 25 тысяч дрейфующих буев в рамках программы Global Drifter Program (GDP) [2] реализуемой Национальным управлением океанических и атмосферных исследований США. Сами данные размещены на серверах Amazon и доступны в их сервисе S3 [3].

Особенность Clouddrift в том к конкретным датасетам публикуется ещё и полноценная библиотека для доступа к ним и анализа с учётом специфики данных и контекста. Авторы не первые и не единственные кто так делает, для Python есть какое-то количество программных библиотек реализованных на том же принципе, когда данные доступны не только как файлы и API, но и сразу в виде DataFrame для Pandas или как XArray в данном случае.

Что характерно, этот проект один из десятков проектов данных и инструментов о Земле финансируемый Национальным научным фондом США в рамках сообщества и программы EarthCube [4]

Ссылки:
[1] https://cloud-drift.github.io/clouddrift/
[2] https://www.aoml.noaa.gov/phod/gdp/
[3] https://registry.opendata.aws/noaa-oar-hourly-gdp/
[4] https://www.earthcube.org/funded-projects

#opendata #opensource #science #usa #earthsciences #geodata
В рубрике интересных наборов данных проект Census Tree [1] как результат работы группы исследователей по сопоставлению данных переписей США с 1870 по 1940 годы и созданию наборов данных связей между людьми. Причём искали их создавая специальный алгоритм сопоставления и используя генеалогические базы данных. Уникально и то что в США существуют открытые микроданные переписей начиная с 1790 года [2] и то что исследователи могут с этим работать.

Результаты представлены в виде коллекции наборов данных [3] сопоставлений связей между двумя переписями. Наборы данных включают файлы от нескольких мегабайт до нескольких гигабайт, но для выгрузки нужна регистрация на OpenICPSR [4].

Данные доступны в формате CSV под лицензией CC-BY 4.0

Ссылки:
[1] https://www.censustree.org
[2] https://usa.ipums.org/usa/full_count.shtml
[3] https://www.censustree.org/data
[4] https://www.openicpsr.org

#opendata #usa #census #sociology #datasets
В рубрике как это устроено у них проект OpenEI (Open Energy Initiative) [1] развивается Департаментом энергетики США и включает инфраструктурные ресурсы для исследователей в области энергетики. В том числе репозитории открытых научных данных:
- Open Energy Data Initiative [2] 26 озёр данных посвящённых теме энергетики, общим объёмом 2.7 петабайта
- Geothermal Data Repository [3] данных по геотермальным источникам, 271 терабайт
- Marine and Hydrokinetic Data Repository [4] данных по морским и гидрокинетическим источникам, 29 терабайт

А также многие другие данные [5].

Все данные, включая наиболее крупные наборы данных, доступны без взимания платы. К большинству наборов данных приложены примеры в Jupyter Notebook, доступ предоставляется через инфраструктуру Amazon AWS, Azure или Google Cloud. Всё за что нужно платить исследователям - это за использование инфраструктуры облачных сервисов Microsoft, Amazon или Google, и только в тех случаях, когда им нужны высокопроизводительные расчёты.

От себя добавлю что 3 петабайта открытых данных это не предел, есть наборы данных и общедоступные озёра данных и большего размера.

Ссылки:
[1] https://openei.org
[2] https://data.openei.org
[3] https://gdr.openei.org/
[4] https://mhkdr.openei.org/
[5] https://openei.org/wiki/Data

#energy #opendata #usa #datacatalogs #datasets
В рубрике как это работает у них о том как публикация данных для обучения ИИ и медицинских исследований в США. На портале CDC Data Platform от National Cancer Institute опубликовано более миллиона изображений объёмом более чем 6.7 Петабайт [1] их которых 20 Терабайт (около 30% по числу файлов) являются полностью открытыми, а остальные в режиме регламентированного доступа, предоставляются по запросу после авторизации. Для доступа используется специальное ПО для выгрузки данных. У портала с данными есть открытое API и открытый код [2].

В целом это один из наиболее крупных порталов научных данных, из его особенностей это то что он имеет предметную, а не общетематическую природу и набором данных на нём называется "коллекция" (collection) случаев (case) включающая множество файлов изображений. Это особенность научных порталов в том что для превращения в порталы открытых данных или просто порталы данных в нём имеющиеся тематические понятия приводятся к понятиям набора данных.

Ссылки:
[1] https://portal.gdc.cancer.gov/repository?facetTab=files&files_sort=%5B%7B%22field%22%3A%22file_size%22%2C%22order%22%3A%22desc%22%7D%5D&searchTableTab=files
[2] https://github.com/NCI-GDC/gdc-docs

#opendata #datasets #genomics #cancer #openaccess #data #usa
В рубрике как это работает у них проект PDAP, Police Data Accessibility Project [1], как очевидно из названия посвящён он доступности данных полиции в США для граждан и исследователей. Фактически это база из 1764 записей со ссылками на общедоступные данные полиции в США. Доступные в самых разных формах: геоданные в виде шэйпов, CSV файлы, страницы HTML или отчёты в PDF и с разбивкой по типу категории данных: преступность, вызовы полиции, остановки на дорогах, сведения о заключённых и так далее. Много всего и на основе этого можно, например, сравнивать штаты и отдельные графства по уровню актуальности и открытости их правоохранительных данных.

Для США это задача актуальная, полиция там децентрализована, систематизация данных процесс трудоёмкий, но одновременно с этим много хороших практик которые можно приводить в пример.

Ссылки:
[1] https://pdap.io

#opendata #usa #crime #police #data #datasets
В рубрике как это устроено у них, об открытых данных в США:
1. Особенность открытости данных в США в сильном сдвиге раскрытия данных на данные научные и геоданные. Даже на основном федеральном портале data.gov [1] этот акцент явно присутствует. Федеральный портал работает на движке CKAN и агрегирует из многих (не всех) порталов данных федеральных органов и их правительственных организаций.
2. Далеко не у всех штатов в США есть порталы открытых данных. Например их нет у Висконсина, Вайоминга, Западной Виргинии да и многих других. При этом порталы открытых данных есть у многих городов в этих штатах, а также почти у всех штатов и ещё большего числа городов есть порталы геоданных.
3. Самые популярные продукты для публикации открытых данных - это Socrata и ArcGIS Hub. Socrata были первопроходцами SaaS сервисов для публикации данных госорганами, но уже давно стагнируют. ArcGIS Hub очень популярен в муниципалитетах и используют его, как для публикации геоданных, так и просто данных без геопривязки.
4. Почти у каждого университета где ведутся научные исследования или научного центра если, или специальный портал для публикации данных или публикация научных данных вместе с другими Research outputs (научными результатами). В основном на платформах Figshare, Elsevier Pure, Esploro, DSpace, а также большом числе специализированных научных порталах и агрегаторах таких как ScienceBase [2]
5. Большая часть корпоративных порталов открытых данных также происходят из США поскольку и дата корпораций больше в США. Порталы данных Amazon, Google, Microsoft и многих других.
6. Как и во всех развитых странах основные тренды публикации данных: открытый доступ (научные данные), геоданные/геопорталы (для аналитиков и граждан), прозрачность государства (для правозащитников и журналистов) и экономический эффект (малый и средний бизнес). Геоданных и научных данных более всего по заметности.
7. Важная особенность, почти нет такого "роccийского явления" как симуляция открытости. Госорганы в США ничего не обязаны публиковать по "белым спискам" открытых данных и если уж публикуют, то это почти всегда реакция на общественный запрос.
8. В реестре Dateno сейчас 1851 портал с данными США из которых 73% это геопорталы [3]. Всего данных на всех порталах более 1 миллиона датасетов. На самом деле порталов и данных куда больше, но их надо буквально вручную искать поскольку единого каталога порталов открытых данных в США никогда не было и нет.

Ссылки:
[1] https://www.data.gov
[2] https://www.sciencebase.gov/
[3] https://dateno.io/registry/country/US

#opendata #usa #datacatalogs #datasets
В рубрике как это устроено у них Национальная служба сельскохозяйственной статистики США (NASS) [1] собирает и раскрывает данные по сельскохозяйственным территориям, урожаю, демографии, экономике и иным предметам статистического наблюдения по всей территории США с детализацией до отдельных графств, аналог муниципалитетов.

Все данные доступны, как классическим образом, в форме таблиц и построителя запросов, так и с возможностью получить базу статистики сразу и целиком в виде нескольких файлов общим объёмом в 3GB в сжатом виде, актуализируемых ежесуточно.

А также доступ организован через API системы Quick Stats где нужные данные можно получить быстро и в формате JSON. [3]

Дополнительно эти данные распространяются в виде геопространственных данных через несколько картографических сервисов [4]

Ссылки:
[1] https://www.nass.usda.gov
[2] https://www.nass.usda.gov/datasets/
[3] https://quickstats.nass.usda.gov/api
[4] https://croplandcros.scinet.usda.gov/

#opendata #usa #statistics #agriculture #datasets
В качестве примера интерактивной визуально насыщенной инфографики свежее видео Стива Баллмера, бывшего главы Microsoft, про бюджет США [1]. Для тех кто не может посмотреть видео на Youtube я специально сделал набор скриншотов.

Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.

Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.

Ссылки:
[1] https://usafacts.org/just-the-facts/budget/

#budget #government #usa #dataviz #infographics
В рубрике как это устроено у них раскрытие данных в штате Нью Джерси, США. Раскрытие данных в штате осуществляется в рамках
NJ Geographic Information Network [1] проекте основанном NJOGIS (New Jersey Office of GIS).

В рамках этого проекта публикуются геоданные штата, начиная с информации о дорогах, кадастровых участках и иных данных большая часть которых доступна через портал в облаке ArcGIS [3], а также на сайте проекта публикуются изображения аэрофотосъёмки c 1920 по 2020 годы [4] доступные, как в виде сервисов по стандарту WMS, так и данных для массовой выгрузки.

Что может показаться необычным, но, на самом деле, уже становится стандартным способом раскрытия многих данных, так это то что все крупные датасеты предоставляются не только для выгрузки по прямым ссылкам, но и изнутри инфраструктуры Amazon AWS с помощью их утилиты для командной строки.

Общий объём данных измеряется десятка терабайт, начиная от простых CSV таблиц, до большого числа GeoTIFF файлов оптимизированных для облаков.

Ссылки:
[1] https://njgin.nj.gov
[2] https://njgin.nj.gov/njgin/about/ogis/
[3] https://njogis-newjersey.opendata.arcgis.com/
[4] https://njgin.nj.gov/njgin/edata/imagery/index.html

#opendata #usa #datasets #geodata #datacatalogs
В рубрике больших каталогов открытых данных проект DR Power (egriddata.org) [1] с наборами данных моделей для моделирования системы электроэнергетики США. Содержит 272 тысячи наборов данных, фактически модель по каждому объекту, и почти 800 тысяч файлов, в основном, в специализированных для проектирования электроэнергетики форматах.

Все данные опубликованы на портале на базе ПО DKAN, у которого есть открытое API, но которое явно не справляется с такой нагрузкой.

Ссылки:
[1] https://egriddata.org

#opendata #datasets #energy #usa
Давно хочу написать на эту тему, но она какая-то огромная, о доступных данных в США. Сейчас в Dateno проиндексировано по США ~1.2 миллиона датасетов [1] из которых более 300 тысяч с портала data.gov. Это много, но есть и побольше.

Для сравнения по Германии есть 2.7 миллионов наборов данных [2].

Почему так? Потому что в Германии есть несколько государственных каталогов геоданных где они сверхдетально нарезали данные по малым сообществам. То есть это скорее про форму упаковки данных, чем про реальный их объём.

Но есть и другие факторы

Первый фактор в том что в США из-за их конфедеративной модели государства очень много данных находится в ведении отдельных штатов, а также городов и муниципалитетов (counties), в особенности это касается геоданных которых в США очень много и они очень рассеяны по разным сайтам

Второй фактор в том что многие дата продукты госорганами в США делаются ещё до того как сам термин открытые данные появился и до сих пор публикуются очень консервативно, выгрузками на FTP серверах. Соответственно чтобы превратить их в датасеты надо их правильно индексировать обогащая метаданными которые реконструировать из таблиц на веб сайтах, форм поиска и запроса и тд.

Наглядный пример, данные TIGER [2] (Topologically Integrated Geographic Encoding and Referencing database) информационной системы Бюро переписи США. Это десятки тысяч, может быть даже больше, файлов с геоданными с детализацией до городов и муниципалитетов и ещё и за разные годы. Они доступны через FTP сервер службы. [4] Но лишь в малой степени проиндексированы на национальном портале data.gov

Таких примеров много, это и база Sciencebase [5] USGS (Геологической службы США), и большие объёмы научных данных созданных и опубликованных в репозиториях финансируемых NSF и многое другое.

Я бы сказал если в каких то странах пр-ва пытаются завышать число реальных датасетов на национальных дата порталах, то в США ровно наоборот. Есть ощущение что команда data.gov совершенное не спешит его развивать, хотя от 2 до 5 миллионов наборов данных они могли бы добавить туда без феноменальных усилий.

В общем, лентяи;) Даже австралийцы сделали агрегатор и поисковик по госданным на базе движка Magda.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=United%20States
[2] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Germany
[3] https://tigerweb.geo.census.gov
[4] https://www2.census.gov/geo/tiger/
[5] https://www.sciencebase.gov/

#opendata #usa #geodata #datasets
Про плохие практики публикации открытых данных, вот пример совершенно неожиданный, дата хаб штата Массачусетс (США) [1].

С виду он неплохо выглядит, по крайней мере внешне, но, это не должно обманывать, у него есть несколько системных недостатков:
1. Это не каталог данных, а список внешних ресурсов. Практически все ссылки ведут на другие сайты принадлежащие штату или федеральной власти, вроде сайта переписи census.gov
2. Наборов данных там всего 384 что очень мало, потому что на одном только портале города Кембридж (входит в штат) есть 432 набора данных [2]
3. В поиске нет возможности фильтровать ни по одному из фильтров кроме темы
4. Нет API, нет экспорта метаданных,
5. Часть ссылок вообще ведут на страницы сервиса Tableau с дашбордами откуда данные не скачать без авторизации [3]

В общем-то для США это довольно редкий пример, потому как там почти все порталы открытых данных сделаны, либо на движке Socrata, либо CKAN, либо ArcGIS Hub.

При этом у штата есть вполне приличный по размеру и содержанию каталог геоданных [4] с 2439 наборами данных, включая исторические.

Впрочем я уже писал о том что в США важные особенности развития открытых данных - это высокая их фрагментированность, рассеяность по множеству ресурсов и в том что геоданных и научных данных значительно больше всех остальных.

Ссылки:
[1] https://data.mass.gov
[2] https://data.cambridgema.gov/browse
[3] https://public.tableau.com/app/profile/drap4687/viz/MassachusettsTrialCourtChargesDashboard/AllCharges
[4] https://gis.data.mass.gov/search

#opendata #datasets #data #usa #geodata