Ivan Begtin
8.1K subscribers
2.03K photos
3 videos
102 files
4.76K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Graphic Walker [1] ещё один симпатичный инструмент для анализа и визуализации данных позиционируемый как альтернатива Tableau.

На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.

Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR

#opensource #dataviz #dataanalysis
И, вдогонку, признаки хорошо организованной статистической системы:
1. Данные на первом месте (data-first). Это основной тип продуктов, вся остальная деятельность статслужбы должна быть вторичны.
2. Данные доступны в современных статистических (JSON-Stat, SDMX) или аналитических (Parquet) форматах. Или, как минимум, в CSV, JSON, XML с документацией схемы данных.
3. Все метаданных используемые в статбазах и публикациях систематизированы и ведутся в системе управления метаданными, с регулярными обновлениями.
4. Данные доступны с максимально возможной глубиной, с момента ведения переписей, сбора официальной статистики.
5. Доступ ко всем статданным и базам данных возможен через API
6. Все данные доступны для массовой выгрузки, без необходимости запрашивать по API тысячи индикаторов, но с возможностью скачать их целиком.
7. Исторические статистические сборники оцифрованы, доступны
8. Абсолютно все статистические сборники вначале публикуются онлайн и печатаются только в режиме печати по требованию
9. Статистические сборники для публикации в вебе создаются как интерактивные истории в модели data storytelling
10. Статистические отчеты, если они создаются как PDF файлы, являются книгами и публикуются только в случае значимых смысловых документов, но не для печати таблиц имеющихся в статистических базах данных
11. Статистику имеющую геопространственную привязку должна быть возможность увидеть на интерактивной карте.
12. Вся геопространственная статистика должна быть доступна как открытые данные и открытые OGC совместимые точки подключения к API WFS, WMS
13. Доступ к статистике осуществляется через каталог или поисковую систему по данным, включая таблицы, визуализацию, методологию и публикации.
14. Должна быть информационная политика дефрагментации данных. В рамках конкретной темы или отрасли должна быть возможность посмотреть или найти данные за любой период времени в любой форме, без необходимости искать в десятках статистических и ведомственных информационных системах.

#statistics #thoughts
Тем временем французы на национальном портале открытых данных Франции data.gouv.fr добавили возможность получать данные в формате Parquet [1]

Какие молодцы!

Ссылки:
[1] https://www.data.gouv.fr/fr/posts/telecharger-des-donnees-massives-au-format-parquet/

#opendata #parquet #france #dataengineering
А я тут раскопал свои самые первые презентации что я делал для публичных выступлений, датированные 2008-2009 годами и понял что за эти годы немного прокачал навыки их подготовки.

Но занимаюсь примерно тем же самым все эти годы, с той лишь разницей что в жизни стало меньше гражданских технологий (civic tech) и больше дата инженерии. За эти годы data.gov.ru помер и, к счастью, я к нему отношения не имел.

Проект OpenGovData переродился в Хаб открытых данных, РосГосЗатраты стали Госзатратами, а многие другие проекты и продукты были созданы и часть даже живо до сих пор.

#opendata #opengov #presentations #flashback
В рубрике полезного чтения про данные, технологии и не только:
- Dismantling ELT: The Case for Graphs, Not Silos [1] размышления автора о том что такое ELT с точки зрения данных которые являются графом. Он там постоянно ссылается на закон Конвея «организации проектируют системы, которые копируют структуру коммуникаций в этой организации» и про необходимость изменения отношения к тому как данные обрабатываются.
- 7 Databases in 7 Weeks for 2025 [2] автор рассказывает о том почему стоит изучить такие базы данных как PostgreSQL, SQlite, DuckDB, Clickhouse, FoundationDB, TigerBeetle и CockroachDB. Подборка хорошая, стоит изучить
- reactable-py [3] код для быстрой визуализации датафреймов. Мне он чем то напомнил проект Datasette [4], но очень отдалённо. Удобно тем что хорошо встраивается в веб страницу и может быть полезно в дата сторителлинге.
- Field Boundaries for Agriculture (fiboa) [5] малоизвестный пока что проект по сбору наборов данных и инструментов для создания данных в сельском хозяйстве, конкретно в определении границ участков. Сами данные публикуют в Source Cooperative, каталоге больших геоданных [6]
- Common Operational Datasets [7] [8] [9] общие операционные наборы достоверных данных необходимые для принятия решений. Термин UN OCHA определяющий ключевые данные необходимые для противодействия стихийным бедствиям. Чем то напоминает концепцию high-value datasets используемую в Евросоюзе.

Ссылки:
[1] https://jack-vanlightly.com/blog/2024/11/26/dismantling-elt-the-case-for-graphs-not-silos
[2] https://matt.blwt.io/post/7-databases-in-7-weeks-for-2025/
[3] https://machow.github.io/reactable-py/get-started/index.html
[4] https://datasette.io
[5] https://github.com/fiboa
[6] https://source.coop/
[7] https://cod.unocha.org
[8] https://data.humdata.org/event/cod/
[9] https://humanitarian.atlassian.net/wiki/spaces/imtoolbox/pages/42045911/Common+Operational+Datasets+CODs

#opendata #opensource #readings #dataviz #dataframes
Ещё один симпатичный движок для индексирования и поиска текста SeekStorm [1] умеет искать по тексту на разных языках, по скорости сравним с MeiliSearch, обещают многоязычность и внутри всё написано на Rust.

В примерах есть поиск по большим коллекциям PDF файлов, должен быть удобен для поиска, например, по базам научных статей которые почти всегда в PDF.

Можно попробовать с его помощью проиндексировать много миллионов документов. Десятки миллионов документов!

Но надо тестировать чтобы понять как он умеет инкрементально обрабатывать документов, сколько потребляет ресурсов и тд.

Ссылки:
[1] https://github.com/SeekStorm/SeekStorm
[2] https://deephn.org/?q=Data+indexing

#opensource #dataengineering
В рубрике как это устроено у них официальная статистика Мексики ведётся Национальным институтом статистики и географии. Это довольно частое совмещение функций в латиноамериканских странах. Особенность мексиканской статистики в том что на официальном сайте де факто присутствует несколько каталогов публикаций/индикаторов/таблиц [1] каждый из которых можно рассматривать как каталоги данных и геоданных.

Например:
- 85+ тысяч датасетов с геоданными в разделе карт [2], преимущественно машиночитаемые
- 12+ тысяч статистических публикаций из которых около половины - это файлы Excel
- 20+ тысяч таблиц, данных, геоданных и микроданных в разделе массовой выгрузки (bulk download)
- 24+ тысячи индикаторов в банке индикаторов с их машиночитаемой выгрузкой

и другие данные в разделе открытых данных [6].

Для полного счастья нехватает только чтобы все эти данные были упакованы в единый дата каталог, но даже в текущем виде всё довольно неплохо организовано.

Ссылки:
[1] https://www.inegi.org.mx/siscon/
[2] https://en.www.inegi.org.mx/app/mapas/
[3] https://www.inegi.org.mx/app/publicaciones/
[4] https://en.www.inegi.org.mx/app/descarga/
[5] https://en.www.inegi.org.mx/app/indicadores/
[6] https://www.inegi.org.mx/datosabiertos/

#opendata #mexico #statistics
Тем временем Amazon анонсировали S3 Tables [1], возможность работать с данными таблиц которые хранятся в S3, но работа с ними как с дата файлами и через SQL запросы. Внутри этого всего движок поддерживающий Apache Iceberg, относительно новый открытый формат хранения и распространения таблиц внутри которого файлы Parquet и ассоциированные с ними метаданныею

Много где пишут что такой продукт может подорвать бизнес крупнейших игроков рынка облачной дата аналитики и хранения Databricks и Snowflake [2], цена, как и у всех AWS продуктов, будет сложная, но похоже что честная за такой сервис.

Правда, по личному опыту могу сказать что использование облачных сервисов Amazon это удобно, но всегда влетает в копеечку. На эту тему бесконечное число мемов и даже стартапы есть оптимизирующие облачное использование.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/
[2] https://meltware.com/2024/12/04/s3-tables.html

#opensource #dataengineering #amazon #aws
В рубрике интересных и полезных наборов данных geoBoundaries [1] база данных, открытые данные и открытое API с данными по границам стран с детализацией территорий, иногда, до 5 уровня, а в целом хотя бы на уровне охвата основных границ территорий.

Весь проект с открытым кодом [2] и данные всех последних версий хранятся в Github в LFS хранилище для больших файлов.

На сайте ещё и предусмотрено использование разных источников для отображения основной границы страны (да их много и они отличаются) и поддерживаются базы GADM, OCHA ROCCA, Who's On First, OSM-Boundaries возможно ещё какие-то, все не просмотрел.

Как и почти во всех таких проектах по картированию границ, здесь данные соответствуют международно-признанным границам и странам. Поэтому в аналитике где нужны ещё и, к примеру, границы Приднестровья, Южной Осетии или Абхазии и иных непризнанных территорий, эти данные необходимо дополнять.

Если Вы ищете данные с границами регионов и муниципалитетов, то на этот источник точно стоит обратить внимание. Например, данные по границам российских муниципалитетов там есть.

Данные в форматах SHP, GeoJSON, Geopackage.
Распространяются под лицензией CC-BY.
Созданы и поддерживаются Геолабораторией в университете William & Mary [3]

Ссылки:
[1] https://www.geoboundaries.org
[2] https://github.com/wmgeolab/geoBoundaries
[3] https://sites.google.com/view/wmgeolab/

#opendata #boundaries #geodata #datasets
Давно хочу написать на эту тему, но она какая-то огромная, о доступных данных в США. Сейчас в Dateno проиндексировано по США ~1.2 миллиона датасетов [1] из которых более 300 тысяч с портала data.gov. Это много, но есть и побольше.

Для сравнения по Германии есть 2.7 миллионов наборов данных [2].

Почему так? Потому что в Германии есть несколько государственных каталогов геоданных где они сверхдетально нарезали данные по малым сообществам. То есть это скорее про форму упаковки данных, чем про реальный их объём.

Но есть и другие факторы

Первый фактор в том что в США из-за их конфедеративной модели государства очень много данных находится в ведении отдельных штатов, а также городов и муниципалитетов (counties), в особенности это касается геоданных которых в США очень много и они очень рассеяны по разным сайтам

Второй фактор в том что многие дата продукты госорганами в США делаются ещё до того как сам термин открытые данные появился и до сих пор публикуются очень консервативно, выгрузками на FTP серверах. Соответственно чтобы превратить их в датасеты надо их правильно индексировать обогащая метаданными которые реконструировать из таблиц на веб сайтах, форм поиска и запроса и тд.

Наглядный пример, данные TIGER [2] (Topologically Integrated Geographic Encoding and Referencing database) информационной системы Бюро переписи США. Это десятки тысяч, может быть даже больше, файлов с геоданными с детализацией до городов и муниципалитетов и ещё и за разные годы. Они доступны через FTP сервер службы. [4] Но лишь в малой степени проиндексированы на национальном портале data.gov

Таких примеров много, это и база Sciencebase [5] USGS (Геологической службы США), и большие объёмы научных данных созданных и опубликованных в репозиториях финансируемых NSF и многое другое.

Я бы сказал если в каких то странах пр-ва пытаются завышать число реальных датасетов на национальных дата порталах, то в США ровно наоборот. Есть ощущение что команда data.gov совершенное не спешит его развивать, хотя от 2 до 5 миллионов наборов данных они могли бы добавить туда без феноменальных усилий.

В общем, лентяи;) Даже австралийцы сделали агрегатор и поисковик по госданным на базе движка Magda.

Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=United%20States
[2] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Germany
[3] https://tigerweb.geo.census.gov
[4] https://www2.census.gov/geo/tiger/
[5] https://www.sciencebase.gov/

#opendata #usa #geodata #datasets
В The Economist статья The British state is blind [1] о том что статслужба Великобритании неправильно считала миграцию в страну и сильно её занижала. По оценкам с 2019 года, как минимум, был недооценён въезд около 1 миллиона мигрантов.

Статья под пэйволом, но есть копии её текста [2].

Тут бы, конечно, сдержаться от саркастического смеха, но сложно.

Чем отличается британская статслужба от других? Только тем что попались и эту ошибку признают. Почему мы полагаем что другие официальные стат агентства работают лучше или что их данные достовернее? Официальная статистика во многих странах уже достаточно давно в кризисе. Во многих неразвитых и развивающихся странах всё ещё полно технических и методических вопросов хотя бы по основным статпоказателям, а во многих развитых странах альтернативные источники данных становятся приоритетнее,

А думаете статистика в вашей стране не врёт?

Ссылки:
[1] https://www.economist.com/britain/2024/12/04/the-british-state-is-blind
[2] https://us6.campaign-archive.com/?e=35defdcd70&u=1a990feb5c&id=c349203b07#mctoc4

#statistics #data #migration #uk