Ivan Begtin
8.06K subscribers
1.97K photos
3 videos
102 files
4.68K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В продолжение моих расхваливаний в адрес Parquet и DuckDB, приведу ещё один пример. Для задача Dateno я в последние дни анализирую большой датасет индикаторов статистики Всемирного банка из data.worldbank.org.

И вот, для справки, Всемирный банк предоставляет данные своих индикаторов не самым удобным образом. При многих достоинствах их данных, но там почти нет того что называется массовой выгрузкой, bulk download, и приходится выкачивать данные через API. Выгрузка этих данных по каждому индикатору - это около 22 ГБ в виде 3382 JSON файлов. Общим объёмом около 76 миллионов записей. Это не все, а примерно 12% всех индикаторов которые удалось проверить. Немного, на самом деле, но всё равно надо чуть-чуть заморочиться.

После преобразования этих файлов в один Parquet файл его размер составляет 44MB, а это 0.2% от исходного объёма. Опять же полученный файл не только сохраняет все возможности его анализа, но и этот анализ происходит куда быстрее.

Откуда такая эффективность? От того что данные индикаторов сильно денормалированы. Колоночное сжатие на них крайне эффективно. Жаль что Всемирный банк данные для массовой выгрузки до сих пор не публикует, хочется надеяться что когда-нибудь начнёт.

Но важный вывод тут ещё и в другом. Если кто-то из статистических служб и не только говорит о том что они не публикуют данные потому что они очень большие и рядовой пользователь не может с ними работать, то знайте что этот человек:
1) Или безграмотен.
2) Или целенаправленно врёт.

Кроме DuckDB и Parquet есть и другие инструменты сильно снижающие порог аналитической работы на недорогих устройствах.

#opendata #duckdb #statistics #parquet #worldbank
Свежий документ Data Governance in Open Source AI [1] от Open Source Initiative про то как публиковать данные для обучения ИИ с открытым кодом. В документе много всего, важно что они промоутируют отход от чистого определения Open Data и говорят о новом (старом) подходе Data Commons с разными моделями доступа к данным.

Дословно в тексте упоминаются, привожу как есть:
- Open data: data that is freely accessible, usable and shareable without restrictions, typically
under an open license or in the Public Domain36 (for example, OpenStreetMap data);
Public data: data that is accessible to anyone without authentication or special permissions
(for example, Common Crawl data). Note that this data can degrade as web content
becomes unavailable;
Obtainable data: data that can be obtained or acquired through specific actions, such as
licensing deals, subscriptions or permissions (for example, ImageNet data);
Unshareable non-public data: data that is confidential or protected by privacy laws,
agreements or proprietary rights and cannot be legally shared or publicly distributed.


С точки зрения многих в открытых данных всё это звучит как размывание открытости, но с точки зрения практики ИИ в этом есть логика.

Ссылки:
[1] https://opensource.org/blog/reimagining-data-for-open-source-ai-a-call-to-action

#opendata #data #readings
В рубрике как это устроено у них Европейский проект Europeana [1] является не только общедоступной поисковой системой по культурному наследию Евросоюза, но и одним из крупнейших источников открытых данных используемых исследователями и просто заинтересованными пользователями.

В рамках Europeana доступно сразу несколько API [2] позволяющих получать доступ к поиску и информации об объектах в индексе, а также все метаданные доступны через открытый FTP сервер [3]. Это более 242 GB сжатых метаданных в формате RDF. После распаковски это чуть более 1TB RDF/XML документов включающих все описания всех размещённых на сайте изображений культурного наследия.

В виду высокой избыточности RDF документов, итоговые данные можно преобразовать в базу от 50 до 100GB, с чем уже можно работать без серверной инфраструктуры.

Не все знают также что Europeana - это агрегатор цифровых объектов из европейских культурных инициатив и проектов и агрегируется туда далеко не всё. Например, в Europeana лишь 626 445 записей [4] из греческого национального поисковика по культурному наследию SearchCulture.gr, а на самом сайте греческого проекта их 938 929 [5].

Тем не менее именно благодаря Europeana значительные объёмы информации о культурном наследии Европы стали доступны как открытые данные и большая часть культурных учреждений стран ЕС являются или аккредитованными партнерами Europeana или предоставляют информацию о своих коллекциях национальным аккредитованным партнерам.

Ссылки:
[1] https://www.europeana.eu
[2] https://europeana.atlassian.net/wiki/spaces/EF/pages/2461270026/API+Suite
[3] https://europeana.atlassian.net/wiki/spaces/EF/pages/2324463617/Dataset+download+and+OAI-PMH+service
[4] https://www.europeana.eu/en/collections/organisation/1331-greek-aggregator-search-culture-gr
[5] https://www.searchculture.gr/aggregator/portal/?language=en

#opendata #culture #europe #europeana
В рубрике как это устроено у них Jewish Heritage Network (JHN) голландская технологическая некоммерческая организация со специализацией на еврейском культурном наследии публикует 58 наборов данных из 33 источников общим объёмов в 834+ тысячи записей [1]. Большая часть этих данных доступна в европейском проекте Europeana, практически ко всем из них есть открытое общедоступное REST API. Часть датасетов доступны для полной выгрузки (bulk download), другие через API интерфейсы OAI-PMH.

Финансируется проект несколькими фонда поддержки еврейской культуры и из бюджета ЕС (проект Europeana).

Ссылки:
[1] https://jhn.ngo/research/#judaica_datasets

#opendata #digitalheritage #archives
Я вот тут попытался поискать в Perplexity данные по культурному наследию Армении и... если долго искать находишь самого себя. В первом же результате каталог открытых данных Армении data.opendata.am

С одной стороны приятно, а с другой что-то печально.

P.S. Печально потому что хочется чтобы людей занимающихся цифровизацией культурного наследия было больше и их работа была заметнее.

#opendata #armenia #digitalpreservation #culture
Global Fishing Watch

Для тех кто любит рыбку и всё что с ней связано, то как, кто и когда её ловят проект Global Fishing Watch [1] предоставляет интерактивную карту и наборы данных по рыболовной отрасли с возможностью отслеживать какие суда и поскольку часов ловят рыбу и где они это делают.

Данные дают в динамике, предоставляют API [2]. Охватывают только океаны и моря, в том смысле что, к примеру, Каспийского моря и Великих озёр в США/Канаде там нет.

Для выгрузки датасетов нужна регистрация, а сами данные под лицензией CC BY-NC 4.0, в основном.

Ссылки:
[1] https://globalfishingwatch.org
[2] https://globalfishingwatch.org/our-apis/

#opendata #fishing #openprojects #gisdata #geodata
В рубрике как это устроено у них Japan Search [1] поисковая система по архивам Японии охватывает десятки баз данных национальной библиографии, галерей, музеев, архивов, библиотек, каталогов научных работ, архивов фотографий и мультимедиа и многие других коллекций.

Кроме того это поисковик по данным страны поскольку в нём проиндексированы данные национального каталога data.go.jp [2] в объёме чуть менее 23 тысяч наборов данных.

Всего же через поиск доступен 31 миллион цифровых объектов.

У проекта есть открытое API [3] с интерфейсом SPARQL и REST API.

Ссылки:
[1] https://jpsearch.go.jp
[2] https://jpsearch.go.jp/csearch/jps-cross?csid=jps-cross&from=0&f-db=%2Ba12345
[3] https://jpsearch.go.jp/static/developer/en.html

#opendata #digitalheritage #datasets #japan
Видеозаписи прошедших семинаров:
- "Лучшие практики работы с большими научными данными: используем Parquet и DuckDB" доступен на сайте ИВ РАН или напрямую на RuTube или на YouTube

- "Дата-инженерия в цифровой гуманитаристике" доступен в сообществе в VK и в YouTube

Если кому-то будут интересны презентации с этих семинаров, напишите в комментарии, я их выложу онлайн или пришлю ссылку.

Честно говоря я давно не читал лекций и не выступал, сначала

Ближайшие мои выступления или мастер-классы будут в рамках дня открытых данных в России и в Армении, скорее и там, и там.

P.S. Ссылки на презентации:
- Дата инженерия в цифровой гуманитаристике
- Лучшие практики работы с большими научными данными. Используем Parquet и DuckDB

#opendata #digitalhumanities #lectures #parquet #duckdb #dataengineering
Я напомню что в начале марта состоятся дни открытых данных в России и в Армении. В России он пройдёт 1 марта, в субботу, в Армении предварительно 5-6 марта, скоро напишем точную дату в @opendataam.

В Армении всё будет проходить оффлайн и есть запрос на интересные мастер-классы по работе с данными. Если Вы в Армении и хотите такой мастер-класс рассказать, очень ждём. Языки выступлений - армянский, английский или русский. Сейчас есть как минимум 2 мастер-класса в программе, далее будет больше.

В России (в Москве) день открытых данных проходит в онлайн формате уже много лет. Вы можете находится хоть в Хабаровске, хоть в Смоленске, хоть в другой стране главное иметь возможность подключиться. Сейчас у нас программа примерно на полдня выступлений, мы можем расширить её до полного дня, так чтобы с утра и до вечера.

Есть много тем о которых было бы интересно послушать, а заявившихся пока мало, всегда хочется побольше;)
- Работа с открытыми данными с помощью инструментов BI (SuperSet, Quatro, Lightdash, Datalens и др).
- Работа с большими данными культурного наследия
- Мастер-классы по работы над качеством открытых датасетов
- Практическая работа исследователя по созданию наборов данных. Особенности подготовки и оформления
- Мастер-классы по работе с инструментами дата-фреймов Pandas, Polars, Dask и др.

А также другие темы пересечения тем data science, data engineering, data analytics и open access с открытыми данными.

#opendata #events #opendataday
Есть задачи для которых LLM совсем не годятся, а есть те которые годятся очень даже. Например, есть довольно узкая, но очень частая задача автоматического документирования данных.

У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.

Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂

В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.

#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation
Я совсем недавно несколько раз писал лонгриды в рассылке о том как работать со статистическими данными и как их публикуют:
- Статистика как дата продукт
- Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
- Российская статистика: немашиночитаемая институциональная фрагментация
А также много постов у меня тут в канале по хештегу #statistics

Однако я понял что у меня практически нет компактного тезисного текста о том что происходит со статистикой в мире и как она меняется, хотя бы в части работы с потребителями.

1. Основные направления развития статистических продуктов это:
- создание дашбордов по аналогии с корпоративными дашбордами (Dashboard Deutschland)
- создание инструментов самостоятельного построения визуализаций пользователями (visualize.admin.ch)
- превращение портала статслужбы в портал данных (ons.gov.uk)
- предоставление данных для массовой выгрузки (ECB Data Portal)
- использование форматов данных из data science таких как parquet (OpenDOSM)
- продвижение и развитие SDMX форматов и API (BIS Data Portal)
- предоставление статистики в режиме API-first (SingStat TableBuilder и многие другие)
- развитие публикации высокочастотных показателей вплоть до суток (порталы статистики центральных банков, BIS Data Portal)
- развитие экспериментальной статистики (Eurostat, IStat, Statistics Iceland)

2. Большая часть статистических порталов в мире индивидуальны. Из известного тиражируемого ПО можно выделить только:
- PxWeb - продукт разработанный статслужбой Швеции, активно используемый всеми скандинавскими странами и рядом других стран.
- .Stat Suite - теперь с открытым кодом. Используется статслужбой Австралии, ОЭСР и рядом стран.
- Fusion Metadata Registry - изначально разработан командой Банка международных расчётов, сейчас отдан на коммерциализацию. Является ядром для большей части публичных порталов данных отдающих статистику с SDMX совместимым API. Например, SDMX Registry Евростата

3. Всё большее число статистических ведомств создают и публикуют дата стратегии. Эти стратегии охватывают такие вопросы как:
- принципы работы с данными
- приоритеты
- стандарты и форматы обмена и публикации данными
- политики работы с данными
- источники получения данных

Примеры:
- ONS Data Strategy - стратегия работы с данными статслужбы Великобритании
- ABS Data Strategy 2021-22 to 2025 - стратегия работы с данными статслужбы Австралии
- Statistics Canada Data Strategy - дата-стратегия статслужбы Канады

4. В некоторых странах статслужбы отвечают за национальные порталы открытых данных:
- Новая Зеландия - глава статслужбы занимает позицию Government Chief Data Steward (GCDS) и определяет принципы развития и дорожную карту нац портала данных data.govt.nz
- Малайзия - национальный портал открытых данных data.gov.my переделан в портал статистики и дашбордов на основе портала статпоказателей open.dosm.gov.my статистического офиса страны.

5. Все коммерческие поставщики данных временных рядов активно игнорируют международные стандарты вроде SDMX и фокусируются, в первую очередь, на предоставлении данных через API (Nasdaq Data Link).

6. Всё что касается экспериментальной статистики - это то что в коммерческом секторе называется альтернативными данными. Их поставщиков много, они фокусируются на предоставлении их в тех форматах которые наиболее удобны потребителям. Чаще всего это API, датасеты или базы данных в облачных сервисах.

#opendata #statistics #sdmx #data #dataengineering
404 пишет про то что данные с американского портала data.gov исчезают при новой администрации [1] количественно не очень много, но вероятность что будут исчезать данные по гендерным исследованиям или изменению климата весьма велика.

Jack Cushman из Гарвардского Университета начал проект по сохранению данных государственных данных и кода в архиве Harvard Law School Library Innovation Lab. Обещают вскоре опубликовать данные и метаданные собранного [2].

А я ещё год назад активистам в OKF говорил что архивация данных - это самое главное сейчас в тематике работы с данными и ещё неизвестно сколько общественных порталов открытых данных закроются из-за приостановки финансирования и закрытия USAID.

Ссылки:
[1] https://www.404media.co/archivists-work-to-identify-and-save-the-thousands-of-datasets-disappearing-from-data-gov/
[2] https://lil.law.harvard.edu/blog/2025/01/30/preserving-public-u-s-federal-data/

#opendata #datarescue #datasets #usa
Собственно в продолжение сохранение открытых данных США. Открытый каталог данных USAID теперь закрыт [1], а сайт организации usaid.gov отключён.

У нас в Dateno сохранено немало [2] метаданных USAID, но, в основном, с других порталов открытых данных, а с порталом открытых данных USAID всегда были проблемы с его индексированием (многое правительственные сайты США за CDN и тяжело индексируются без ручного вмешательства).

А вообще повторяется история что и во многих странах, смена политического руководства приводит к исчезновению контента и данных.

В данном случае данные USAID не то чтобы очень ценные, финансы агентств публикуются на USASpending.gov и Grants.gov, но тем не менее тенденция на потерю данных есть.

Ссылки:
[1] https://data.usaid.gov
[2] https://dateno.io/search?query=usaid&refinementList[source.owner_type][0]=Central%20government&refinementList[source.countries.name][0]=United%20States

#opendata #usa #datarescue