В рубрике как это устроено у них Jewish Heritage Network (JHN) голландская технологическая некоммерческая организация со специализацией на еврейском культурном наследии публикует 58 наборов данных из 33 источников общим объёмов в 834+ тысячи записей [1]. Большая часть этих данных доступна в европейском проекте Europeana, практически ко всем из них есть открытое общедоступное REST API. Часть датасетов доступны для полной выгрузки (bulk download), другие через API интерфейсы OAI-PMH.
Финансируется проект несколькими фонда поддержки еврейской культуры и из бюджета ЕС (проект Europeana).
Ссылки:
[1] https://jhn.ngo/research/#judaica_datasets
#opendata #digitalheritage #archives
Финансируется проект несколькими фонда поддержки еврейской культуры и из бюджета ЕС (проект Europeana).
Ссылки:
[1] https://jhn.ngo/research/#judaica_datasets
#opendata #digitalheritage #archives
Я вот тут попытался поискать в Perplexity данные по культурному наследию Армении и... если долго искать находишь самого себя. В первом же результате каталог открытых данных Армении data.opendata.am
С одной стороны приятно, а с другой что-то печально.
P.S. Печально потому что хочется чтобы людей занимающихся цифровизацией культурного наследия было больше и их работа была заметнее.
#opendata #armenia #digitalpreservation #culture
С одной стороны приятно, а с другой что-то печально.
P.S. Печально потому что хочется чтобы людей занимающихся цифровизацией культурного наследия было больше и их работа была заметнее.
#opendata #armenia #digitalpreservation #culture
Global Fishing Watch
Для тех кто любит рыбку и всё что с ней связано, то как, кто и когда её ловят проект Global Fishing Watch [1] предоставляет интерактивную карту и наборы данных по рыболовной отрасли с возможностью отслеживать какие суда и поскольку часов ловят рыбу и где они это делают.
Данные дают в динамике, предоставляют API [2]. Охватывают только океаны и моря, в том смысле что, к примеру, Каспийского моря и Великих озёр в США/Канаде там нет.
Для выгрузки датасетов нужна регистрация, а сами данные под лицензией CC BY-NC 4.0, в основном.
Ссылки:
[1] https://globalfishingwatch.org
[2] https://globalfishingwatch.org/our-apis/
#opendata #fishing #openprojects #gisdata #geodata
Для тех кто любит рыбку и всё что с ней связано, то как, кто и когда её ловят проект Global Fishing Watch [1] предоставляет интерактивную карту и наборы данных по рыболовной отрасли с возможностью отслеживать какие суда и поскольку часов ловят рыбу и где они это делают.
Данные дают в динамике, предоставляют API [2]. Охватывают только океаны и моря, в том смысле что, к примеру, Каспийского моря и Великих озёр в США/Канаде там нет.
Для выгрузки датасетов нужна регистрация, а сами данные под лицензией CC BY-NC 4.0, в основном.
Ссылки:
[1] https://globalfishingwatch.org
[2] https://globalfishingwatch.org/our-apis/
#opendata #fishing #openprojects #gisdata #geodata
В рубрике как это устроено у них Japan Search [1] поисковая система по архивам Японии охватывает десятки баз данных национальной библиографии, галерей, музеев, архивов, библиотек, каталогов научных работ, архивов фотографий и мультимедиа и многие других коллекций.
Кроме того это поисковик по данным страны поскольку в нём проиндексированы данные национального каталога data.go.jp [2] в объёме чуть менее 23 тысяч наборов данных.
Всего же через поиск доступен 31 миллион цифровых объектов.
У проекта есть открытое API [3] с интерфейсом SPARQL и REST API.
Ссылки:
[1] https://jpsearch.go.jp
[2] https://jpsearch.go.jp/csearch/jps-cross?csid=jps-cross&from=0&f-db=%2Ba12345
[3] https://jpsearch.go.jp/static/developer/en.html
#opendata #digitalheritage #datasets #japan
Кроме того это поисковик по данным страны поскольку в нём проиндексированы данные национального каталога data.go.jp [2] в объёме чуть менее 23 тысяч наборов данных.
Всего же через поиск доступен 31 миллион цифровых объектов.
У проекта есть открытое API [3] с интерфейсом SPARQL и REST API.
Ссылки:
[1] https://jpsearch.go.jp
[2] https://jpsearch.go.jp/csearch/jps-cross?csid=jps-cross&from=0&f-db=%2Ba12345
[3] https://jpsearch.go.jp/static/developer/en.html
#opendata #digitalheritage #datasets #japan
Видеозаписи прошедших семинаров:
- "Лучшие практики работы с большими научными данными: используем Parquet и DuckDB" доступен на сайте ИВ РАН или напрямую на RuTube или на YouTube
- "Дата-инженерия в цифровой гуманитаристике" доступен в сообществе в VK и в YouTube
Если кому-то будут интересны презентации с этих семинаров, напишите в комментарии, я их выложу онлайн или пришлю ссылку.
Честно говоря я давно не читал лекций и не выступал, сначала
Ближайшие мои выступления или мастер-классы будут в рамках дня открытых данных в России и в Армении, скорее и там, и там.
P.S. Ссылки на презентации:
- Дата инженерия в цифровой гуманитаристике
- Лучшие практики работы с большими научными данными. Используем Parquet и DuckDB
#opendata #digitalhumanities #lectures #parquet #duckdb #dataengineering
- "Лучшие практики работы с большими научными данными: используем Parquet и DuckDB" доступен на сайте ИВ РАН или напрямую на RuTube или на YouTube
- "Дата-инженерия в цифровой гуманитаристике" доступен в сообществе в VK и в YouTube
Если кому-то будут интересны презентации с этих семинаров, напишите в комментарии, я их выложу онлайн или пришлю ссылку.
Честно говоря я давно не читал лекций и не выступал, сначала
Ближайшие мои выступления или мастер-классы будут в рамках дня открытых данных в России и в Армении, скорее и там, и там.
P.S. Ссылки на презентации:
- Дата инженерия в цифровой гуманитаристике
- Лучшие практики работы с большими научными данными. Используем Parquet и DuckDB
#opendata #digitalhumanities #lectures #parquet #duckdb #dataengineering
Я напомню что в начале марта состоятся дни открытых данных в России и в Армении. В России он пройдёт 1 марта, в субботу, в Армении предварительно 5-6 марта, скоро напишем точную дату в @opendataam.
В Армении всё будет проходить оффлайн и есть запрос на интересные мастер-классы по работе с данными. Если Вы в Армении и хотите такой мастер-класс рассказать, очень ждём. Языки выступлений - армянский, английский или русский. Сейчас есть как минимум 2 мастер-класса в программе, далее будет больше.
В России (в Москве) день открытых данных проходит в онлайн формате уже много лет. Вы можете находится хоть в Хабаровске, хоть в Смоленске, хоть в другой стране главное иметь возможность подключиться. Сейчас у нас программа примерно на полдня выступлений, мы можем расширить её до полного дня, так чтобы с утра и до вечера.
Есть много тем о которых было бы интересно послушать, а заявившихся пока мало, всегда хочется побольше;)
- Работа с открытыми данными с помощью инструментов BI (SuperSet, Quatro, Lightdash, Datalens и др).
- Работа с большими данными культурного наследия
- Мастер-классы по работы над качеством открытых датасетов
- Практическая работа исследователя по созданию наборов данных. Особенности подготовки и оформления
- Мастер-классы по работе с инструментами дата-фреймов Pandas, Polars, Dask и др.
А также другие темы пересечения тем data science, data engineering, data analytics и open access с открытыми данными.
#opendata #events #opendataday
В Армении всё будет проходить оффлайн и есть запрос на интересные мастер-классы по работе с данными. Если Вы в Армении и хотите такой мастер-класс рассказать, очень ждём. Языки выступлений - армянский, английский или русский. Сейчас есть как минимум 2 мастер-класса в программе, далее будет больше.
В России (в Москве) день открытых данных проходит в онлайн формате уже много лет. Вы можете находится хоть в Хабаровске, хоть в Смоленске, хоть в другой стране главное иметь возможность подключиться. Сейчас у нас программа примерно на полдня выступлений, мы можем расширить её до полного дня, так чтобы с утра и до вечера.
Есть много тем о которых было бы интересно послушать, а заявившихся пока мало, всегда хочется побольше;)
- Работа с открытыми данными с помощью инструментов BI (SuperSet, Quatro, Lightdash, Datalens и др).
- Работа с большими данными культурного наследия
- Мастер-классы по работы над качеством открытых датасетов
- Практическая работа исследователя по созданию наборов данных. Особенности подготовки и оформления
- Мастер-классы по работе с инструментами дата-фреймов Pandas, Polars, Dask и др.
А также другие темы пересечения тем data science, data engineering, data analytics и open access с открытыми данными.
#opendata #events #opendataday
Есть задачи для которых LLM совсем не годятся, а есть те которые годятся очень даже. Например, есть довольно узкая, но очень частая задача автоматического документирования данных.
У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.
Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂
В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.
#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation
У меня есть набор запросов к LLM на которых я это тестирую автодокументирование наборов данных. На полях/колонках которые содержат слова позволяющие по смыслу понять что там LLM выдает очень вменяемые ответы.
Это сколько же инструментов надо теперь переделать чтобы повысить их эффективность😂
В рамках экспериментов с Dateno у меня где-то несколько сотен тысяч схем CSV файлов которые можно превратить во что-то что было бы чем-то большим чем просто схема. В документацию.
#opendata #thoughts #datadiscovery #dataengineering #dataquality #datadocumentation
Я совсем недавно несколько раз писал лонгриды в рассылке о том как работать со статистическими данными и как их публикуют:
- Статистика как дата продукт
- Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
- Российская статистика: немашиночитаемая институциональная фрагментация
А также много постов у меня тут в канале по хештегу #statistics
Однако я понял что у меня практически нет компактного тезисного текста о том что происходит со статистикой в мире и как она меняется, хотя бы в части работы с потребителями.
1. Основные направления развития статистических продуктов это:
- создание дашбордов по аналогии с корпоративными дашбордами (Dashboard Deutschland)
- создание инструментов самостоятельного построения визуализаций пользователями (visualize.admin.ch)
- превращение портала статслужбы в портал данных (ons.gov.uk)
- предоставление данных для массовой выгрузки (ECB Data Portal)
- использование форматов данных из data science таких как parquet (OpenDOSM)
- продвижение и развитие SDMX форматов и API (BIS Data Portal)
- предоставление статистики в режиме API-first (SingStat TableBuilder и многие другие)
- развитие публикации высокочастотных показателей вплоть до суток (порталы статистики центральных банков, BIS Data Portal)
- развитие экспериментальной статистики (Eurostat, IStat, Statistics Iceland)
2. Большая часть статистических порталов в мире индивидуальны. Из известного тиражируемого ПО можно выделить только:
- PxWeb - продукт разработанный статслужбой Швеции, активно используемый всеми скандинавскими странами и рядом других стран.
- .Stat Suite - теперь с открытым кодом. Используется статслужбой Австралии, ОЭСР и рядом стран.
- Fusion Metadata Registry - изначально разработан командой Банка международных расчётов, сейчас отдан на коммерциализацию. Является ядром для большей части публичных порталов данных отдающих статистику с SDMX совместимым API. Например, SDMX Registry Евростата
3. Всё большее число статистических ведомств создают и публикуют дата стратегии. Эти стратегии охватывают такие вопросы как:
- принципы работы с данными
- приоритеты
- стандарты и форматы обмена и публикации данными
- политики работы с данными
- источники получения данных
Примеры:
- ONS Data Strategy - стратегия работы с данными статслужбы Великобритании
- ABS Data Strategy 2021-22 to 2025 - стратегия работы с данными статслужбы Австралии
- Statistics Canada Data Strategy - дата-стратегия статслужбы Канады
4. В некоторых странах статслужбы отвечают за национальные порталы открытых данных:
- Новая Зеландия - глава статслужбы занимает позицию Government Chief Data Steward (GCDS) и определяет принципы развития и дорожную карту нац портала данных data.govt.nz
- Малайзия - национальный портал открытых данных data.gov.my переделан в портал статистики и дашбордов на основе портала статпоказателей open.dosm.gov.my статистического офиса страны.
5. Все коммерческие поставщики данных временных рядов активно игнорируют международные стандарты вроде SDMX и фокусируются, в первую очередь, на предоставлении данных через API (Nasdaq Data Link).
6. Всё что касается экспериментальной статистики - это то что в коммерческом секторе называется альтернативными данными. Их поставщиков много, они фокусируются на предоставлении их в тех форматах которые наиболее удобны потребителям. Чаще всего это API, датасеты или базы данных в облачных сервисах.
#opendata #statistics #sdmx #data #dataengineering
- Статистика как дата продукт
- Хорошие и плохие практики публикации данных. Метаданные и форматы файлов
- Российская статистика: немашиночитаемая институциональная фрагментация
А также много постов у меня тут в канале по хештегу #statistics
Однако я понял что у меня практически нет компактного тезисного текста о том что происходит со статистикой в мире и как она меняется, хотя бы в части работы с потребителями.
1. Основные направления развития статистических продуктов это:
- создание дашбордов по аналогии с корпоративными дашбордами (Dashboard Deutschland)
- создание инструментов самостоятельного построения визуализаций пользователями (visualize.admin.ch)
- превращение портала статслужбы в портал данных (ons.gov.uk)
- предоставление данных для массовой выгрузки (ECB Data Portal)
- использование форматов данных из data science таких как parquet (OpenDOSM)
- продвижение и развитие SDMX форматов и API (BIS Data Portal)
- предоставление статистики в режиме API-first (SingStat TableBuilder и многие другие)
- развитие публикации высокочастотных показателей вплоть до суток (порталы статистики центральных банков, BIS Data Portal)
- развитие экспериментальной статистики (Eurostat, IStat, Statistics Iceland)
2. Большая часть статистических порталов в мире индивидуальны. Из известного тиражируемого ПО можно выделить только:
- PxWeb - продукт разработанный статслужбой Швеции, активно используемый всеми скандинавскими странами и рядом других стран.
- .Stat Suite - теперь с открытым кодом. Используется статслужбой Австралии, ОЭСР и рядом стран.
- Fusion Metadata Registry - изначально разработан командой Банка международных расчётов, сейчас отдан на коммерциализацию. Является ядром для большей части публичных порталов данных отдающих статистику с SDMX совместимым API. Например, SDMX Registry Евростата
3. Всё большее число статистических ведомств создают и публикуют дата стратегии. Эти стратегии охватывают такие вопросы как:
- принципы работы с данными
- приоритеты
- стандарты и форматы обмена и публикации данными
- политики работы с данными
- источники получения данных
Примеры:
- ONS Data Strategy - стратегия работы с данными статслужбы Великобритании
- ABS Data Strategy 2021-22 to 2025 - стратегия работы с данными статслужбы Австралии
- Statistics Canada Data Strategy - дата-стратегия статслужбы Канады
4. В некоторых странах статслужбы отвечают за национальные порталы открытых данных:
- Новая Зеландия - глава статслужбы занимает позицию Government Chief Data Steward (GCDS) и определяет принципы развития и дорожную карту нац портала данных data.govt.nz
- Малайзия - национальный портал открытых данных data.gov.my переделан в портал статистики и дашбордов на основе портала статпоказателей open.dosm.gov.my статистического офиса страны.
5. Все коммерческие поставщики данных временных рядов активно игнорируют международные стандарты вроде SDMX и фокусируются, в первую очередь, на предоставлении данных через API (Nasdaq Data Link).
6. Всё что касается экспериментальной статистики - это то что в коммерческом секторе называется альтернативными данными. Их поставщиков много, они фокусируются на предоставлении их в тех форматах которые наиболее удобны потребителям. Чаще всего это API, датасеты или базы данных в облачных сервисах.
#opendata #statistics #sdmx #data #dataengineering
404 пишет про то что данные с американского портала data.gov исчезают при новой администрации [1] количественно не очень много, но вероятность что будут исчезать данные по гендерным исследованиям или изменению климата весьма велика.
Jack Cushman из Гарвардского Университета начал проект по сохранению данных государственных данных и кода в архиве Harvard Law School Library Innovation Lab. Обещают вскоре опубликовать данные и метаданные собранного [2].
А я ещё год назад активистам в OKF говорил что архивация данных - это самое главное сейчас в тематике работы с данными и ещё неизвестно сколько общественных порталов открытых данных закроются из-за приостановки финансирования и закрытия USAID.
Ссылки:
[1] https://www.404media.co/archivists-work-to-identify-and-save-the-thousands-of-datasets-disappearing-from-data-gov/
[2] https://lil.law.harvard.edu/blog/2025/01/30/preserving-public-u-s-federal-data/
#opendata #datarescue #datasets #usa
Jack Cushman из Гарвардского Университета начал проект по сохранению данных государственных данных и кода в архиве Harvard Law School Library Innovation Lab. Обещают вскоре опубликовать данные и метаданные собранного [2].
А я ещё год назад активистам в OKF говорил что архивация данных - это самое главное сейчас в тематике работы с данными и ещё неизвестно сколько общественных порталов открытых данных закроются из-за приостановки финансирования и закрытия USAID.
Ссылки:
[1] https://www.404media.co/archivists-work-to-identify-and-save-the-thousands-of-datasets-disappearing-from-data-gov/
[2] https://lil.law.harvard.edu/blog/2025/01/30/preserving-public-u-s-federal-data/
#opendata #datarescue #datasets #usa
Собственно в продолжение сохранение открытых данных США. Открытый каталог данных USAID теперь закрыт [1], а сайт организации usaid.gov отключён.
У нас в Dateno сохранено немало [2] метаданных USAID, но, в основном, с других порталов открытых данных, а с порталом открытых данных USAID всегда были проблемы с его индексированием (многое правительственные сайты США за CDN и тяжело индексируются без ручного вмешательства).
А вообще повторяется история что и во многих странах, смена политического руководства приводит к исчезновению контента и данных.
В данном случае данные USAID не то чтобы очень ценные, финансы агентств публикуются на USASpending.gov и Grants.gov, но тем не менее тенденция на потерю данных есть.
Ссылки:
[1] https://data.usaid.gov
[2] https://dateno.io/search?query=usaid&refinementList[source.owner_type][0]=Central%20government&refinementList[source.countries.name][0]=United%20States
#opendata #usa #datarescue
У нас в Dateno сохранено немало [2] метаданных USAID, но, в основном, с других порталов открытых данных, а с порталом открытых данных USAID всегда были проблемы с его индексированием (многое правительственные сайты США за CDN и тяжело индексируются без ручного вмешательства).
А вообще повторяется история что и во многих странах, смена политического руководства приводит к исчезновению контента и данных.
В данном случае данные USAID не то чтобы очень ценные, финансы агентств публикуются на USASpending.gov и Grants.gov, но тем не менее тенденция на потерю данных есть.
Ссылки:
[1] https://data.usaid.gov
[2] https://dateno.io/search?query=usaid&refinementList[source.owner_type][0]=Central%20government&refinementList[source.countries.name][0]=United%20States
#opendata #usa #datarescue
Оказывается Foursquare анонсировали недавно [1] Foursquare Geospatial Intelligence Platform, нигде кроме анонса, даже на их сайте в такой формулировке не находится, но из анонса видно что они позиционируют три продукта как составные части это платформы.
Это такие продукты как:
- FSQ Graph - база всех точек POI собранных и очищенных в виде данных привязанных к системе геокодирования H3
- FSQ Database - высокопроизводительная база с использованием GPU для SQL аналитики
- FSQ Studio - интерактивный инструмент визуализации данных, в нём же они публикуют некий каталог геоданных (доступен только после авторизации)
И похоже что эти компоненты будут объединены в некий унифицированный продукт.
А ранее команда Foursquare выкладывала огромный набор данных точек интереса по всему миру [2].
Интересно будут ли они расширять доступность их компонентов как открытого кода и будут ли публиковать ещё открытые датасеты или ограничатся объединением текущих продуктов. В любом случае, Foursquare интересный источник, и геоданных, и технологий их визуализации.
Ссылки:
[1] https://location.foursquare.com/resources/blog/products/introducing-the-foursquare-geospatial-intelligence-platform/
[2] https://t.iss.one/begtin/6202
#geodata #dataanalytics #foursquare #opendata
Это такие продукты как:
- FSQ Graph - база всех точек POI собранных и очищенных в виде данных привязанных к системе геокодирования H3
- FSQ Database - высокопроизводительная база с использованием GPU для SQL аналитики
- FSQ Studio - интерактивный инструмент визуализации данных, в нём же они публикуют некий каталог геоданных (доступен только после авторизации)
И похоже что эти компоненты будут объединены в некий унифицированный продукт.
А ранее команда Foursquare выкладывала огромный набор данных точек интереса по всему миру [2].
Интересно будут ли они расширять доступность их компонентов как открытого кода и будут ли публиковать ещё открытые датасеты или ограничатся объединением текущих продуктов. В любом случае, Foursquare интересный источник, и геоданных, и технологий их визуализации.
Ссылки:
[1] https://location.foursquare.com/resources/blog/products/introducing-the-foursquare-geospatial-intelligence-platform/
[2] https://t.iss.one/begtin/6202
#geodata #dataanalytics #foursquare #opendata
Снимаю на время шляпу дата инженера и одеваю шляпу специалиста по анализу госрасходов.
Я почти 20 лет анализом госзакупок занимался. Участвовал в создании первой версии портала госзакупок в РФ за 2006-2009 годы, потом создавал общественный портал госзакупок clearpspending.ru (сейчас его развивает Инфокультура) и создавал портал Госрасходы в Счетной палате РФ (сейчас портал закрыт) и, кроме всего прочего, вот уже много лет анализировал то как информация о бюджетах, контрактах, госрасходах публиковалась в мире. В последнее время я уделял этой теме сильно меньше внимания, потому что с данными работать интереснее, но ничего не забыл
Итак, по поводу последних событий вокруг USAID и особенностей происходящего. Важно знать о том как USAID работало все эти годы и то как осуществлялись расходы. Расходы ведомства публиковались и доступны на сайтах Grants.gov, SAM.gov и USASpending.gov, но в США особенность публикации данных о расходах в том что не все расходы публикуются с указанием исполнителя, а также то что многие исполнители по госконтрактам и грантам являются зонтичными получателями средств, далее раздавая их меньшими порциями конечным получателям. Иногда это может быть цепочка в несколько организаций.
Кроме того есть множество контрактов получателями которых значатся MISCELLANEOUS FOREIGN AWARDEES. Например, контракты ASST_NON_AIDDFDA000800304_7200, ASST_NON_AID306A000300504_7200 и так далее. Таких контрактов более 10 тысяч и таких грантов чуть менее 2 тысяч. Всего на общую сумму в 29 миллиардов долларов.
Собственно особенность системы раскрытия информации о госзакупках в США в выборочной закрытости. Информация о контракте удаляется не полностью, а убирается только наименование получателя, всё остальное публикуется.
При этом, конечно же, информация о конечных получателях средств внутри USAID должна собираться. Точно в случае зонтичных контрактов со скрытыми получателями, так и в случае контрактов через крупных подрядчиков посредников.
Наиболее потенциально пугающий сценарий - это если администрация Трампа вместе с трансформацией/ликвидацией USAID рассекретит эти сведения. Пострадают от этого очень многие, а администрация Трампа наберёт дополнительных плюшек со словами "Мы вам говорили что они радикалы лунатики, вот, смотрите, всё так и есть". Для многих не самых демократических стран это, неизбежно, станет мощнейшим толчком для пропаганды.
Но про политику я здесь писать ничего не хочу, уверен что есть много уважаемых и достойных людей/команд как получавших средств от USAID так и категорически от них отказывавшихся. Добавлю лишь ещё один источник сведений об их активности - это база IATI Registry, по сути переформатированные данные из USASpending.gov.
#opendata #spending #contracting #usaid
Я почти 20 лет анализом госзакупок занимался. Участвовал в создании первой версии портала госзакупок в РФ за 2006-2009 годы, потом создавал общественный портал госзакупок clearpspending.ru (сейчас его развивает Инфокультура) и создавал портал Госрасходы в Счетной палате РФ (сейчас портал закрыт) и, кроме всего прочего, вот уже много лет анализировал то как информация о бюджетах, контрактах, госрасходах публиковалась в мире. В последнее время я уделял этой теме сильно меньше внимания, потому что с данными работать интереснее, но ничего не забыл
Итак, по поводу последних событий вокруг USAID и особенностей происходящего. Важно знать о том как USAID работало все эти годы и то как осуществлялись расходы. Расходы ведомства публиковались и доступны на сайтах Grants.gov, SAM.gov и USASpending.gov, но в США особенность публикации данных о расходах в том что не все расходы публикуются с указанием исполнителя, а также то что многие исполнители по госконтрактам и грантам являются зонтичными получателями средств, далее раздавая их меньшими порциями конечным получателям. Иногда это может быть цепочка в несколько организаций.
Кроме того есть множество контрактов получателями которых значатся MISCELLANEOUS FOREIGN AWARDEES. Например, контракты ASST_NON_AIDDFDA000800304_7200, ASST_NON_AID306A000300504_7200 и так далее. Таких контрактов более 10 тысяч и таких грантов чуть менее 2 тысяч. Всего на общую сумму в 29 миллиардов долларов.
Собственно особенность системы раскрытия информации о госзакупках в США в выборочной закрытости. Информация о контракте удаляется не полностью, а убирается только наименование получателя, всё остальное публикуется.
При этом, конечно же, информация о конечных получателях средств внутри USAID должна собираться. Точно в случае зонтичных контрактов со скрытыми получателями, так и в случае контрактов через крупных подрядчиков посредников.
Наиболее потенциально пугающий сценарий - это если администрация Трампа вместе с трансформацией/ликвидацией USAID рассекретит эти сведения. Пострадают от этого очень многие, а администрация Трампа наберёт дополнительных плюшек со словами "Мы вам говорили что они радикалы лунатики, вот, смотрите, всё так и есть". Для многих не самых демократических стран это, неизбежно, станет мощнейшим толчком для пропаганды.
Но про политику я здесь писать ничего не хочу, уверен что есть много уважаемых и достойных людей/команд как получавших средств от USAID так и категорически от них отказывавшихся. Добавлю лишь ещё один источник сведений об их активности - это база IATI Registry, по сути переформатированные данные из USASpending.gov.
#opendata #spending #contracting #usaid
Возвращаю на голову шляпу дата инженера и продолжаю про разные инструменты.
Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.
Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.
Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.
Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.
#opendata #datadocumentation #opensource #datatools #ideas
Одна из рабочих идей у меня сейчас - это инструмент автоматического документирования датасетов/баз данных с приоритетом на "дикие данные" когда файл с данными есть, а документации на него нет. Очень частая ситуация с порталами открытых данных.
Причём потребность в таком инструменте уже очень давно есть, а вот наглядно я видел только облачный сервис CastorDoc который в этом продвинулся и только некоторые дата каталоги. А я сам экспериментировал и создал утилиту metacrafter для идентификации семантических типов данных. Но потребность в автодокументировании шире. Это, как минимум:
1. Автоматизация описания полей набора данных, желательно на нескольких языках: английский, испанский, русский, армянский и тд.
2. Написание описания набора данных так чтобы по датасету или его части можно было бы рассказать о чём он.
3. Описание структуры датасета не просто перечислением полей, а указание типа, описания полей, числа уникальных записей и тд.
4. Автоидентификация и документирование справочников. Почти всегда эти справочники есть и почти всегда их необходимо идентифицировать и описывать.
5. Автоматическая генерация типовых запросов к данным по аналогии с автогенерацией кода для доступа к API, нужны автосгенерированные запросы для доступа к данным.
Это всё самое очевидное, чуть более неочевидное это генерация документации по шаблонам, на разных языках и многое другое.
Самое простое и быстрое решение которое я вижу - это связка DuckDB + LLM модель, простые эксперименты подтверждают что это возможно и несложно. Но если Вы знаете хорошие/эффективные/удобные инструменты документирования датасетов - поделитесь, интересно их посмотреть в работе. Особенно те что с открытым кодом.
#opendata #datadocumentation #opensource #datatools #ideas
В рубрике интересной визуализации данных DataRepublican [1] проект по визуализации доноров и получателей средств НКО в США и ряд других визуализаций. Можно сказать этакое пересечение Республиканской партии США и дата журналистики, редкое явление, но можно убедиться что реальное. На них ссылаются Wikileaks [2] подсвечивая расходы денег налогоплательщиков США на Internews [3], НКО получавшую существенную долю средств от USAID и поддерживавшее значительную часть СМИ по всему миру.
Что характерно в аккаунте Wikileaks большая волна идёт против USAID [4] с публикациями множества документов подтверждающих что мол они "лицемерные нехорошие ребята" и прямой инструмент мягкой силы США. В общем немного странно видеть такое единодушие WikiLeaks и республиканских блогеров, но допускаю что что-то пропустил.
А теперь про чисто техническое
Сама визуализация на DataRepublican интересная ещё и по тому как она сделана. Я вначале думал что там какая-то графовая база данных внутри, вроде Neo4J и сложные запросы через openCypher, но всё оказалось интереснее. В графах они подгружают на клиента ZIP файлы с CSV файлами внутри, около 7 мегабайт и распаковывают и отображают их через Javascript.
Очень оригинальное решение, я давно такого не видел. Вместо API грузить на клиента большие заархивированные батчи и обрабатывать их там после распаковки.
У них всё это, данные и код, есть в открытом репозитории, можно будет как-нибудь изучить [5]
Ссылки:
[1] https://datarepublican.com
[2] https://x.com/wikileaks/status/1888098131537183170
[3] https://datarepublican.com/expose/?eins=943027961
[4] https://x.com/wikileaks
[5] https://github.com/DataRepublican/datarepublican
#opendata #opensource #wikileaks #dataviz
Что характерно в аккаунте Wikileaks большая волна идёт против USAID [4] с публикациями множества документов подтверждающих что мол они "лицемерные нехорошие ребята" и прямой инструмент мягкой силы США. В общем немного странно видеть такое единодушие WikiLeaks и республиканских блогеров, но допускаю что что-то пропустил.
А теперь про чисто техническое
Сама визуализация на DataRepublican интересная ещё и по тому как она сделана. Я вначале думал что там какая-то графовая база данных внутри, вроде Neo4J и сложные запросы через openCypher, но всё оказалось интереснее. В графах они подгружают на клиента ZIP файлы с CSV файлами внутри, около 7 мегабайт и распаковывают и отображают их через Javascript.
Очень оригинальное решение, я давно такого не видел. Вместо API грузить на клиента большие заархивированные батчи и обрабатывать их там после распаковки.
У них всё это, данные и код, есть в открытом репозитории, можно будет как-нибудь изучить [5]
Ссылки:
[1] https://datarepublican.com
[2] https://x.com/wikileaks/status/1888098131537183170
[3] https://datarepublican.com/expose/?eins=943027961
[4] https://x.com/wikileaks
[5] https://github.com/DataRepublican/datarepublican
#opendata #opensource #wikileaks #dataviz
В рубрике особо интересных наборов данных "ScatSpotter" 2024 -- A Distributed Dog Poop Detection Dataset [1] аннотированный набор данных фотографий собачьих фекалий объёмом в 42 гигабайт. Шутки-шутками, а очень полезный датасет для тех кто проектирует системы идентификации мусора и его уборки😉
Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.
Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]
Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂
Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0
#opendata #datasets #ipfs #torrents
Но, что интереснее, сам датасет опубликован только как torrent ссылка magnet и на распределенной файловой системе IPFS.
Его исходный код есть на Github [3], а датасет можно найти на Academic Torrents [4], например, или через IPFS Gateway [5]
Заодно очень хочется порадоваться за исследователей которые могут заниматься изучением собачьих фекалий, а не вот это вот всё.😂
Ссылки:
[1] https://arxiv.org/abs/2412.16473
[2] https://paperswithcode.com/paper/scatspotter-2024-a-distributed-dog-poop
[3] https://github.com/Erotemic/shitspotter
[4] https://academictorrents.com/details/ee8d2c87a39ea9bfe48bef7eb4ca12eb68852c49
[5] https://ipfs.io/ipfs/QmQonrckXZq37ZHDoRGN4xVBkqedvJRgYyzp2aBC5Ujpyp/?autoadapt=0&immediatecontinue=1&magiclibraryconfirmation=0&redirectURL=bafybeiedwp2zvmdyb2c2axrcl455xfbv2mgdbhgkc3dile4dftiimwth2y&requiresorigin=0&web3domain=0
#opendata #datasets #ipfs #torrents
В качестве регулярного напоминания портал российский государственный портал открытых данных data.gov.ru недоступен почти два года, с начала марта 2023 года. Новая версия должна быть открыта в этом году, но почти наверняка не будет содержать всех данных что были ранее.
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
В 2022 году я делал полный архивный слепок портала и он доступен для выгрузки [1]. Это 13GB в ZIP файле и около 29GB после распаковки.
Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202
#opendata #opengov #russia #datasets #digitalpreservation #webarchives
hubofdata.ru
Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных
Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.
В рубрике плохих примеров публикации данных статистические данные и портал открытых данных Германии. В Германии официальный портал открытых данных govdata.de [1] содержит более 130 тысяч наборов данных, в самых разных форматах. Причём очень много геоданных и не только в машиночитаемых форматах, но и просто в виде PDF файлов карт. Среди этих данных около 3 тысяч наборов - это официальная статистика статслужбы Германии DESTATIS [2]. DESTATIS эксплуатирует платформу публикации официальной статистики Genesis [3] на которой доступны статистические индикаторы.
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets
Так вот что важно знать:
1. Там отсутствует публикация данных в общепринятых стандартах вроде SDMX
2. Данные на сайте платформы отдаются в форматах XLSX, CSV и CSV (flat)
3. А через нац портал статистики они ещё и доступны со ссылкой на CSV формат и XML. Например, тут [4].
Так вот CSV файл из Genesis - это не нормальный CSV файл, а в их собственном формате в результате чего для него требуется отдельный парсер. Выглядит он как на этом скриншоте. Автоматически можно обрабатывать, или XML, или CSV формат который CSV (flat) который доступен только с сайте Genesis.
Про проблемы работы с метаданными Genesis и GovData.de я как-нибудь отдельно, скажу лишь что в отличие от ряда других стран ЕС в Германии всё хорошо с масштабами раскрытия данных, но довольно плохо с системным подходом в этой области и в части публикации статистики у меня лично много вопросов, не про методологию, а именно про удобство доступа.
Ссылки:
[1] https://govdata.de
[2] https://www.destatis.de
[3] https://www-genesis.destatis.de/datenbank/online
[4] https://www.govdata.de/suche/daten/bevolkerung-erwerbstatige-erwerbslose-erwerbspersonen-nichterwerbspersonen-aus-hauptwohnsitzhau35dcf
#opendata #germany #datasets
Полезные ссылки про данные, технологии и не только:
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.
Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai
#opensource #datatools #opendata #ai
- Perforator [1] профайлер приложений от Яндекса и с использованием eBPF [2]. Полезно для отладки многих сложных и простых нативных приложений и отдельно расписано как профилировать и оптимизировать серверные приложения на Python. Выглядит как очень добротный open source продукт
- GPT Researcher [3] автономный инструмент для исследований с аккуратной простановкой цитат, использует внешние и локальные источники. Интегрирован с OpenAI
- The Illustrated DeepSeek-R1 [4] подробно о DeepSeek в картинках, позволяет легче ухватить суть продукта
- DataLumos [5] проект Университета Мичигана по архивации государственных и социальных данных, построен на базе OpenICPSR [6], данных не очень много, но они адаптированы под исследовательские задачи
- Data Formulator: Create Rich Visualizations with AI [7] полноценный движок для визуализации данных с помощью ИИ. Выпущен исследователями из Microsoft вместе с научной работой, под лицензией MIT. Выглядит как proof-of-concept, не факт что его можно применять в практических задачах сразу и из коробки, но для экспериментов самое оно. И для идей и вдохновения
- Chat2DB [8] открытый код (community edition) и сервис по управлению базами данных с помощью ИИ. Всё самое вкусное вынесли в коммерческие версии, но посмотреть стоит в любом случае.
Ссылки:
[1] https://perforator.tech
[2] https://ebpf.io
[3] https://github.com/assafelovic/gpt-researcher
[4] https://newsletter.languagemodels.co/p/the-illustrated-deepseek-r1
[5] https://www.datalumos.org
[6] https://www.openicpsr.org/openicpsr/
[7] https://github.com/microsoft/data-formulator
[8] https://chat2db.ai
#opensource #datatools #opendata #ai
ebpf.io
eBPF - Introduction, Tutorials & Community Resources
eBPF is a revolutionary technology that can run sandboxed programs in the Linux kernel without changing kernel source code or loading a kernel module.