В последнее время у меня было несколько разговоров с разными людьми, но все на одну и ту же тему что открытые данные тесно связаны с развитием свобод и демократии и что без них их не существует или становится меньше.
Хотя такая связь и есть, но из того что я много лет наблюдаю не только по РФ, но и по другим странам я вижу гораздо большую связь с устойчивостью государства, экономикой и качеством госуправления, которые, часто, высоки именно в развитых демократиях, но, при этом в демократиях бедных, к примеру, тема открытых данных не развита или на 100% зависит от внешних грантов.
В то время как внутренние инициативы по открытости данных есть в самых разных странах: Китае, Вьетнаме, Катаре, ОАЭ, Казахстане, Таиланде и даже в России в каком-то виде. Это те страны которые, к примеру, по Democracy Matrix [1] относятся к автократиям.
Про каждую страну можно не одну статью написать почему это так, и почему в этих странах, не входящих в ОЭСР или Open Government Partnership есть довольно продвинутые инициативы, законы, порталы и научные проекты про открытые данные и на их основе.
Почему так происходит? Что общего в этих странах?
У меня нет универсального ответа на этот вопрос, но есть несколько гипотез:
1. Вне зависимости от политического руководства страны не оспаривается нигде тезис что работа госаппарата по созданию и распределению общественного блага. По мере роста числа квалифицированных пользователей данными сотрудники госорганов как минимум часть своей работы раскрывают как данные просто потому что требуются дополнительные усилия чтобы эти материалы публиковать неудобным образом (в закрытых немашиночитаемых форматах).
2. Даже в авторитарных странах есть публичная коммуникация государства с гражданами и по мере нарастания госрасходов на информатизацию, раскрытие части данных является ответом на общественные запросы: "Зачем Вы потратили на это столько денег?", "Какая с этого польза гражданам?"
3. Коммуникация с местным и международным цифровым бизнесом, привлечение зарубежных инвесторов, демонстрация открытости рынка. В авторитарных странах чаще на порталах открытых данных речь идёт о коммуникации с бизнесом.
4. Развитие науки, создание проектов с раскрытием открытых научных данных
5. Демонстрация того что "вы называете нас авторитарными, а посмотрите, у нас качество госуправления и открытость повыше вашей"
6. Демонстрация устойчивости государства: "Мы сильные и устойчивые, нам нечего скрывать, наша открытость нас не пугает"
Есть и другие, более специфичные для конкретных стран гипотезы и доводы.
А есть и взгляд с другой стороны. Когда инициативы по открытости закрываются с невнятной коммуникацией ( Россия ) или когда вместо портала открытых данных есть портал закрытых данных только для граждан и с получением не более чем по 100 записей за раз (Казахстан), такие инициативы не говорят об устойчивости гос-ва, они дают только сигналы: "Мы боимся!", "Мы не умеем этим управлять!".
А я ещё не раз напишу с примерами о том как данные публикуют в недемократических государствах.
Ссылки:
[1] https://www.democracymatrix.com/ranking
#opendata #data #thoughts
Хотя такая связь и есть, но из того что я много лет наблюдаю не только по РФ, но и по другим странам я вижу гораздо большую связь с устойчивостью государства, экономикой и качеством госуправления, которые, часто, высоки именно в развитых демократиях, но, при этом в демократиях бедных, к примеру, тема открытых данных не развита или на 100% зависит от внешних грантов.
В то время как внутренние инициативы по открытости данных есть в самых разных странах: Китае, Вьетнаме, Катаре, ОАЭ, Казахстане, Таиланде и даже в России в каком-то виде. Это те страны которые, к примеру, по Democracy Matrix [1] относятся к автократиям.
Про каждую страну можно не одну статью написать почему это так, и почему в этих странах, не входящих в ОЭСР или Open Government Partnership есть довольно продвинутые инициативы, законы, порталы и научные проекты про открытые данные и на их основе.
Почему так происходит? Что общего в этих странах?
У меня нет универсального ответа на этот вопрос, но есть несколько гипотез:
1. Вне зависимости от политического руководства страны не оспаривается нигде тезис что работа госаппарата по созданию и распределению общественного блага. По мере роста числа квалифицированных пользователей данными сотрудники госорганов как минимум часть своей работы раскрывают как данные просто потому что требуются дополнительные усилия чтобы эти материалы публиковать неудобным образом (в закрытых немашиночитаемых форматах).
2. Даже в авторитарных странах есть публичная коммуникация государства с гражданами и по мере нарастания госрасходов на информатизацию, раскрытие части данных является ответом на общественные запросы: "Зачем Вы потратили на это столько денег?", "Какая с этого польза гражданам?"
3. Коммуникация с местным и международным цифровым бизнесом, привлечение зарубежных инвесторов, демонстрация открытости рынка. В авторитарных странах чаще на порталах открытых данных речь идёт о коммуникации с бизнесом.
4. Развитие науки, создание проектов с раскрытием открытых научных данных
5. Демонстрация того что "вы называете нас авторитарными, а посмотрите, у нас качество госуправления и открытость повыше вашей"
6. Демонстрация устойчивости государства: "Мы сильные и устойчивые, нам нечего скрывать, наша открытость нас не пугает"
Есть и другие, более специфичные для конкретных стран гипотезы и доводы.
А есть и взгляд с другой стороны. Когда инициативы по открытости закрываются с невнятной коммуникацией ( Россия ) или когда вместо портала открытых данных есть портал закрытых данных только для граждан и с получением не более чем по 100 записей за раз (Казахстан), такие инициативы не говорят об устойчивости гос-ва, они дают только сигналы: "Мы боимся!", "Мы не умеем этим управлять!".
А я ещё не раз напишу с примерами о том как данные публикуют в недемократических государствах.
Ссылки:
[1] https://www.democracymatrix.com/ranking
#opendata #data #thoughts
В качестве лирического отступления. Если бы я был писателем пишущим по методу Хэмингуэя, без исправления текста, то сказал бы что "аллилуйя", пришёл настоящий вызов. Но я не такой писатель, и художественное творчество моё куда как скромно, но вот работа с нефункционирующей кнопкой бэкспейса на клавиатуре и ещё рядом других кнопок накладывает свои ограничения, как минимум на скорость печати. К сожалению замена клавиатуры будет только через несколько дней, так что это писать также часто как раньше пока не выходит.
Но даже так я слегка пробежался по старому коду движка metacrafter'а [1], инструмента для идентификации семантических типов данных, или более простым языком, инструмент идентификации того что за колонка в наборе данных или в базе данных и что с ней можно делать. Инструмент я потихоньку начал приводить в целевое состояние - усиление поисковых возможностей у Dateno и автодокументирование датасетов.
Что нового:
- правила для metacrafter'а перенесены теперь в новый репозиторий metacrafter-rules [2], их стало больше, в основном за счёт правил для других языков отличных от английского и русского;
- обновился серверный и клиентский режимы работы. Теперь можно ускорить сканирование данных запустив metacrafter как сервер и обращаясь к нему через параметр remote при вызовах сканирования файлов или баз данных. Это важно для ускорения процесса поскольку правила инициализируются только один раз
- добавилась команда просмотра правил 'metacrafter rules list'
- и так далее
Главный недостаток сейчас - это скорость работы на больших датасетах. Чем больше колонок тем дольше анализ, до нескольких минут. Это не так критично для задач вроде сканирования корпоративных СУБД, но тяжко для задач Dateno когда миллионы датасетов.
На самом деле чтобы всё ускорить нужно просто много ресурсов: процессорных, хранения и памяти. А прикрутив LLM'ку можно сильно повысить качество автодокументирования данных.
Понимание данных, автодокументирование датасетов, автоматизация анализа данных - это одни из наиболее любимых мной тем в дата инженерии и дата анализе. Жаль удаётся уделять немного времени.
Ссылки:
[1] https://github.com/apicrafter/metacrafter/
[2] https://github.com/apicrafter/metacrafter-rules/
#opensource #data #datatools #dateno #metacrafter
Но даже так я слегка пробежался по старому коду движка metacrafter'а [1], инструмента для идентификации семантических типов данных, или более простым языком, инструмент идентификации того что за колонка в наборе данных или в базе данных и что с ней можно делать. Инструмент я потихоньку начал приводить в целевое состояние - усиление поисковых возможностей у Dateno и автодокументирование датасетов.
Что нового:
- правила для metacrafter'а перенесены теперь в новый репозиторий metacrafter-rules [2], их стало больше, в основном за счёт правил для других языков отличных от английского и русского;
- обновился серверный и клиентский режимы работы. Теперь можно ускорить сканирование данных запустив metacrafter как сервер и обращаясь к нему через параметр remote при вызовах сканирования файлов или баз данных. Это важно для ускорения процесса поскольку правила инициализируются только один раз
- добавилась команда просмотра правил 'metacrafter rules list'
- и так далее
Главный недостаток сейчас - это скорость работы на больших датасетах. Чем больше колонок тем дольше анализ, до нескольких минут. Это не так критично для задач вроде сканирования корпоративных СУБД, но тяжко для задач Dateno когда миллионы датасетов.
На самом деле чтобы всё ускорить нужно просто много ресурсов: процессорных, хранения и памяти. А прикрутив LLM'ку можно сильно повысить качество автодокументирования данных.
Понимание данных, автодокументирование датасетов, автоматизация анализа данных - это одни из наиболее любимых мной тем в дата инженерии и дата анализе. Жаль удаётся уделять немного времени.
Ссылки:
[1] https://github.com/apicrafter/metacrafter/
[2] https://github.com/apicrafter/metacrafter-rules/
#opensource #data #datatools #dateno #metacrafter
GitHub
GitHub - apicrafter/metacrafter: Metadata and data identification tool and Python library. Identifies PII, common identifiers,…
Metadata and data identification tool and Python library. Identifies PII, common identifiers, language specific identifiers. Fully customizable and flexible rules - apicrafter/metacrafter
В рубрике как это устроено у них, Пражский проект по доступу к городским данным Golemio [1] существует в виде команды занимающеся дата продуктами такими как портал открытых данных Праги [2] и открытые API к системам Праги [3].
Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные.
Ссылки:
[1] https://golemio.cz/english
[2] https://opendata.praha.eu/datasets
[3] https://api.golemio.cz/docs/openapi/#/
[4] https://gitlab.com/operator-ict/golemio
#opendata #dataportals #czechia #praha #eu
Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные.
Ссылки:
[1] https://golemio.cz/english
[2] https://opendata.praha.eu/datasets
[3] https://api.golemio.cz/docs/openapi/#/
[4] https://gitlab.com/operator-ict/golemio
#opendata #dataportals #czechia #praha #eu
А также эти данные доступны по всем странам мира, почти по всем вернее. И интересное Wiki https://www.gem.wiki от той же команды на базе Semantic MediaWiki. Про полноту не знаю, но подход у ребят системный, есть что поизучать
Global Energy Monitor
Main Page
Welcome to GEM Wiki, the shared resource on all things energy: fossil fuels, renewable energy sources, environmental impacts, and the global movement to transition to a clean energy system.
Forwarded from Open Data Armenia
(EN) Even more data about Armenia outside Armenia. Dataset from Global Energy Monitor and it's dashboard
and map.
There are first datasets released and available after registration under CC-BY 4.0 International license.
(RU) Еще больше данных об Армении за пределами Армении. Набор данных из Global Energy Monitor и его информационной панели
и карта.
Появились первые наборы данных , они выпущены и доступны после регистрации по международной лицензии CC-BY 4.0.
#opendata #datasets #energy
and map.
There are first datasets released and available after registration under CC-BY 4.0 International license.
(RU) Еще больше данных об Армении за пределами Армении. Набор данных из Global Energy Monitor и его информационной панели
и карта.
Появились первые наборы данных , они выпущены и доступны после регистрации по международной лицензии CC-BY 4.0.
#opendata #datasets #energy
К вопрос о том как исчезают данные в РФ, и не только в РФ. Многие операторы баз данных онлайн - это коммерческие компании которые особенно в последнее время активно удаляют свой контент из поисковиков и агрегаторов. Какой-нибудь energybase.ru. В какой-то момент они прописали блокировку большей части поисковых и архивных ботов. Теперь все ссылки в gem.wiki, которую я только что упоминал, протухли потому что многие сайты, например, вместо ссылок на сайты давали и дают ссылки на Интернет архив. Например, https://www.gem.wiki/Nizhne-Bureyskaya_hydroelectric_plant и теперь ссылки эти протухли(
Если, в какой-то момент, Правительство РФ решит что размещение информации о критической инфраструктуре недопустимо и заставит все такие сайты удалить информацию то и в интернет архиве ничего не останется.
Все такие случаи не отследить( К сожалению и архивация коммерческих сайтов осложнена многим, в первую очередь, тем что они особенно оберегают свои права на контент.
#data #russia #dataavailability
Если, в какой-то момент, Правительство РФ решит что размещение информации о критической инфраструктуре недопустимо и заставит все такие сайты удалить информацию то и в интернет архиве ничего не останется.
Все такие случаи не отследить( К сожалению и архивация коммерческих сайтов осложнена многим, в первую очередь, тем что они особенно оберегают свои права на контент.
#data #russia #dataavailability
В рубрике интересных наборов геоданных, данные по зданиям в КНР, Японии и обеих Кореях в виде датасета на 23GB в сжатом виде. Внутри SHP файлы и другие стандартизированные геоформаты, а сами данные разделены по городам. Опубликовали на Zenodo 7 китайских исследователей. Источник данных непонятен, подробностей о происхождении данных нет, но сам датасет очень интересен и изза масштаба и размера и области охвата.
Данные можно отнести к научным и, одновременно, полезным не только учёным.
По моему с ним связана вот эта научная статья, но это не точно.
#opendata #data #datasets
Данные можно отнести к научным и, одновременно, полезным не только учёным.
По моему с ним связана вот эта научная статья, но это не точно.
#opendata #data #datasets
К вопросу о каталогах данных, которые я изучаю вот уже много лет, в особенности каталоги общедоступных и открытых данных, чем больше я наблюдаю рынок, экосистему и тд. в том числе относительно больших каталогов данных, тем больше убеждаюсь что весь этот рынок за очень короткое время может перемешать Microsoft или, с меньшей вероятностью, Gitlab, реализовав в Github/Gitlab такое понятие как репозиторий данных.
По сути и так огромное число датасетов публикуют через Git, особенно научные репозитории выкладывают на Github, а на размещённое там уже дают ссылки с какого нибудь Zenodo.
Причём сделать дата репозитории Microsoft может сделать очень дешёвым образом.
1. Добавить атрибут data к репозиториям с данными, чтобы их можно было бы выделить в поиске.
2. Добавить спецификацию в YAML с метаданными датасета/датасетов в этом репозитории. За основу можно взять DCAT.
К счастью или к сожалению, ничего такого они не делают и, как следствие, своего поиска по данным у Microsoft нет. Но если бы сделали то Github было бы проще индексировать с помощью Dateno.
#opendata #datasets #microsoft #github #thoughts
По сути и так огромное число датасетов публикуют через Git, особенно научные репозитории выкладывают на Github, а на размещённое там уже дают ссылки с какого нибудь Zenodo.
Причём сделать дата репозитории Microsoft может сделать очень дешёвым образом.
1. Добавить атрибут data к репозиториям с данными, чтобы их можно было бы выделить в поиске.
2. Добавить спецификацию в YAML с метаданными датасета/датасетов в этом репозитории. За основу можно взять DCAT.
К счастью или к сожалению, ничего такого они не делают и, как следствие, своего поиска по данным у Microsoft нет. Но если бы сделали то Github было бы проще индексировать с помощью Dateno.
#opendata #datasets #microsoft #github #thoughts
В рубрике как это устроено у них проект Metaspace [1] в Европейском Союзе в виде каталога данных аннотированных метаболических данных полученных через спектрометрию. Это более 11 тысячи датасетов, по большей части в форматах imzML и ibd специально для публикации такого рода данных.
Помимо многих метаданных специфичных именно для этой области, ещё одна особенность этого портала в том что на нем нет постоянных ссылок на данные и когда выбираешь опцию скачать данные тебе выдаётся ссылка протухающая через полчаса. Ещё один способ бороться с краулерами и автоматической выгрузкой данных.
Данных много, данные большин, но с очень узкой областью применения.
Ссылки:
[1] https://metaspace2020.eu
#opendata #dataseta #datacatalogs #massspectrometry
Помимо многих метаданных специфичных именно для этой области, ещё одна особенность этого портала в том что на нем нет постоянных ссылок на данные и когда выбираешь опцию скачать данные тебе выдаётся ссылка протухающая через полчаса. Ещё один способ бороться с краулерами и автоматической выгрузкой данных.
Данных много, данные большин, но с очень узкой областью применения.
Ссылки:
[1] https://metaspace2020.eu
#opendata #dataseta #datacatalogs #massspectrometry
В рубрике как это устроено у них публикация данных высокой ценности в Испании.
Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.
Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"
#opendata #datasets #europe #spain
Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.
Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"
#opendata #datasets #europe #spain
Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.
#readings #data #datascience #devops
#readings #data #datascience #devops
В рубрике интересных наборов данных 3D модель города Цюриха конца 1500 года опубликованная на их портале открытых данных [1] и доступная для просмотра интерактивно онлайн [2].
Опубликовано в форматах dxf, shp, gpkg и в виде веб сервисов OGC.
Кроме этого датасета в Цюрихе езё 15 датасетов с 3D моделями современных и исторических видов города [3].
Это интересная комбинация доступных данных и их исторического значения. Для тех кто изучает 3D моделирование и ищет готовые материалы это будет интересным подспорьем.
Сам портал открытых данных города включает 812 наборов данных из которых он на 50% состоит из геоданных, где-то на 30% из времянных рядов и оставшееся попадает во всё остальное.
Ссылки:
[1] https://data.stadt-zuerich.ch/dataset/geo_3d_stadtmodell_stadt_zuerich_jahresendstand_1500
[2] https://3d.stzh.ch/appl/3d/zuerich_4d_extern/#hintergrundkarte=Basiskarte%201500&easting=2683365.1302425126&northing=1246414.2127628734&blickhoehe=235.77&blickrichtung=359.35582275055935&blickwinkel=75.25719137722423&
[3] https://data.stadt-zuerich.ch/dataset?tags=3d
#opendata #datasets #switzerland #zurich #geodata #3d
Опубликовано в форматах dxf, shp, gpkg и в виде веб сервисов OGC.
Кроме этого датасета в Цюрихе езё 15 датасетов с 3D моделями современных и исторических видов города [3].
Это интересная комбинация доступных данных и их исторического значения. Для тех кто изучает 3D моделирование и ищет готовые материалы это будет интересным подспорьем.
Сам портал открытых данных города включает 812 наборов данных из которых он на 50% состоит из геоданных, где-то на 30% из времянных рядов и оставшееся попадает во всё остальное.
Ссылки:
[1] https://data.stadt-zuerich.ch/dataset/geo_3d_stadtmodell_stadt_zuerich_jahresendstand_1500
[2] https://3d.stzh.ch/appl/3d/zuerich_4d_extern/#hintergrundkarte=Basiskarte%201500&easting=2683365.1302425126&northing=1246414.2127628734&blickhoehe=235.77&blickrichtung=359.35582275055935&blickwinkel=75.25719137722423&
[3] https://data.stadt-zuerich.ch/dataset?tags=3d
#opendata #datasets #switzerland #zurich #geodata #3d
Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].
А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].
Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.
Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами
Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org
#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].
Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.
Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами
Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org
#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
Свежий open source инструмент/код по осмысленной интерпретации данных для LLM называется GraphRAG [1] весь код опубликован на Github.
Пока не могу сказать подробнее, надо экспериментировать, но выглядит просто таки очень интересно.
Ссылки:
[1] https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/
#opensource #llm #ai
Пока не могу сказать подробнее, надо экспериментировать, но выглядит просто таки очень интересно.
Ссылки:
[1] https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/
#opensource #llm #ai