Большой экспертный доклад группы экспертов Евростата [1] с основной идеей изменения подхода к официальной статистики через управление данными и построению статистических показателей, в том числе, за счёт данных частных компаний. Что характерно, в докладе участвовала большая группа экспертов почти со всех стран ЕС и почти все они из частного сектора компаний работающих с данными.
В целом ничего радикально нового, но чётко систематизировано и про то как будет происходить эволюция официальной статистики. Включая участие граждан в её формировании.
Важнейший аспект документа - в отражении того что статистика формируется не только под заказ органов власти, а для бизнеса и граждан.
Ссылки:
[1] https://ec.europa.eu/eurostat/documents/7870049/14803739/KS-FT-22-004-EN-N.pdf/052b4357-bf8e-9ce4-c063-7e806c045dac
#opendata #statistics #europe #eurostat
В целом ничего радикально нового, но чётко систематизировано и про то как будет происходить эволюция официальной статистики. Включая участие граждан в её формировании.
Важнейший аспект документа - в отражении того что статистика формируется не только под заказ органов власти, а для бизнеса и граждан.
Ссылки:
[1] https://ec.europa.eu/eurostat/documents/7870049/14803739/KS-FT-22-004-EN-N.pdf/052b4357-bf8e-9ce4-c063-7e806c045dac
#opendata #statistics #europe #eurostat
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].
Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.
Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных
Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity
#opendata #policy #reports #europe
Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.
Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных
Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity
#opendata #policy #reports #europe
Свежее регулирование от Еврокомиссии определяющее раскрытие особо ценных наборов данных (high value datasets) [1].
Охватывает ключевые наборы данных по таким темам как։
- Geospatial
- Earth observation and environment
- Meteorological
- Statistics
- Companies and company ownership
- Mobility
Все данные должны публиковаться под лицензиями CC0 или CC-BY, через API и доступными для массовой выгрузки (bulk download). Еврокомиссия будет мониторить раскрытие данных и раз в два года собирать отчет о выполнении этой директивы.
Обратите внимание, что в этих списках не так много данных о финансах, к примеру, и даже раскрытие по компаниям не так подробно как могло бы быть. Нет данных о бюджетах, о госконтрактах и ещё много чего.
Зато очень много данных связанных с качеством жизни - это данных об окружающей среде, загрязнении воздуха, воды, земли и многое другое.
Поэтому хотя и это регулирование не идеальное, но оно важное и надеюсь оно будет далее расширяться. Причём за основу можно было бы взять данные перечисленные в Global Data Barometer
Можно сравнить эту директиву с регулированием в Казахстане о котором я писал недавно. И найти отличия. Подсказка։ в Казахстане нет ни свободного доступа, ни открытых лицензий, ни иной конкретики.
Про Россию даже писать здесь нечего. Российские НПА требуют раскрытия огромного объёма бессмысленных данных и игнорируют раскрытие реально значимых. Ненужных данных много, нужные всё сложнее получить.
Ссылки։
[1] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=PI_COM:C(2022)9562
#opendata #datasets #europe
Охватывает ключевые наборы данных по таким темам как։
- Geospatial
- Earth observation and environment
- Meteorological
- Statistics
- Companies and company ownership
- Mobility
Все данные должны публиковаться под лицензиями CC0 или CC-BY, через API и доступными для массовой выгрузки (bulk download). Еврокомиссия будет мониторить раскрытие данных и раз в два года собирать отчет о выполнении этой директивы.
Обратите внимание, что в этих списках не так много данных о финансах, к примеру, и даже раскрытие по компаниям не так подробно как могло бы быть. Нет данных о бюджетах, о госконтрактах и ещё много чего.
Зато очень много данных связанных с качеством жизни - это данных об окружающей среде, загрязнении воздуха, воды, земли и многое другое.
Поэтому хотя и это регулирование не идеальное, но оно важное и надеюсь оно будет далее расширяться. Причём за основу можно было бы взять данные перечисленные в Global Data Barometer
Можно сравнить эту директиву с регулированием в Казахстане о котором я писал недавно. И найти отличия. Подсказка։ в Казахстане нет ни свободного доступа, ни открытых лицензий, ни иной конкретики.
Про Россию даже писать здесь нечего. Российские НПА требуют раскрытия огромного объёма бессмысленных данных и игнорируют раскрытие реально значимых. Ненужных данных много, нужные всё сложнее получить.
Ссылки։
[1] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=PI_COM:C(2022)9562
#opendata #datasets #europe
Появились первые отчёты о прозрачности [1] корпораций подписавших Европейский Кодекс практик против дезинформации (The Code of Practice on Disinformation) [2].
А это такие компании как Microsoft, Google, Meta, Adobe, Twitter, TikTok и ещё многие другие.
Отчеты, разные по качеству. Короткий отчет от Twitter, к примеру, и подобные отчеты от Google и Microsoft.
Конечно, добровольность кодекса и этих отчетов не означает что отчетам можно безусловно доверять, но хотя бы они показывают какие компании отнеслись серьёзно к этому упражнению, а для каких даже это оказалось сложно.
Кстати, на примере этого кодекса можно не могу не вернуться к вопросу об отечественном кодексе ИИ и его функциональной бесполезности. Если к кодексу ничего не стоит присоединиться и его выполнение никак не мониторится, то и цена ему невелика. В этом смысле европейский кодекс нагляднее, к нему присоединяются только те кто хотя бы готов на регулярной основе добровольно раскрывать информацию о конкретных действиях.
Ссылки:
[1] https://disinfocode.eu/reports-archive/?years=2023
[2] https://disinfocode.eu/introduction-to-the-code/
#privacy #ethics #disinformation #europe #bigtech
А это такие компании как Microsoft, Google, Meta, Adobe, Twitter, TikTok и ещё многие другие.
Отчеты, разные по качеству. Короткий отчет от Twitter, к примеру, и подобные отчеты от Google и Microsoft.
Конечно, добровольность кодекса и этих отчетов не означает что отчетам можно безусловно доверять, но хотя бы они показывают какие компании отнеслись серьёзно к этому упражнению, а для каких даже это оказалось сложно.
Кстати, на примере этого кодекса можно не могу не вернуться к вопросу об отечественном кодексе ИИ и его функциональной бесполезности. Если к кодексу ничего не стоит присоединиться и его выполнение никак не мониторится, то и цена ему невелика. В этом смысле европейский кодекс нагляднее, к нему присоединяются только те кто хотя бы готов на регулярной основе добровольно раскрывать информацию о конкретных действиях.
Ссылки:
[1] https://disinfocode.eu/reports-archive/?years=2023
[2] https://disinfocode.eu/introduction-to-the-code/
#privacy #ethics #disinformation #europe #bigtech
Свежий обзор европейских зарплат специалистов по данным - аналитики, дата-сайентисты и дата-инженеры на 2023 год [1] на оснований 500 объявлений о работе для специалистов в Европе.
Любопытные выводы։
1. Зарплаты в Берлине ниже чем в Лондоне или Дублине и в Германии, в принципе, зарплаты ниже.
2.Крупные бигтех компании в Европе платят больше других
3. Разница в средней годовой зарплате джунов ($70k) и миддлов ($83k) не так уже велика. Хотя лично меня удивляют такие зарплаты джунов в Европе, в России, к примеру, они резко отличаются. Конкуренция и квалификация у джунов невелика сейчас из-за безумного числа плохих ИТ курсов.
Ссылки։
[1] https://www.synq.io/blog/europe-data-salary-benchmark-2023
#europe #itmarket
Любопытные выводы։
1. Зарплаты в Берлине ниже чем в Лондоне или Дублине и в Германии, в принципе, зарплаты ниже.
2.Крупные бигтех компании в Европе платят больше других
3. Разница в средней годовой зарплате джунов ($70k) и миддлов ($83k) не так уже велика. Хотя лично меня удивляют такие зарплаты джунов в Европе, в России, к примеру, они резко отличаются. Конкуренция и квалификация у джунов невелика сейчас из-за безумного числа плохих ИТ курсов.
Ссылки։
[1] https://www.synq.io/blog/europe-data-salary-benchmark-2023
#europe #itmarket
В рубрике как это работает у них, государственный портал открытых данных Чехии data.gov.cz [1].
Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.
Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.
В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много
Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/
#opendata #czech #dataportals #linkeddata #datacatalogs #europe
Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.
Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.
В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много
Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/
#opendata #czech #dataportals #linkeddata #datacatalogs #europe
Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.
А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.
Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]
Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.
Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement
#opendata #openscience #openaccess #france #europe
А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.
Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]
Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.
Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement
#opendata #openscience #openaccess #france #europe
В рубрике интересных наборов данных, набор данных по использованию земли в Европейском союзе начиная с 2000 года по 2019 [1], а также визуальное представление этих данных в проекте The Open-Earth-Monitor Cyberinfrastructure [2]
Этот проект, как и многие другие геоданные с высокой детализацией, создаются в рамках исследовательской программы ЕС консорциумом университетов, исследовательских групп и частных компаний. Кроме него стоит посмотреть на другие значимые наборы геоданных публикуемые OpenGeoHub [3].
В очень хорошем смысле можно позавидовать их команде, создающей огромные наборы данных в хорошем качестве и за государственный счёт (научных программ ЕС и глобальных институтов).
Ссылки:
[1] https://opengeohub.org/datasets/high-resolution-annual-continental-european-land-use-land-cover-data-since-2000/
[2] https://ecodatacube.eu
[3] https://opengeohub.org
#opendata #datasets #geodata #europe
Этот проект, как и многие другие геоданные с высокой детализацией, создаются в рамках исследовательской программы ЕС консорциумом университетов, исследовательских групп и частных компаний. Кроме него стоит посмотреть на другие значимые наборы геоданных публикуемые OpenGeoHub [3].
В очень хорошем смысле можно позавидовать их команде, создающей огромные наборы данных в хорошем качестве и за государственный счёт (научных программ ЕС и глобальных институтов).
Ссылки:
[1] https://opengeohub.org/datasets/high-resolution-annual-continental-european-land-use-land-cover-data-since-2000/
[2] https://ecodatacube.eu
[3] https://opengeohub.org
#opendata #datasets #geodata #europe
Governing Urban Data for the Public Interest [1] свежий документ от команды The New Institute and the Free and Hanseatic City of Hamburg подготовленный в рамках инициативы The New Hanse (Новая Ганза) и посвящённый управлению данными и открытым данным в Гамбурге. Документ раскрывает темы Urban Data Platform (UDP) / Городской платформы данных (ГПД) и подход через посредников в работе с данными (data intermediaries).
Ключевые акценты сосредоточены в утверждении необходимости сдвига парадигмы обмена городскими данными через обеспечение столь широкого доступа к ним сколь это возможно.
Документ полезный, с большим числом схем организационной работы. При этом со своими ограничениями. В его авторах экономисты, юристы и ИТ менеджеры, но совсем нет инженеров/технарей/людей с практическим опытом работы с данными поэтому технические разделы вроде Parametrised data transformations и Parametrised contracts довольно общие, а технические характеристики и интеграция Urban Data Platform практически не прописаны.
В документе есть несколько интересных отсылок на работы и центры в этом же направлении. Например, The International Data Spaces Association (IDSA) [2] и многие другие.
Ссылки:
[1] https://thenewhanse.eu/en/blueprint
[2] https://internationaldataspaces.org/
#opendata #cities #europe #readings
Ключевые акценты сосредоточены в утверждении необходимости сдвига парадигмы обмена городскими данными через обеспечение столь широкого доступа к ним сколь это возможно.
Документ полезный, с большим числом схем организационной работы. При этом со своими ограничениями. В его авторах экономисты, юристы и ИТ менеджеры, но совсем нет инженеров/технарей/людей с практическим опытом работы с данными поэтому технические разделы вроде Parametrised data transformations и Parametrised contracts довольно общие, а технические характеристики и интеграция Urban Data Platform практически не прописаны.
В документе есть несколько интересных отсылок на работы и центры в этом же направлении. Например, The International Data Spaces Association (IDSA) [2] и многие другие.
Ссылки:
[1] https://thenewhanse.eu/en/blueprint
[2] https://internationaldataspaces.org/
#opendata #cities #europe #readings
International Data Spaces
Home - International Data Spaces
The International Data Spaces Association (IDSA) is on a mission to create the future of the global, digital economy with IDS, a secure, sovereign system of data exchange in which all participants can realize the full value of their data. IDS enables new…
Вышел свежий доклад Open Data Maturity 2023 [1] посвящённый целиком зрелости открытых данных в Европейском союзе, странах EFTA и ряде стран кандидатов. Наилучшие оценки в Франции, Польши и Эстонии, далее Украина, Испания и Кипр.
У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.
Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.
В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.
Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023
#opendata #reports #europe
У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.
Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.
В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.
Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023
#opendata #reports #europe
В рубрике как это работает у них о том как публикует статистические данные Европейский Центральный Банк (ECB).
На сайте ECB есть специальный раздел с данными "Browse data" [1] с возможностью просмотра их по категориям, концептам, географии и в виде наборов данных [2]. Особенность публикации в виде набора данных в том что каждый набор - это коллекция связанных/тематических показателей которых может быть от нескольких единиц до сотен тысяч и все данные публикуются сразу для массовой выгрузки (bulk download). Иначе говоря можно скачать разом (107 файлами) в форматах CSV и SDMX (XML) данные по сразу более чем 3.3 миллиона временных рядов, а по каждому ряду до нескольких десятков значений.
Одновременно с этим данные можно искать, причём единицей поиска представлен временной ряд привязанный к конкретной территории [3], фактически показатели фрагментированы по странам/территориям и такая фрагментация оправдана поскольку чаще всего пользователи ищут данные в привязке к конкретной стране. Это очень похоже на организацию данных в портале данных Банка международных расчётов (BIS) [4].
Одновременно с этим портал даёт возможность выгрузить отдельные временные ряды в CSV, XLSX, SDMX на их страницах и включает документированное API для получения данных в JSON [5] .
Достоинства:
- хороший баланс функций для тех кто работает с данными на сайте и теми кто работает с ними локально выгрузками и через API
- возможность bulk download
- хорошо документированное API
- подробные метаданные по каждому показателю
Недостатки:
- нет поддержки современных форматов вроде Parquet
- нет программной библиотеки для Python или R
- нет интеграции в "один клик", надо писать код для работы с API или использовать SDMX connector
- нет описания API в спецификации OpenAPI
Ссылки:
[1] https://data.ecb.europa.eu/data
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/search-results
[4] https://data.bis.org
[5] https://data.ecb.europa.eu/help/api/overview
#opendata #statistics #europe
На сайте ECB есть специальный раздел с данными "Browse data" [1] с возможностью просмотра их по категориям, концептам, географии и в виде наборов данных [2]. Особенность публикации в виде набора данных в том что каждый набор - это коллекция связанных/тематических показателей которых может быть от нескольких единиц до сотен тысяч и все данные публикуются сразу для массовой выгрузки (bulk download). Иначе говоря можно скачать разом (107 файлами) в форматах CSV и SDMX (XML) данные по сразу более чем 3.3 миллиона временных рядов, а по каждому ряду до нескольких десятков значений.
Одновременно с этим данные можно искать, причём единицей поиска представлен временной ряд привязанный к конкретной территории [3], фактически показатели фрагментированы по странам/территориям и такая фрагментация оправдана поскольку чаще всего пользователи ищут данные в привязке к конкретной стране. Это очень похоже на организацию данных в портале данных Банка международных расчётов (BIS) [4].
Одновременно с этим портал даёт возможность выгрузить отдельные временные ряды в CSV, XLSX, SDMX на их страницах и включает документированное API для получения данных в JSON [5] .
Достоинства:
- хороший баланс функций для тех кто работает с данными на сайте и теми кто работает с ними локально выгрузками и через API
- возможность bulk download
- хорошо документированное API
- подробные метаданные по каждому показателю
Недостатки:
- нет поддержки современных форматов вроде Parquet
- нет программной библиотеки для Python или R
- нет интеграции в "один клик", надо писать код для работы с API или использовать SDMX connector
- нет описания API в спецификации OpenAPI
Ссылки:
[1] https://data.ecb.europa.eu/data
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/search-results
[4] https://data.bis.org
[5] https://data.ecb.europa.eu/help/api/overview
#opendata #statistics #europe
В рубрике как это устроено у них публикация данных высокой ценности в Испании.
Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.
Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"
#opendata #datasets #europe #spain
Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.
Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"
#opendata #datasets #europe #spain
В рубрике как это устроено у них раскрытие данных Европейского центрального банка (ECB) на ECB Data portal [1]. Главная особенность именно портала данных ECB в том что они публикуются, одновременно, для аналитиков не умеющих работать с техническими инструментами, тех кто умеет работать с API и тех кто оперирует большими данными.
Все индикаторы ECB собраны в 108 наборов данных по группам [2] скачав файлы которых можно сразу загрузить в свою базу данных и сразу работать с их значениями. Это то что называют bulk download.
Одновременно с этим каждый индикатор доступен в визуальной форме [3] и, наконец, у всего этого каталога данных есть API по стандарту SDMX 2.1 используемого для раскрытия статистики. [4]
В целом это один из наиболее методологически проработанных порталов публикации статистики поскольку современные стат. порталы удобны когда учитывают интересы многих типов пользователей.
Всем исследователям и аналитикам кто работает с данными нужны API и возможность выгрузки данных целиком.
А всем тем кто ссылается на конкретный индикатор, в статье или в научной работе - нужна постоянная ссылка на конкретный индикатор.
Ссылки:
[1] https://data.ecb.europa.eu
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/data/datasets/AME/AME.A.DNK.1.0.0.0.OVGD
[4] https://data.ecb.europa.eu/help/api/overview
#opendata #data #europe #centralbank #ecb #datasets #api #sdmx
Все индикаторы ECB собраны в 108 наборов данных по группам [2] скачав файлы которых можно сразу загрузить в свою базу данных и сразу работать с их значениями. Это то что называют bulk download.
Одновременно с этим каждый индикатор доступен в визуальной форме [3] и, наконец, у всего этого каталога данных есть API по стандарту SDMX 2.1 используемого для раскрытия статистики. [4]
В целом это один из наиболее методологически проработанных порталов публикации статистики поскольку современные стат. порталы удобны когда учитывают интересы многих типов пользователей.
Всем исследователям и аналитикам кто работает с данными нужны API и возможность выгрузки данных целиком.
А всем тем кто ссылается на конкретный индикатор, в статье или в научной работе - нужна постоянная ссылка на конкретный индикатор.
Ссылки:
[1] https://data.ecb.europa.eu
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/data/datasets/AME/AME.A.DNK.1.0.0.0.OVGD
[4] https://data.ecb.europa.eu/help/api/overview
#opendata #data #europe #centralbank #ecb #datasets #api #sdmx
Свежий национальный портал открытых данных на сей раз Боснии и Герцеговины [1], его полуоткрыли с мае 2024 года, но явно не доделали судя по текстам-заглушкам на сайте и разместили всего 12 наборов данных.
Делают его на CKAN и, в целом, как-то без энтузиазма 😜
В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.
В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.
Ссылки:
[1] https://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/
#opendata #bosnaihercegovina #europe #ckan #datasets
Делают его на CKAN и, в целом, как-то без энтузиазма 😜
В Боснии и Герцеговине открытых данных не так уж много, из известных мне порталов - это Otvoreni podaci Grada Prijedor [2] и несколько геокаталогов и геопорталов с геоданными.
В целом всё довольно скромно выглядит, но даже у небольшой Боснии с населением в 3.5 миллиона жителей портал открытых данных есть, а у многие крупных стран нет.
Ссылки:
[1] https://podaci.gov.ba/en/
[2] https://opendataprijedor.ba/
#opendata #bosnaihercegovina #europe #ckan #datasets
Почему некоторых особенно крупных порталов с данными нет в Dateno? Например, европейский портал data.europe.eu [1] кажется очень большим. Там более чем 1.8 миллиона датасетов со всех стран входящих в Европейский союз, там есть API через которое их можно выкачать и выглядит как "надо брать", проиндексировать его и сразу индекс сильно расшириться.
Всё так, за несколькими но, и очень существенными.
Проблема прослеживаемости
Data.europe.eu - это агрегатор, причём агрегатор агрегаторов. Потому что во многих европейских странах данные публикуются на городских/районных порталах, собираются на национальных и далее в индексируются в общеевропейский. В результате прослеживаемость до первоисточника и часть метаданных теряются.
Вот наглядный пример. Набор данных Miljöfarliga verksamheter (Экологически опасные виды работ) на портале данных шведского города Malmo [2] попадает на шведский национальный портал dataportal.se [2] и оттуда аггрегируется в общеевропейский [3]. В оригинальном источнике у всех ресурсов указана лицензия cc0-1.0, а в национальном и общеевропейском лицензия не указана. Также как и нет цепочки прослеживаемости до первоисточника.
Проблема полноты
На европейском портале сейчас агрегируются данные с национальных порталов открытых данных и из геокаталогов по программе INSPIRE. Для агрегации используются стандарты DCAT-AP, расширение INSPIRE для геокаталогов, в основном, на базе Geonetwork и стандарт SPARQL и расширение API для CKAN. Городские, региональные, муниципальные, научные и иные каталоги данных не поддерживающие эти стандарты туда не попадают.
В этом есть некое характерное отличие европейского портала открытых данных от, к примеру, порталу открытых данных США где более 80% всех данных - это научные данные и геоданные. В Европейском портале научных данных нет совсем, а геоданные составляют от 60% до 70% всех данных. В Евросоюзе научные данные собираются на портале OpenAIRE и в data.europe.eu не попадают. Практически все источники данных которые в data.europe.eu собираются есть и в Dateno.
Проблема качества
В европейском портале данных только около 150-180 тысяч наборов данных имеют разметку по типу используемой лицензии. Это очень, я бы даже сказал, совсем мало, максимум 10% от общего числа данных, при том что зная природу порталов открытых данных откуда агрегируются данных можно было бы идентифицировать лицензии гораздо эффективнее. Внутри Dateno сейчас идентифицируются 40 лицензий и условий использования по более чем 800 правилам
—
В целом картина складывается так что в каком-то смысле европейский портал можно рассматривать как конкурент для Dateno, а не как источник данных. Единственные значимые там характеристики - это оценка качества метаданных по их методологии и отметки что наборы данных относятся к особо ценным. Но первое можно оценивать самостоятельно, а второе содержится в метаданных первоисточников.
Важная характеристика европейского портала в попытках получить хороший поисковик выставляя высокие требования к первоисточникам которые должны соблюсти определённые стандарты.
В отличие от него в Dateno агрегируется всё что хоть как-то напоминает каталоги данных и чьи метаданные можно стандартизировать под описание схожее с DCAT, как бы оно не было в оригинале.
Ссылки:
[1] https://data.europa.eu
[2] https://ckan-malmo.dataplatform.se/dataset/miljofarliga-verksamheter
[3] https://www.dataportal.se/datasets/290_5852/miljofarliga-verksamheter
[4] https://data.europa.eu/data/datasets/https-ckan-malmo-dataplatform-se-dataset-5249aa0b-6528-43ef-880f-172adac8515b?locale=en
[5] https://github.com/commondataio/cdi-licensemapper
#opendata #data #datasets #dateno #europe
Всё так, за несколькими но, и очень существенными.
Проблема прослеживаемости
Data.europe.eu - это агрегатор, причём агрегатор агрегаторов. Потому что во многих европейских странах данные публикуются на городских/районных порталах, собираются на национальных и далее в индексируются в общеевропейский. В результате прослеживаемость до первоисточника и часть метаданных теряются.
Вот наглядный пример. Набор данных Miljöfarliga verksamheter (Экологически опасные виды работ) на портале данных шведского города Malmo [2] попадает на шведский национальный портал dataportal.se [2] и оттуда аггрегируется в общеевропейский [3]. В оригинальном источнике у всех ресурсов указана лицензия cc0-1.0, а в национальном и общеевропейском лицензия не указана. Также как и нет цепочки прослеживаемости до первоисточника.
Проблема полноты
На европейском портале сейчас агрегируются данные с национальных порталов открытых данных и из геокаталогов по программе INSPIRE. Для агрегации используются стандарты DCAT-AP, расширение INSPIRE для геокаталогов, в основном, на базе Geonetwork и стандарт SPARQL и расширение API для CKAN. Городские, региональные, муниципальные, научные и иные каталоги данных не поддерживающие эти стандарты туда не попадают.
В этом есть некое характерное отличие европейского портала открытых данных от, к примеру, порталу открытых данных США где более 80% всех данных - это научные данные и геоданные. В Европейском портале научных данных нет совсем, а геоданные составляют от 60% до 70% всех данных. В Евросоюзе научные данные собираются на портале OpenAIRE и в data.europe.eu не попадают. Практически все источники данных которые в data.europe.eu собираются есть и в Dateno.
Проблема качества
В европейском портале данных только около 150-180 тысяч наборов данных имеют разметку по типу используемой лицензии. Это очень, я бы даже сказал, совсем мало, максимум 10% от общего числа данных, при том что зная природу порталов открытых данных откуда агрегируются данных можно было бы идентифицировать лицензии гораздо эффективнее. Внутри Dateno сейчас идентифицируются 40 лицензий и условий использования по более чем 800 правилам
—
В целом картина складывается так что в каком-то смысле европейский портал можно рассматривать как конкурент для Dateno, а не как источник данных. Единственные значимые там характеристики - это оценка качества метаданных по их методологии и отметки что наборы данных относятся к особо ценным. Но первое можно оценивать самостоятельно, а второе содержится в метаданных первоисточников.
Важная характеристика европейского портала в попытках получить хороший поисковик выставляя высокие требования к первоисточникам которые должны соблюсти определённые стандарты.
В отличие от него в Dateno агрегируется всё что хоть как-то напоминает каталоги данных и чьи метаданные можно стандартизировать под описание схожее с DCAT, как бы оно не было в оригинале.
Ссылки:
[1] https://data.europa.eu
[2] https://ckan-malmo.dataplatform.se/dataset/miljofarliga-verksamheter
[3] https://www.dataportal.se/datasets/290_5852/miljofarliga-verksamheter
[4] https://data.europa.eu/data/datasets/https-ckan-malmo-dataplatform-se-dataset-5249aa0b-6528-43ef-880f-172adac8515b?locale=en
[5] https://github.com/commondataio/cdi-licensemapper
#opendata #data #datasets #dateno #europe
В рубрике как это устроено у них национальный портал открытых данных Германии GovData.de [1] включает более 117 тысяч наборов данных, большую часть которых агрегируют из региональных порталов открытых данных отдельных территорий и городов, более всего, 28 тысяч из земли Schleswig-Holstein, но и остальные данные чаще региональные и хорошо обновляемые. Федеральный портал стремительно пополняется, ещё несколько месяцев назад там было около 88 тысяч наборов данных.
Внутри портала работает CKAN, поверх него сделан интерфейс с помощью Liferay.
Особенность портала в том что на нём далеко не все открытые данные Германии и на портале данных ЕС имеется 726+ тысяч наборов данных. Остальные 609 тысяч наборов данных собираются из каталога геоданных Германии GDI.
В Dateno тоже есть данные по Германии и основные данные не с госпортала GovData, а как раз с геопорталов отдельных земель. Собственно обилие данных по Германии даёт значительное искажение картины доступности данных по Западной Европе в Европейском портале и в Dateno. Что вызвано тем что данных в Германии, действительно, раскрывается очень много и тем что нужно больше индексировать источники данных по другим европейским странам.
А пока можно обратить внимание что крупные национальные порталы вроде GovData также идут по пути развития фасетного поиска. Больше интересных фильтров, больше возможности найти нужные наборы данных
Ссылки:
[1] https://www.govdata.de
#opendata #germany #europe #datasets #data
Внутри портала работает CKAN, поверх него сделан интерфейс с помощью Liferay.
Особенность портала в том что на нём далеко не все открытые данные Германии и на портале данных ЕС имеется 726+ тысяч наборов данных. Остальные 609 тысяч наборов данных собираются из каталога геоданных Германии GDI.
В Dateno тоже есть данные по Германии и основные данные не с госпортала GovData, а как раз с геопорталов отдельных земель. Собственно обилие данных по Германии даёт значительное искажение картины доступности данных по Западной Европе в Европейском портале и в Dateno. Что вызвано тем что данных в Германии, действительно, раскрывается очень много и тем что нужно больше индексировать источники данных по другим европейским странам.
А пока можно обратить внимание что крупные национальные порталы вроде GovData также идут по пути развития фасетного поиска. Больше интересных фильтров, больше возможности найти нужные наборы данных
Ссылки:
[1] https://www.govdata.de
#opendata #germany #europe #datasets #data
Команда OpenAIRE пишет про партнёрство с лабораторией SCImago [1], командой которая создала несколько продуктов по оценке и рэнкингу научных институций и стран. Кстати, если Вы не видели их рейтинг стран по научным публикациям, то стоит взглянуть [2] и, кстати, картинка о состоянии российской науки, вернее падения её интеграции в мировую и цитируемости. Я это комментировать не буду, уверен что найдутся те кто может объяснить эти процессы лучше меня.
Так вот партнёрство OpenAIRE и SCImago упоминается в контексте исследовательских данных и логично будет если вскоре появятся аналитические и визуальные продукты именно по публикации и доступности научных данных. Это будет любопытно.
Правда, важно всегда помнить что качество метаданных в индексе OpenAIRE не очень высокое, но точно выше чем в DataCite или в китайском ScienceDB.
Ссылки:
[1] https://www.openaire.eu/openaire-and-scimago-lab-unite-to-enhance-scholarly-research-data
[2] https://www.scimagojr.com/countryrank.php
[3] https://www.scimagojr.com/countrysearch.php?country=RU
#opendata #openaccess #openaire #europe #rankings
Так вот партнёрство OpenAIRE и SCImago упоминается в контексте исследовательских данных и логично будет если вскоре появятся аналитические и визуальные продукты именно по публикации и доступности научных данных. Это будет любопытно.
Правда, важно всегда помнить что качество метаданных в индексе OpenAIRE не очень высокое, но точно выше чем в DataCite или в китайском ScienceDB.
Ссылки:
[1] https://www.openaire.eu/openaire-and-scimago-lab-unite-to-enhance-scholarly-research-data
[2] https://www.scimagojr.com/countryrank.php
[3] https://www.scimagojr.com/countrysearch.php?country=RU
#opendata #openaccess #openaire #europe #rankings
Еврокомиссия 24 сентября запустила Public Procurement Data Space (PPDS) [1] инициативу по интеграции данных о государственных закупках в странах Евросоюза. Инициатива эта является продолжением и развитием Европейской стратегии данных (European strategy for data) [2] от 2020 года где тематика доступности данных о закупках была явно обозначена.
Из любопытного:
1. В основе технологий PPDS лежит онтология eProcurement Ontology (ePO) [3] и технологии Knowledge Graphs с реализацией аналитической базы данных с интерфейсом SPARQL
2. У проекта есть открытые репозитории, в основном с проверка
ми качества данных и индикаторами [4]
3. А также они в открытый доступ отдают дашборды с оценками качества данных [5], реализованы дашборды на Superset
Собственно чего в PPDS пока нехватает - это самих данных, систематизированных и пригодных для автоматической загрузки и обработки.
Ссылки:
[1] https://www.public-procurement-data-space.europa.eu/en
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52020DC0066
[3] https://docs.ted.europa.eu/EPO/latest/index.html
[4] https://eproc.pages.code.europa.eu/ppds/pages/
[5] https://www.public-procurement-data-space.europa.eu/en/dashboards
#opendata #europe #procurement #data #datasets
Из любопытного:
1. В основе технологий PPDS лежит онтология eProcurement Ontology (ePO) [3] и технологии Knowledge Graphs с реализацией аналитической базы данных с интерфейсом SPARQL
2. У проекта есть открытые репозитории, в основном с проверка
ми качества данных и индикаторами [4]
3. А также они в открытый доступ отдают дашборды с оценками качества данных [5], реализованы дашборды на Superset
Собственно чего в PPDS пока нехватает - это самих данных, систематизированных и пригодных для автоматической загрузки и обработки.
Ссылки:
[1] https://www.public-procurement-data-space.europa.eu/en
[2] https://eur-lex.europa.eu/legal-content/EN/TXT/?uri=CELEX%3A52020DC0066
[3] https://docs.ted.europa.eu/EPO/latest/index.html
[4] https://eproc.pages.code.europa.eu/ppds/pages/
[5] https://www.public-procurement-data-space.europa.eu/en/dashboards
#opendata #europe #procurement #data #datasets