В рубрике интересных наборов данных платформа открытых геоданных по Кавказу [1] от UN Environment Programme/GRID-Geneva
118 наборов данных связанных с населением, климатом, лесом, водой и тд. с охватом территорий Армении, Грузии, России, Азебайджана, Турции и Ирана.
В общей совокупности это относительные небольшие данные по объёму, но важные как геоснова уже размеченная на регионы и районы.
Портал создан на портале с открытым кодом GeoNode и данные доступны для ручной и автоматической выгрузке, к ним можно подключится любимым инструментом через одно из API [2]
Похожий проект есть и для Центральной Азии [3] со 192 наборами данных (слоями геоданных) по всем среднеазиатским странам.
Проект создан в рамках Central Asia Climate Information Platform (CACIP) и продолжает развиваться.
Что это значит? То что если данные не публикуют правительства стран, то это не значит что их нет. Они просто лежат в других местах;)
Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] https://sustainable-caucasus.unepgrid.ch/developer/
[3] https://geonode.centralasiaclimateportal.org/
#opendata #geodata #geonode #armenia #caucasus #centralasia #datasets
118 наборов данных связанных с населением, климатом, лесом, водой и тд. с охватом территорий Армении, Грузии, России, Азебайджана, Турции и Ирана.
В общей совокупности это относительные небольшие данные по объёму, но важные как геоснова уже размеченная на регионы и районы.
Портал создан на портале с открытым кодом GeoNode и данные доступны для ручной и автоматической выгрузке, к ним можно подключится любимым инструментом через одно из API [2]
Похожий проект есть и для Центральной Азии [3] со 192 наборами данных (слоями геоданных) по всем среднеазиатским странам.
Проект создан в рамках Central Asia Climate Information Platform (CACIP) и продолжает развиваться.
Что это значит? То что если данные не публикуют правительства стран, то это не значит что их нет. Они просто лежат в других местах;)
Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] https://sustainable-caucasus.unepgrid.ch/developer/
[3] https://geonode.centralasiaclimateportal.org/
#opendata #geodata #geonode #armenia #caucasus #centralasia #datasets
Часть 1 из 2
Я было планировал написать текст с рассказом о том как устроены открытые геоданные в мире, начиная с европейской инициативы INSPIRE, но быстро понял что текст будет неполным если также не рассказать про UN-GGIM, UNSDI, GEOSS, GMES, GeoSUR и ещё многие другие глобальные и региональные инициативы по открытости метаданных. Текст напишу уже позже и в форме лонгрида в рассылку [1].
А пока про каталогизацию каталогов данных на текущий момент. Я напомню что занимаюсь сейчас проектом Common Data Index [по систематизации каталогов данных и далее по анализу их содержания с разными продуктами на выходе. Чтобы понять какое ПО используется, какие стандарты, какие данные публикуются надо многие из них пересмотреть глазами, не всё автоматизируется. Уже сейчас доступен датасет с каталогами данных [2] и я регулярно пишу о том что же там.
Сейчас в наборе данных с каталогами открытых данных 1950 каталогов и этот список растёт, 461 каталог ещё просто не обработан и сколько-то ещё не найдено. Я могу много лекций прочитать про Data Discovery и о том как находить данные разными способами и как их публикуют.
Интересно то что в процессе выясняется столь многое что было лично мне и многие в сообществе неизвестно совершенно.
1) Начну с неожиданного, очень много порталов данных в азиатских странах: Таиланде, Японии, Южной Корее, Малайзии, Индонезии и Китае. Не так много пока как в США или в Европе, но, в принципе, очень много. Особенность их в том что они не на виду, они почти никогда не переведены на другие языки кроме государственного и их если не знать как искать или если не просматривать сайты органов власти то и не найти не местному жителю (не владеющему языком), так же они резко недопредставлены во всех предыдущих попытках систематизации каталогов данных таких как DataShades, Dataportals.org, Open Data Inception и др.
2) Очень всё не очень на постсоветском пространстве. В России наизобретали велосипедов что для открытых данных, что для геоданных и геоданными исключительно торгуют, открытых почти нет. Это резко контрастирует со всем миром. В Центральной Азии данные есть, но с систематизацией их дело обстоит плохо. В Армении надо очень много усилий приложить чтобы найти опубликованные данные, нет даже госпортала с данными. В Грузии всё выглядело неплохо, в основном из-за прицела на вступление в ЕС, непонятно что дальше. А Азербайджане ситуация мало отличная от Средней Азии и тд. А ещё во всем постсоветском пространстве кроме стран вошедших в ЕС очень скудно с публикацией открытых научных данных, даже в режиме "не быть, но казаться".
3) Иногда порталы открытых данных делают экзотическими способами на CMS вроде Semantic Mediawiki или Wordpress, но в основном, инструменты данных весьма стандартны: CKAN, Geonetwork, Dataverse, DKAN, GeoNode, NADA, OpenDataSoft, Socrata и др.
Я было планировал написать текст с рассказом о том как устроены открытые геоданные в мире, начиная с европейской инициативы INSPIRE, но быстро понял что текст будет неполным если также не рассказать про UN-GGIM, UNSDI, GEOSS, GMES, GeoSUR и ещё многие другие глобальные и региональные инициативы по открытости метаданных. Текст напишу уже позже и в форме лонгрида в рассылку [1].
А пока про каталогизацию каталогов данных на текущий момент. Я напомню что занимаюсь сейчас проектом Common Data Index [по систематизации каталогов данных и далее по анализу их содержания с разными продуктами на выходе. Чтобы понять какое ПО используется, какие стандарты, какие данные публикуются надо многие из них пересмотреть глазами, не всё автоматизируется. Уже сейчас доступен датасет с каталогами данных [2] и я регулярно пишу о том что же там.
Сейчас в наборе данных с каталогами открытых данных 1950 каталогов и этот список растёт, 461 каталог ещё просто не обработан и сколько-то ещё не найдено. Я могу много лекций прочитать про Data Discovery и о том как находить данные разными способами и как их публикуют.
Интересно то что в процессе выясняется столь многое что было лично мне и многие в сообществе неизвестно совершенно.
1) Начну с неожиданного, очень много порталов данных в азиатских странах: Таиланде, Японии, Южной Корее, Малайзии, Индонезии и Китае. Не так много пока как в США или в Европе, но, в принципе, очень много. Особенность их в том что они не на виду, они почти никогда не переведены на другие языки кроме государственного и их если не знать как искать или если не просматривать сайты органов власти то и не найти не местному жителю (не владеющему языком), так же они резко недопредставлены во всех предыдущих попытках систематизации каталогов данных таких как DataShades, Dataportals.org, Open Data Inception и др.
2) Очень всё не очень на постсоветском пространстве. В России наизобретали велосипедов что для открытых данных, что для геоданных и геоданными исключительно торгуют, открытых почти нет. Это резко контрастирует со всем миром. В Центральной Азии данные есть, но с систематизацией их дело обстоит плохо. В Армении надо очень много усилий приложить чтобы найти опубликованные данные, нет даже госпортала с данными. В Грузии всё выглядело неплохо, в основном из-за прицела на вступление в ЕС, непонятно что дальше. А Азербайджане ситуация мало отличная от Средней Азии и тд. А ещё во всем постсоветском пространстве кроме стран вошедших в ЕС очень скудно с публикацией открытых научных данных, даже в режиме "не быть, но казаться".
3) Иногда порталы открытых данных делают экзотическими способами на CMS вроде Semantic Mediawiki или Wordpress, но в основном, инструменты данных весьма стандартны: CKAN, Geonetwork, Dataverse, DKAN, GeoNode, NADA, OpenDataSoft, Socrata и др.
Часть 2 из 2.
—
4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.
5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.
6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.
7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.
8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени
Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr
#opendata #commondataindex #datacatalogs #dataportals #datasets
—
4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.
5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.
6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.
7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.
8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени
Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr
#opendata #commondataindex #datacatalogs #dataportals #datasets
Substack
Ivan’s Begtin Newsletter on digital, open and preserved government | Ivan Begtin | Substack
Digital government can't be without openness, preservation, plain language and data, for sure. Click to read Ivan’s Begtin Newsletter on digital, open and preserved government, by Ivan Begtin, a Substack publication with hundreds of subscribers.
Полезное чтение про данные, технологии и не только:
- Parquet file format – everything you need to know! [1] короткое понятное чтение с примерами и визуализацией о том что такое формат Parquet. Автор активно рекламирует в конце Delta Lake file format от Databricks, но почему бы и нет, почитать про него тоже стоит потраченного времени.
- Dolt 1.0 [2] вышел релиз первой стабильной версии Dolt, базы данных совмещающей интерфейс MySQL и Git и сделанной по принципу git для данных. Лично я бы давно перешёл на Dolt в своих экспериментах если бы там был не аналог MySQL, а аналог MongodB, потому что плоские таблицы пригодны не для всех данных. Но конкретно Dolt очень интересная штука.
- What Happened to the Semantic Layer? [3] хороший текст про текущее состояние технологий semantic layer которые ещё называют "headless BI", автор работает на проектом Malloy в Google для языков запросов и преобразования данных в SQL-совместимых средах, так что без рекламы Malloy там текст не обошёлся, но если вы про Malloy не читали, то почитать точно вреда не будет, у технологии есть перспектива.
- Financing the common good [4] а вот это уже статья не про технологии, а про проблемы финансирования общего блага (common good) в том числе закрепленного в глобальных программах ООН и о необходимости радикальной реформы мировых финансов.
- Chandler Good Governance Index [5] вышел ежегодный индекс качества государственного управления, покрывает 104 правительства стран в мире, на постсоветском пространстве авторы не оценивали только Туркменистан и Азербайджан. Рейтинг составной, в основном учитываются другие рейтинги и опросы с подтверждённой методологией. Например, используется Open Budget Index и рейтинги оценки электронного пр-ва.
Ссылки:
[1] https://data-mozart.com/parquet-file-format-everything-you-need-to-know/
[2] https://www.dolthub.com/blog/2023-05-05-dolt-1-dot-0/
[3] https://carlineng.com/?postid=semantic-layer
[4] https://www.socialeurope.eu/financing-the-common-good
[5] https://chandlergovernmentindex.com/
#readings #data #tech
- Parquet file format – everything you need to know! [1] короткое понятное чтение с примерами и визуализацией о том что такое формат Parquet. Автор активно рекламирует в конце Delta Lake file format от Databricks, но почему бы и нет, почитать про него тоже стоит потраченного времени.
- Dolt 1.0 [2] вышел релиз первой стабильной версии Dolt, базы данных совмещающей интерфейс MySQL и Git и сделанной по принципу git для данных. Лично я бы давно перешёл на Dolt в своих экспериментах если бы там был не аналог MySQL, а аналог MongodB, потому что плоские таблицы пригодны не для всех данных. Но конкретно Dolt очень интересная штука.
- What Happened to the Semantic Layer? [3] хороший текст про текущее состояние технологий semantic layer которые ещё называют "headless BI", автор работает на проектом Malloy в Google для языков запросов и преобразования данных в SQL-совместимых средах, так что без рекламы Malloy там текст не обошёлся, но если вы про Malloy не читали, то почитать точно вреда не будет, у технологии есть перспектива.
- Financing the common good [4] а вот это уже статья не про технологии, а про проблемы финансирования общего блага (common good) в том числе закрепленного в глобальных программах ООН и о необходимости радикальной реформы мировых финансов.
- Chandler Good Governance Index [5] вышел ежегодный индекс качества государственного управления, покрывает 104 правительства стран в мире, на постсоветском пространстве авторы не оценивали только Туркменистан и Азербайджан. Рейтинг составной, в основном учитываются другие рейтинги и опросы с подтверждённой методологией. Например, используется Open Budget Index и рейтинги оценки электронного пр-ва.
Ссылки:
[1] https://data-mozart.com/parquet-file-format-everything-you-need-to-know/
[2] https://www.dolthub.com/blog/2023-05-05-dolt-1-dot-0/
[3] https://carlineng.com/?postid=semantic-layer
[4] https://www.socialeurope.eu/financing-the-common-good
[5] https://chandlergovernmentindex.com/
#readings #data #tech
Data Mozart
Parquet file format - everything you need to know! - Data Mozart
New data flavors require new ways for storing it! Learn everything you need to know about the Parquet file format
Тем временем в Испании 3 мая приняли первую национальную стратегию открытой науки [1] и собираются тратить по 23.8 миллионов евро ежегодно до 2027 года на развитие открытой науки и интеграции в мировую и европейскую инфраструктуру, в частности в European Open Science Cloud (EOSC). Учитывая что в Испании довольно развиты порталы открытых данных и не так много открытых репозиториев научных данных, я предполагаю что они пойдут французским путём и интегрируют открытые научные данные в нац портал datos.gob.es, но может быть и пойдут польским путем и вложатся в обучение работе с научными репозиториями и создании репозиториев научных данных в ведущих университетах.
Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/
#opendata #openaccess #openscience #spain #eu
Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/
#opendata #openaccess #openscience #spain #eu
Forwarded from 42 секунды
The Guardian: WhatsApp может покинуть рынок Великобритании из-за нового законопроекта
– Сервису угрожает законопроект про безопасность в интернете
– Его разрабатывают 4+ года, там 250 страниц (оглавление из 10)
– Законопроект наделяет регулятора UK новыми полномочиями
– Они будут касаться борьбы с терроризмом, защиты детей и др.
– Штрафы для компаний могут составить до 10% оборота в мире
– Фактически, этот закон будет запрещать сквозное шифрование
– Т.к. оно не дает технической возможности прочитать сообщения
– WhatsApp не готов снижать безопасность для всех
– Около 98% его пользователей находятся за пределами рынка UK
@ftsec
– Сервису угрожает законопроект про безопасность в интернете
– Его разрабатывают 4+ года, там 250 страниц (оглавление из 10)
– Законопроект наделяет регулятора UK новыми полномочиями
– Они будут касаться борьбы с терроризмом, защиты детей и др.
– Штрафы для компаний могут составить до 10% оборота в мире
– Фактически, этот закон будет запрещать сквозное шифрование
– Т.к. оно не дает технической возможности прочитать сообщения
– WhatsApp не готов снижать безопасность для всех
– Около 98% его пользователей находятся за пределами рынка UK
@ftsec
В рубрике неочевидных источников информации и наборов данных о порталах данных о которых многие могут не подозревать.
Я ранее рассказывал что компания Esri сейчас обеспечивает работу сотен порталов открытых данных и геоданных через их продукт ArcGIS Hub [1]. В принципе же Esri вот уже много помимо корпоративных версий ArcGIS продают свои облачные сервисы и многие пользуются, как их платными так и бесплатными продуктами. Не все знают что карты, слои карт, документы большинства публичных пользователей доступны в их поисковой системе на hub.arcgis.com [2]. Причём там часто есть ссылки на слои и карты которые не найти на сайтах их создателей.
Например, у Тверского госуниверситета есть образовательный геопортал портал [3] и геоинформационная платформа [4] где кроме карт непосредственно области [5] можно ещё и воспользоваться API ArcGIS и выгрузить данные слоёв ассоциированных с этими картами [6]. Там же есть карты Оренбургского госуниверситета [7]. Многие другие данные и карты публикуются международными организациями, например Freshwater Water Monitoring Stations and Treaties-Russian Federation [8] публикуемые WESR UNEP и многое другое.
Россия в данном случае как пример, аналогично можно найти данные по постсоветским странам, странам Африки и тд. у которых так просто не найти их национальные порталы открытых данных. Сложно лишь найти данные по странам вроде Армении поскольку кроме страны есть ещё и одноимённый муниципалитет в Колумбии [9] по которому много геоданных, которые всплывают в поиске [10].
Часть данных из сервисов ArcGIS можно скачивать сразу, часть доступны через их API, но важнее то что это один из источников данных о странах где чиновники могут даже не знать о существовании этих данных.
Ссылки:
[1] https://t.iss.one/begtin/4804
[2] https://hub.arcgis.com
[3] https://geoportal-gymnasiumtsu.hub.arcgis.com/
[4] https://gymnasiumtsu.maps.arcgis.com
[5] https://gymnasiumtsu.maps.arcgis.com/apps/instant/minimalist/index.html?appid=546f6308f2364aea8aedd2d4906ab801
[6] https://gymnasiumtsu.maps.arcgis.com/sharing/rest/content/items/4ef1a0683c4842bcbafd3d91d4ec0291/data?f=json
[7] https://ggf-osu.maps.arcgis.com
[8] https://hub.arcgis.com/maps/uneplive::freshwater-water-monitoring-stations-and-treaties-russian-federation/about
[9] https://en.wikipedia.org/wiki/Armenia,_Colombia
[10] https://hub.arcgis.com/search?q=Armenia
#opendata #geodata #datasets #datacatalogs
Я ранее рассказывал что компания Esri сейчас обеспечивает работу сотен порталов открытых данных и геоданных через их продукт ArcGIS Hub [1]. В принципе же Esri вот уже много помимо корпоративных версий ArcGIS продают свои облачные сервисы и многие пользуются, как их платными так и бесплатными продуктами. Не все знают что карты, слои карт, документы большинства публичных пользователей доступны в их поисковой системе на hub.arcgis.com [2]. Причём там часто есть ссылки на слои и карты которые не найти на сайтах их создателей.
Например, у Тверского госуниверситета есть образовательный геопортал портал [3] и геоинформационная платформа [4] где кроме карт непосредственно области [5] можно ещё и воспользоваться API ArcGIS и выгрузить данные слоёв ассоциированных с этими картами [6]. Там же есть карты Оренбургского госуниверситета [7]. Многие другие данные и карты публикуются международными организациями, например Freshwater Water Monitoring Stations and Treaties-Russian Federation [8] публикуемые WESR UNEP и многое другое.
Россия в данном случае как пример, аналогично можно найти данные по постсоветским странам, странам Африки и тд. у которых так просто не найти их национальные порталы открытых данных. Сложно лишь найти данные по странам вроде Армении поскольку кроме страны есть ещё и одноимённый муниципалитет в Колумбии [9] по которому много геоданных, которые всплывают в поиске [10].
Часть данных из сервисов ArcGIS можно скачивать сразу, часть доступны через их API, но важнее то что это один из источников данных о странах где чиновники могут даже не знать о существовании этих данных.
Ссылки:
[1] https://t.iss.one/begtin/4804
[2] https://hub.arcgis.com
[3] https://geoportal-gymnasiumtsu.hub.arcgis.com/
[4] https://gymnasiumtsu.maps.arcgis.com
[5] https://gymnasiumtsu.maps.arcgis.com/apps/instant/minimalist/index.html?appid=546f6308f2364aea8aedd2d4906ab801
[6] https://gymnasiumtsu.maps.arcgis.com/sharing/rest/content/items/4ef1a0683c4842bcbafd3d91d4ec0291/data?f=json
[7] https://ggf-osu.maps.arcgis.com
[8] https://hub.arcgis.com/maps/uneplive::freshwater-water-monitoring-stations-and-treaties-russian-federation/about
[9] https://en.wikipedia.org/wiki/Armenia,_Colombia
[10] https://hub.arcgis.com/search?q=Armenia
#opendata #geodata #datasets #datacatalogs
Telegram
Ivan Begtin
Кто-то мог обратить внимание что в последнее время я чаще писал про открытые данные в контексте геоданных и открытой научной инфраструктуры (открытого доступа). Помимо того что я не так давно писал про открытые данные в фактах и тезисах в рассылке, у этого…
Forwarded from Национальный цифровой архив
They destroyed computer drivers, they shredded files and burned all the books in libraries 🍽
На прошлой неделе стартовал сериал-антиутопия Silo. В нем рассказывается о сообществе из 10 тыс. человек, которые живут в 140-этажном бункере, укрываясь от последствий катастрофического события на Земле.
По сюжету архивы, в том числе на цифровых носителях, считаются уничтоженными силами мятежников 140 лет назад. Поэтому архивы и артефакты прошлого получили статус реликвий и стали нелегальными и запрещенными для хранения и использования, а вопросы по поводу этой нелогичности оказалось нельзя произносить вслух.
Тем не менее, один из случайно найденных жестких дисков, содержимое которого удалось восстановить, становится основой для того, чтобы подвергнуть сомнениям уклад жизни всего сообщества и необходимость выживания в бункере.
Фокус на ценности архивов в сериале — своевременное напоминание о необходимости сохранять жизненно важную информацию, которая имеет решающее значение для выживания людей и развития общества.
Рекомендуем к просмотру!
На прошлой неделе стартовал сериал-антиутопия Silo. В нем рассказывается о сообществе из 10 тыс. человек, которые живут в 140-этажном бункере, укрываясь от последствий катастрофического события на Земле.
По сюжету архивы, в том числе на цифровых носителях, считаются уничтоженными силами мятежников 140 лет назад. Поэтому архивы и артефакты прошлого получили статус реликвий и стали нелегальными и запрещенными для хранения и использования, а вопросы по поводу этой нелогичности оказалось нельзя произносить вслух.
Тем не менее, один из случайно найденных жестких дисков, содержимое которого удалось восстановить, становится основой для того, чтобы подвергнуть сомнениям уклад жизни всего сообщества и необходимость выживания в бункере.
Фокус на ценности архивов в сериале — своевременное напоминание о необходимости сохранять жизненно важную информацию, которая имеет решающее значение для выживания людей и развития общества.
Рекомендуем к просмотру!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В 2019 году кто-то структурировал и визуализировал Библию, а мы ее случайно нашли в книжных магазинах Еревана. Уровень проработанности поражает. Вот бы и Закон о бюджете в таком же виде представляли (Бюджеты для граждан не предлагать, им пока до этого уровня далеко. Всем кроме Москвы)
В рубрике как это работает у них Геопортал Госкартгеофонда Республики Беларусь [1]. Создан на базе ПО с открытым кодом Geonetwork, включает как изображения карт, в основном ещё времен СССР, так и геосервисы для отображения. Геосервисы реализованы на базе ПО с открытым кодом Geoserver, например, https://gisserver.nca.by:8080/geoserver и https://meta.geo.by/geoserver и доступны для подключения WFS, WCS, WMS и др.
По сравнению с порталом геоданных, к примеру, Польши [2] в 11 тысяч наборов данных и Литвы [3] в 217 наборов данных - это немного, скорее удивительно что даже такой портал есть и что он сделан на Geonetwork.
Ссылки:
[1] https://meta.geo.by/geonetwork
[2] https://metadane.podgik.pl/geonetwork
[3] https://www.inspire-geoportal.lt/geonetwork
#opendata #geodata #belarus #datacatalogs
По сравнению с порталом геоданных, к примеру, Польши [2] в 11 тысяч наборов данных и Литвы [3] в 217 наборов данных - это немного, скорее удивительно что даже такой портал есть и что он сделан на Geonetwork.
Ссылки:
[1] https://meta.geo.by/geonetwork
[2] https://metadane.podgik.pl/geonetwork
[3] https://www.inspire-geoportal.lt/geonetwork
#opendata #geodata #belarus #datacatalogs
Amnesty International опубликовали в начале мая доклад Automated Aparteid [1] о том как в Восточном Иерусалиме и Хевроне они провели исследование и обнаружили огромное число камер и подтверждение слежки с их помощью. В докладе довольно много всего про масштаб цифрового наблюдения и отдельный акцент на почти полной непрозрачности всей этой деятельности. Доклад довольно резкий в отношении Израиля с другими акцентами чем привычные публикации про злоупотребление мониторингом камерами. Обычно все говорят о праве граждан на ограничение государства и корпораций в слежке за жителями и опрозрачивание работы систем слежки для граждан/налогоплательщиков, а здесь особая ситуация спорных территорий и слежки за гражданами другого государства. В мире таких прецедентов не так много, не так часто границы стран являются не только спорными, но и густо населены.
И, конечно, вот этот изучаемый случай как раз на грани контрастности мнений, что же важнее права человека в любом случае и в любой ситуации или безопасность.
Ссылки:
[1] https://www.amnesty.org.uk/files/2023-05/Automated%20Apartheid.pdf
#surveillance #izrael #privacy
И, конечно, вот этот изучаемый случай как раз на грани контрастности мнений, что же важнее права человека в любом случае и в любой ситуации или безопасность.
Ссылки:
[1] https://www.amnesty.org.uk/files/2023-05/Automated%20Apartheid.pdf
#surveillance #izrael #privacy
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла версия 1.0 корпоративного каталога данных Open Metadata [1] с открытым кодом. Продукт интересный, даёт уйму интересных возможностей для тех кто делает свои корпоративные каталоги данных и систематизирует внутренние ресурсы в виде данных. Я давно к нему присматриваюсь и, хотя пока ещё не смотрел версию 1.0, обязательно посмотрю. В том числе они заявляют автоматическое выявлении персональных данных (Auto PII Classification), а я продолжаю заниматься небольшим продуктом по идентификации семантических типов данных и персональные данные туда тоже входят.
Но даже до того как я посмотрю версию 1.0 я могу сказать то чего в Open Metadata точно до сих пор нет - это поддержка NoSQL во всех формах. Нет поддержки, ни Redis, ни MongoDB, ни ArangoDB, ни JSON объектов внутри NewSQL баз данных. А это значит что если у вас только SQL архитектура и инфраструктура, то это инструмент, возможно, подходящий. А если, например, кроме SQL у вас ещё и базы MongoDB для хранения, Elastic для поискового индекса, Redis для сессий пользователей и ещё что-нибудь экзотическое и какое-нибудь legacy, то нужно искать другие инструменты.
Конечно, команда Open Metadata действует как стартап и делают хорошо какую-то узкую область, но одновременно они заложили архитектурное ограничение восприятия каталогизируемых объектов как таблиц. Преодолеть им его теперь очень сложно, нужно будет переписать много кода и поломать совместимость с уже написанными расширениями.
Ссылки:
[1] https://blog.open-metadata.org/openmetadata-1-0-release-beb34762d916
#opensource #datacatalogs #metadata
Но даже до того как я посмотрю версию 1.0 я могу сказать то чего в Open Metadata точно до сих пор нет - это поддержка NoSQL во всех формах. Нет поддержки, ни Redis, ни MongoDB, ни ArangoDB, ни JSON объектов внутри NewSQL баз данных. А это значит что если у вас только SQL архитектура и инфраструктура, то это инструмент, возможно, подходящий. А если, например, кроме SQL у вас ещё и базы MongoDB для хранения, Elastic для поискового индекса, Redis для сессий пользователей и ещё что-нибудь экзотическое и какое-нибудь legacy, то нужно искать другие инструменты.
Конечно, команда Open Metadata действует как стартап и делают хорошо какую-то узкую область, но одновременно они заложили архитектурное ограничение восприятия каталогизируемых объектов как таблиц. Преодолеть им его теперь очень сложно, нужно будет переписать много кода и поломать совместимость с уже написанными расширениями.
Ссылки:
[1] https://blog.open-metadata.org/openmetadata-1-0-release-beb34762d916
#opensource #datacatalogs #metadata
В рубрике полезного чтения про данные, технологии и не только:
- Zero ELT could be the death of the Modern Data Stack [1] о том как вендоры крупнейших SaaS платформ могут в короткий срок убить всю экосистему Modern Data Stack реализовав достаточно простые инструмент для загрузки данных. Zero ETL - это, по сути, "убиение" ETL, например, в этот подход склоняются Amazon и Snowflake. Вообще процесс можно описать таким образом. Вначале появляется потребность в работе с данными в облачных сервисах, в первую очередь эта потребность у тех кто и так держит данные в облаках и многочисленными провайдерами разных сервисов, вроде платежных, и вынужден объединять данные. Потом появляются нишевые стартапы хорошо решающие конкретные задачи автоматизации работы с данными (всё как по учебнику), такие как Fivetran, Dbt, Hightouch и другие. Они оказываются основой Modern data stack, объединяющего понятия хорошо интегрированных сервисов работы с данными и, наконец, оказывается что клиентам управление сложностью возникшей конфигурации может быть более затратно, чем более простые инструменты, но интегрированные в платформу базового провайдера. Поэтому Zero ETL действительно имеет хорошие перспективы.
- We need to talk about Excel [2] автор и критикует и хвалит Excel и приводит в пример несколько стартапов которые не то чтобы его заменяют, но дают некоторые близкие возможности, при этом самому Excel как продукту до сих пор замены нет. Размышления вполне структурированы и аргументированы. Я лично когда думал про Excel понял что для меня всегда главной нелюбовью к нему был язык VBA. При том что когда-то, много лет назад, я на нём даже мог писать сложные макросы и отлаживать непростой код, тем не менее он до сих пор ощущается как крайне неудобный. Будь в MS Excel нативная поддержка, например, Python. Может быть когда-нибудь Microsoft поглотит PyXLL [3] и такая поддержка появится.
- Polars – Laziness and SQL Context. [4] автор пишет о том что Polars это не только более производительный инструмент для аналитики чем Pandas, но и обладает несколькими полезными функциями такими как ленивая загрузка файлов позволяющая обрабатывать файлы размером больше чем объём памяти и SQL контекст с помощью которого можно делать SQL запросы, например, к таким лениво загруженным файлам. Возможности полезные когда работаешь с данными относительно большого объёма.
Ссылки:
[1] https://medium.com/@hugolu87/zero-elt-could-be-the-death-of-the-modern-data-stack-cfdd56c9246d
[2] https://davidsj.substack.com/p/we-need-to-talk-about-excel
[3] https://www.pyxll.com
[4] https://www.confessionsofadataguy.com/polars-laziness-and-sql-context/
#data #datatools #readings #etl
- Zero ELT could be the death of the Modern Data Stack [1] о том как вендоры крупнейших SaaS платформ могут в короткий срок убить всю экосистему Modern Data Stack реализовав достаточно простые инструмент для загрузки данных. Zero ETL - это, по сути, "убиение" ETL, например, в этот подход склоняются Amazon и Snowflake. Вообще процесс можно описать таким образом. Вначале появляется потребность в работе с данными в облачных сервисах, в первую очередь эта потребность у тех кто и так держит данные в облаках и многочисленными провайдерами разных сервисов, вроде платежных, и вынужден объединять данные. Потом появляются нишевые стартапы хорошо решающие конкретные задачи автоматизации работы с данными (всё как по учебнику), такие как Fivetran, Dbt, Hightouch и другие. Они оказываются основой Modern data stack, объединяющего понятия хорошо интегрированных сервисов работы с данными и, наконец, оказывается что клиентам управление сложностью возникшей конфигурации может быть более затратно, чем более простые инструменты, но интегрированные в платформу базового провайдера. Поэтому Zero ETL действительно имеет хорошие перспективы.
- We need to talk about Excel [2] автор и критикует и хвалит Excel и приводит в пример несколько стартапов которые не то чтобы его заменяют, но дают некоторые близкие возможности, при этом самому Excel как продукту до сих пор замены нет. Размышления вполне структурированы и аргументированы. Я лично когда думал про Excel понял что для меня всегда главной нелюбовью к нему был язык VBA. При том что когда-то, много лет назад, я на нём даже мог писать сложные макросы и отлаживать непростой код, тем не менее он до сих пор ощущается как крайне неудобный. Будь в MS Excel нативная поддержка, например, Python. Может быть когда-нибудь Microsoft поглотит PyXLL [3] и такая поддержка появится.
- Polars – Laziness and SQL Context. [4] автор пишет о том что Polars это не только более производительный инструмент для аналитики чем Pandas, но и обладает несколькими полезными функциями такими как ленивая загрузка файлов позволяющая обрабатывать файлы размером больше чем объём памяти и SQL контекст с помощью которого можно делать SQL запросы, например, к таким лениво загруженным файлам. Возможности полезные когда работаешь с данными относительно большого объёма.
Ссылки:
[1] https://medium.com/@hugolu87/zero-elt-could-be-the-death-of-the-modern-data-stack-cfdd56c9246d
[2] https://davidsj.substack.com/p/we-need-to-talk-about-excel
[3] https://www.pyxll.com
[4] https://www.confessionsofadataguy.com/polars-laziness-and-sql-context/
#data #datatools #readings #etl
Medium
Zero ELT could be the death of the Modern Data Stack
Zero-ELT is getting a fair bit of press at the moment despite the fact that, as data professionals, we probably don’t do a lot of it. In…
В рубрике как это устроено у них Български портал за отворена наука [1], портал открытой науки Болгарии созданный в НАЦИД (Национален център за информация и документация), государственным учреждением Болгарии подведомственным местному Министерству образования и науки. На портале собираются и публикуются данные из 8 репозиториев публикации результатов научной деятельности [3] большая часть которых являются научными статьями в открытом доступе.
По сути портал выступает в качестве поисковика по метаданным, перенаправляя на открытые репозитории содержащие тексты публикаций, в этом смысле он более похож на OpenAIRE чем, к примеру, на Dataverse. В то же время, портал был сертифицирован CoreTrustSeal [4], а то есть его создатели как минимум продумали достаточно важные системные вопросы организации его работы.
В принципе, национальные порталы открытости науки не редкость, их становится всё больше. Конкретно на этом портале открытые научные данные почти не представлены, во всяком случае их почти нет в болгарских институциональных репозиториях, можно предполагать что болгарские исследователи скорее используют напрямую общеевропейские порталы вроде Zenodo.
Ссылки:
[1] https://bpos.bg
[2] https://nacid.bg
[3] https://bpos.bg/bg/repositories
[4] https://www.coretrustseal.org/wp-content/uploads/2022/03/20220307-Bulgarian-Portal-for-Open-Science_final.pdf
#openaccess #openscience #bulgaria #eu
По сути портал выступает в качестве поисковика по метаданным, перенаправляя на открытые репозитории содержащие тексты публикаций, в этом смысле он более похож на OpenAIRE чем, к примеру, на Dataverse. В то же время, портал был сертифицирован CoreTrustSeal [4], а то есть его создатели как минимум продумали достаточно важные системные вопросы организации его работы.
В принципе, национальные порталы открытости науки не редкость, их становится всё больше. Конкретно на этом портале открытые научные данные почти не представлены, во всяком случае их почти нет в болгарских институциональных репозиториях, можно предполагать что болгарские исследователи скорее используют напрямую общеевропейские порталы вроде Zenodo.
Ссылки:
[1] https://bpos.bg
[2] https://nacid.bg
[3] https://bpos.bg/bg/repositories
[4] https://www.coretrustseal.org/wp-content/uploads/2022/03/20220307-Bulgarian-Portal-for-Open-Science_final.pdf
#openaccess #openscience #bulgaria #eu
nacid.bg
НАЦИД
Национален център за информация и документация (НАЦИД): комплектува, съхранява, обработва и разпространява информация и документация за народна просвета, висше образование и наука.
В рубрике как это устроено у них общественный портал открытых данных Шотландии Open Data Scotland [1] создан сообществом активистов в Шотландии в рамках проекта OD_BODS и включает описание 1887 наборов данных собранных из пары десятков источников данных. Особенность Шотландии в том что региональные власти до сих пор не создали портал открытых данных при том что их много на муниципальном уровне, у отдельных органов власти и у местных университетов. Активисты решили сделать такой портал самостоятельно и, что интересно, не поленились написать сборщики данных (харвестеры) для почти всех порталов данных и собирают данные автоматически.
Из интересного, на портале реализован довольно полезный раздел аналитики [2].
Весь проект с открытым кодом и открытыми метаданными [3], работает на статическом генераторе порталов данных JKAN.
Всё это о том что не надо ждатьмилости от природы когда власти вашей страны/региона/города решат создать портал открытых данных, его всегда можно создать самостоятельно. По крайней мере в тех странах где есть хоть какие-то данные.
Ссылки:
[1] https://opendata.scot
[2] https://opendata.scot/analytics/
[3] https://github.com/OpenDataScotland
#opendata #datasets #uk #scotland
Из интересного, на портале реализован довольно полезный раздел аналитики [2].
Весь проект с открытым кодом и открытыми метаданными [3], работает на статическом генераторе порталов данных JKAN.
Всё это о том что не надо ждать
Ссылки:
[1] https://opendata.scot
[2] https://opendata.scot/analytics/
[3] https://github.com/OpenDataScotland
#opendata #datasets #uk #scotland
В рубрике интересных наборов данных Global ML Building Footprints [1] набор данных георасположения зданий по всему миру созданный компанией Microsoft в рамках Bing Maps на основе спутниковой и аэрофотосъёмки Maxar, Airbus и IGN France. В репозитории краткая документация и скрипты загрузки, а также ссылка на список всех файлов этого набора данных представленный в виде CSV [2]. В том числе этот набор данных даёт геоданные по странам где публичных геоданных немного: Россия, Казахстан, Кыргызстан, Армения, Туркменистан, Афганистан и многое другое. На мой взгляд датасет сильно недооценённый и очень интересный.
Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.
Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.
Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.
Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования
Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings
#opendata #datasets #microsoft #geospatial
Первая его версия вышла в июле 2022 года и с тех пор неоднократно данные обновлялись, последний раз в марте 2023 года данными по Японии и по Северной Америке.
Сейчас в нём более 1.03 миллиарда зданий. Кроме того набор данных доступен под свободной лицензией ODbL, изначально создавался для интеграции в OpenStreetMap и кроме него существует ещё несколько наборов меньшего объёма с данными по зданиям в США, Австралии, Канаде, Уганде и Танзании, Южной Африке, Кении и Нигерии и Юго-восточной Азии, на них есть ссылки в этом репозитории.
Эти же данные есть в Microsoft Planetary Computer [3] доступные через платформу Azure и через API по стандарту STAC.
Как и во многих других случаях это из тех примеров когда можно найти интересные негосударственные данные о стране/странах за их пределами с потенциально большей достоверностью и свободой использования
Ссылки:
[1] https://github.com/microsoft/GlobalMLBuildingFootprints
[2] https://minedbuildings.blob.core.windows.net/global-buildings/dataset-links.csv
[3] https://planetarycomputer.microsoft.com/dataset/ms-buildings
#opendata #datasets #microsoft #geospatial
GitHub
GitHub - microsoft/GlobalMLBuildingFootprints: Worldwide building footprints derived from satellite imagery
Worldwide building footprints derived from satellite imagery - GitHub - microsoft/GlobalMLBuildingFootprints: Worldwide building footprints derived from satellite imagery