В рубрике интересных каталогов данных открытые каталоги данных на базе TriplyDb [1]. Это продукт с открытым кодом [2] и одноимённая компания для публикации связанных открытых данных. В принципе проникновение связанных данных (Linked Data) в порталы открытых данных оказалось довольно сложным занятием. До сих пор активное использование связанных данных есть только в интеграции научных данных и самый известный проект в этой области DBPedia, в порталах открытых данных до сих пор поддержка OWL/RDF чаще формальность чем реальность.
Тем не менее, Triply есть инсталляции 3-х каталогов:
- https://triplydb.com - каталог 1102 наборов данных
- https://druid.datalegend.net - система Druid в Университете Утрехта
- https://data.pldn.nl - платформа связанных данных Нидерландов
Другим интересным стартапом пытавшемся занять нишу порталов и сервисов данных с акцентом на связанных данных был Swirrl, но несколько лет назад их поглотила компания TPXimpact [3]
У них осталось немного инсталляций:
- https://opendatacommunities.org - официальная статистика Департамента по вопросам выравнивания, жилищного строительства и сообществ Великобритании
- https://statistics.gov.scot - Официальная статистика Шотландии
- https://beta.gss-data.org.uk - статистика по изменению климата по Великобритании
В целом это два наиболее известных мне примеров реального применения связанных данных и инфраструктуры на них за пределами академических задач и общественных проектов. Тем не менее за ними также интересно наблюдать и изучать практическое применение в будущем.
Ссылки:
[1] https://triply.cc
[2] https://github.com/TriplyDB
[3] https://pages.tpximpact.com/swirrl
#opendata #linkedata #opengov #uk #netherlands #datacatalogs #opensource
Тем не менее, Triply есть инсталляции 3-х каталогов:
- https://triplydb.com - каталог 1102 наборов данных
- https://druid.datalegend.net - система Druid в Университете Утрехта
- https://data.pldn.nl - платформа связанных данных Нидерландов
Другим интересным стартапом пытавшемся занять нишу порталов и сервисов данных с акцентом на связанных данных был Swirrl, но несколько лет назад их поглотила компания TPXimpact [3]
У них осталось немного инсталляций:
- https://opendatacommunities.org - официальная статистика Департамента по вопросам выравнивания, жилищного строительства и сообществ Великобритании
- https://statistics.gov.scot - Официальная статистика Шотландии
- https://beta.gss-data.org.uk - статистика по изменению климата по Великобритании
В целом это два наиболее известных мне примеров реального применения связанных данных и инфраструктуры на них за пределами академических задач и общественных проектов. Тем не менее за ними также интересно наблюдать и изучать практическое применение в будущем.
Ссылки:
[1] https://triply.cc
[2] https://github.com/TriplyDB
[3] https://pages.tpximpact.com/swirrl
#opendata #linkedata #opengov #uk #netherlands #datacatalogs #opensource
TriplyDB: The Network Effect for Your Data
Store, explore and share linked data with TriplyDB
Palantir Tech опубликовали видео с применением больших языковых моделей (ИИ) в их продуктах для разведки и военных [1]. Выглядит одновременно впечатляюще и пугающе, даже при всех их многочисленных оговорках про этические ограничения.
В каком-то смысле военное применение ИИ было всегда неизбежным и Palantir не единственные кто делал и делает продукты в этом направлении, но несомненно OpenAI с их GPT-3, ChatGPT и GPT-4 подтолкнули все индустрии в этом направлении.
Тут конечно важно не забывать что Palantir - это публичная компания с серьёзным падением стоимости акций за последнюю пару лет, так что насколько их продукты уже реально включают ИИ или же это больше рассчитано на инвесторов - пока непонятно.
Ссылки:
[1] https://www.youtube.com/watch?v=XEM5qz__HOU
#ai #aiethics #palantir
В каком-то смысле военное применение ИИ было всегда неизбежным и Palantir не единственные кто делал и делает продукты в этом направлении, но несомненно OpenAI с их GPT-3, ChatGPT и GPT-4 подтолкнули все индустрии в этом направлении.
Тут конечно важно не забывать что Palantir - это публичная компания с серьёзным падением стоимости акций за последнюю пару лет, так что насколько их продукты уже реально включают ИИ или же это больше рассчитано на инвесторов - пока непонятно.
Ссылки:
[1] https://www.youtube.com/watch?v=XEM5qz__HOU
#ai #aiethics #palantir
YouTube
Palantir AIP | Defense and Military
Palantir AIP brings together the latest in large language models and cutting edge AI to activate data and models from the most highly sensitive environments in both a legal and ethical way. From classified networks, to devices on the tactical edge, find out…
Я ранее давал ссылку на текст Стивена Вольфрама про то как устроен ChatGPT [1], а вот и близкий по смыслу текст Understanding Large Language Models [2] от Себастиана Рашка, автора многочисленных книг по машинному обучению. Собственно и этот текст ориентирован в основном на тех кто машинное обучение изучал и понимает хотя бы основу.
‘Godfather of AI’ quits Google with regrets and fears about his life’s work [3] новость о том что что "один из отцов ИИ" Geoffrey Hinton покинул Google. Скорее всего практического влияния на продукты компании его уход не имеет, но репутационно это минус для Google, поскольку он немного не мало, но Тюринговский лауреат (Нобель для комьютерных наук) и уходит со словами о бесконтрольном развитии AI в Google.
Неинвазивный метод превращения мыслей в текст с помощью ИИ Scientists develop A.I. system focused on turning peoples’ thoughts into text [4]. Пока только в лаборатории и требует сложных устройств, не портативно, но уже интересно. Как минимум для записи снов, как максимум для психологической диагностики. Мне на ум сразу приходит полиграф нового типа, одновременно записывающий не только сердечный ритм, но и мысли в ответ на задаваемые вопросы.
Ссылки:
[1] https://t.iss.one/begtin/4612
[2] https://magazine.sebastianraschka.com/p/understanding-large-language-models
[3] https://www.theverge.com/2023/5/1/23706311/hinton-godfather-of-ai-threats-fears-warnings
[4] https://www.cnbc.com/2023/05/01/scientists-develop-ai-system-focused-on-turning-thoughts-into-text.html
#ai #readings #technology
‘Godfather of AI’ quits Google with regrets and fears about his life’s work [3] новость о том что что "один из отцов ИИ" Geoffrey Hinton покинул Google. Скорее всего практического влияния на продукты компании его уход не имеет, но репутационно это минус для Google, поскольку он немного не мало, но Тюринговский лауреат (Нобель для комьютерных наук) и уходит со словами о бесконтрольном развитии AI в Google.
Неинвазивный метод превращения мыслей в текст с помощью ИИ Scientists develop A.I. system focused on turning peoples’ thoughts into text [4]. Пока только в лаборатории и требует сложных устройств, не портативно, но уже интересно. Как минимум для записи снов, как максимум для психологической диагностики. Мне на ум сразу приходит полиграф нового типа, одновременно записывающий не только сердечный ритм, но и мысли в ответ на задаваемые вопросы.
Ссылки:
[1] https://t.iss.one/begtin/4612
[2] https://magazine.sebastianraschka.com/p/understanding-large-language-models
[3] https://www.theverge.com/2023/5/1/23706311/hinton-godfather-of-ai-threats-fears-warnings
[4] https://www.cnbc.com/2023/05/01/scientists-develop-ai-system-focused-on-turning-thoughts-into-text.html
#ai #readings #technology
Telegram
Ivan Begtin
В блоге Стивена Вольфрама, создателя Wolfram Alpha и Wolfram Mathematica появился интересный текст What Is ChatGPT Doing … and Why Does It Work? [1] с тщательным разбором того как работает ChatGPT и множеством подробностей. Текст не очень сложный, но очень…
В рубрике как это работает у них портал данных для машинного обучения AI Hub в Южной Корее [1]
На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.
Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].
Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]
Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393
#datasets #datacatalogs #dataportals #korea #ai #ml
На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.
Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].
Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]
Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393
#datasets #datacatalogs #dataportals #korea #ai #ml
В рубрике интересных наборов данных платформа открытых геоданных по Кавказу [1] от UN Environment Programme/GRID-Geneva
118 наборов данных связанных с населением, климатом, лесом, водой и тд. с охватом территорий Армении, Грузии, России, Азебайджана, Турции и Ирана.
В общей совокупности это относительные небольшие данные по объёму, но важные как геоснова уже размеченная на регионы и районы.
Портал создан на портале с открытым кодом GeoNode и данные доступны для ручной и автоматической выгрузке, к ним можно подключится любимым инструментом через одно из API [2]
Похожий проект есть и для Центральной Азии [3] со 192 наборами данных (слоями геоданных) по всем среднеазиатским странам.
Проект создан в рамках Central Asia Climate Information Platform (CACIP) и продолжает развиваться.
Что это значит? То что если данные не публикуют правительства стран, то это не значит что их нет. Они просто лежат в других местах;)
Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] https://sustainable-caucasus.unepgrid.ch/developer/
[3] https://geonode.centralasiaclimateportal.org/
#opendata #geodata #geonode #armenia #caucasus #centralasia #datasets
118 наборов данных связанных с населением, климатом, лесом, водой и тд. с охватом территорий Армении, Грузии, России, Азебайджана, Турции и Ирана.
В общей совокупности это относительные небольшие данные по объёму, но важные как геоснова уже размеченная на регионы и районы.
Портал создан на портале с открытым кодом GeoNode и данные доступны для ручной и автоматической выгрузке, к ним можно подключится любимым инструментом через одно из API [2]
Похожий проект есть и для Центральной Азии [3] со 192 наборами данных (слоями геоданных) по всем среднеазиатским странам.
Проект создан в рамках Central Asia Climate Information Platform (CACIP) и продолжает развиваться.
Что это значит? То что если данные не публикуют правительства стран, то это не значит что их нет. Они просто лежат в других местах;)
Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] https://sustainable-caucasus.unepgrid.ch/developer/
[3] https://geonode.centralasiaclimateportal.org/
#opendata #geodata #geonode #armenia #caucasus #centralasia #datasets
Часть 1 из 2
Я было планировал написать текст с рассказом о том как устроены открытые геоданные в мире, начиная с европейской инициативы INSPIRE, но быстро понял что текст будет неполным если также не рассказать про UN-GGIM, UNSDI, GEOSS, GMES, GeoSUR и ещё многие другие глобальные и региональные инициативы по открытости метаданных. Текст напишу уже позже и в форме лонгрида в рассылку [1].
А пока про каталогизацию каталогов данных на текущий момент. Я напомню что занимаюсь сейчас проектом Common Data Index [по систематизации каталогов данных и далее по анализу их содержания с разными продуктами на выходе. Чтобы понять какое ПО используется, какие стандарты, какие данные публикуются надо многие из них пересмотреть глазами, не всё автоматизируется. Уже сейчас доступен датасет с каталогами данных [2] и я регулярно пишу о том что же там.
Сейчас в наборе данных с каталогами открытых данных 1950 каталогов и этот список растёт, 461 каталог ещё просто не обработан и сколько-то ещё не найдено. Я могу много лекций прочитать про Data Discovery и о том как находить данные разными способами и как их публикуют.
Интересно то что в процессе выясняется столь многое что было лично мне и многие в сообществе неизвестно совершенно.
1) Начну с неожиданного, очень много порталов данных в азиатских странах: Таиланде, Японии, Южной Корее, Малайзии, Индонезии и Китае. Не так много пока как в США или в Европе, но, в принципе, очень много. Особенность их в том что они не на виду, они почти никогда не переведены на другие языки кроме государственного и их если не знать как искать или если не просматривать сайты органов власти то и не найти не местному жителю (не владеющему языком), так же они резко недопредставлены во всех предыдущих попытках систематизации каталогов данных таких как DataShades, Dataportals.org, Open Data Inception и др.
2) Очень всё не очень на постсоветском пространстве. В России наизобретали велосипедов что для открытых данных, что для геоданных и геоданными исключительно торгуют, открытых почти нет. Это резко контрастирует со всем миром. В Центральной Азии данные есть, но с систематизацией их дело обстоит плохо. В Армении надо очень много усилий приложить чтобы найти опубликованные данные, нет даже госпортала с данными. В Грузии всё выглядело неплохо, в основном из-за прицела на вступление в ЕС, непонятно что дальше. А Азербайджане ситуация мало отличная от Средней Азии и тд. А ещё во всем постсоветском пространстве кроме стран вошедших в ЕС очень скудно с публикацией открытых научных данных, даже в режиме "не быть, но казаться".
3) Иногда порталы открытых данных делают экзотическими способами на CMS вроде Semantic Mediawiki или Wordpress, но в основном, инструменты данных весьма стандартны: CKAN, Geonetwork, Dataverse, DKAN, GeoNode, NADA, OpenDataSoft, Socrata и др.
Я было планировал написать текст с рассказом о том как устроены открытые геоданные в мире, начиная с европейской инициативы INSPIRE, но быстро понял что текст будет неполным если также не рассказать про UN-GGIM, UNSDI, GEOSS, GMES, GeoSUR и ещё многие другие глобальные и региональные инициативы по открытости метаданных. Текст напишу уже позже и в форме лонгрида в рассылку [1].
А пока про каталогизацию каталогов данных на текущий момент. Я напомню что занимаюсь сейчас проектом Common Data Index [по систематизации каталогов данных и далее по анализу их содержания с разными продуктами на выходе. Чтобы понять какое ПО используется, какие стандарты, какие данные публикуются надо многие из них пересмотреть глазами, не всё автоматизируется. Уже сейчас доступен датасет с каталогами данных [2] и я регулярно пишу о том что же там.
Сейчас в наборе данных с каталогами открытых данных 1950 каталогов и этот список растёт, 461 каталог ещё просто не обработан и сколько-то ещё не найдено. Я могу много лекций прочитать про Data Discovery и о том как находить данные разными способами и как их публикуют.
Интересно то что в процессе выясняется столь многое что было лично мне и многие в сообществе неизвестно совершенно.
1) Начну с неожиданного, очень много порталов данных в азиатских странах: Таиланде, Японии, Южной Корее, Малайзии, Индонезии и Китае. Не так много пока как в США или в Европе, но, в принципе, очень много. Особенность их в том что они не на виду, они почти никогда не переведены на другие языки кроме государственного и их если не знать как искать или если не просматривать сайты органов власти то и не найти не местному жителю (не владеющему языком), так же они резко недопредставлены во всех предыдущих попытках систематизации каталогов данных таких как DataShades, Dataportals.org, Open Data Inception и др.
2) Очень всё не очень на постсоветском пространстве. В России наизобретали велосипедов что для открытых данных, что для геоданных и геоданными исключительно торгуют, открытых почти нет. Это резко контрастирует со всем миром. В Центральной Азии данные есть, но с систематизацией их дело обстоит плохо. В Армении надо очень много усилий приложить чтобы найти опубликованные данные, нет даже госпортала с данными. В Грузии всё выглядело неплохо, в основном из-за прицела на вступление в ЕС, непонятно что дальше. А Азербайджане ситуация мало отличная от Средней Азии и тд. А ещё во всем постсоветском пространстве кроме стран вошедших в ЕС очень скудно с публикацией открытых научных данных, даже в режиме "не быть, но казаться".
3) Иногда порталы открытых данных делают экзотическими способами на CMS вроде Semantic Mediawiki или Wordpress, но в основном, инструменты данных весьма стандартны: CKAN, Geonetwork, Dataverse, DKAN, GeoNode, NADA, OpenDataSoft, Socrata и др.
Часть 2 из 2.
—
4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.
5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.
6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.
7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.
8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени
Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr
#opendata #commondataindex #datacatalogs #dataportals #datasets
—
4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.
5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.
6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.
7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.
8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени
Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr
#opendata #commondataindex #datacatalogs #dataportals #datasets
Substack
Ivan’s Begtin Newsletter on digital, open and preserved government | Ivan Begtin | Substack
Digital government can't be without openness, preservation, plain language and data, for sure. Click to read Ivan’s Begtin Newsletter on digital, open and preserved government, by Ivan Begtin, a Substack publication with hundreds of subscribers.
Полезное чтение про данные, технологии и не только:
- Parquet file format – everything you need to know! [1] короткое понятное чтение с примерами и визуализацией о том что такое формат Parquet. Автор активно рекламирует в конце Delta Lake file format от Databricks, но почему бы и нет, почитать про него тоже стоит потраченного времени.
- Dolt 1.0 [2] вышел релиз первой стабильной версии Dolt, базы данных совмещающей интерфейс MySQL и Git и сделанной по принципу git для данных. Лично я бы давно перешёл на Dolt в своих экспериментах если бы там был не аналог MySQL, а аналог MongodB, потому что плоские таблицы пригодны не для всех данных. Но конкретно Dolt очень интересная штука.
- What Happened to the Semantic Layer? [3] хороший текст про текущее состояние технологий semantic layer которые ещё называют "headless BI", автор работает на проектом Malloy в Google для языков запросов и преобразования данных в SQL-совместимых средах, так что без рекламы Malloy там текст не обошёлся, но если вы про Malloy не читали, то почитать точно вреда не будет, у технологии есть перспектива.
- Financing the common good [4] а вот это уже статья не про технологии, а про проблемы финансирования общего блага (common good) в том числе закрепленного в глобальных программах ООН и о необходимости радикальной реформы мировых финансов.
- Chandler Good Governance Index [5] вышел ежегодный индекс качества государственного управления, покрывает 104 правительства стран в мире, на постсоветском пространстве авторы не оценивали только Туркменистан и Азербайджан. Рейтинг составной, в основном учитываются другие рейтинги и опросы с подтверждённой методологией. Например, используется Open Budget Index и рейтинги оценки электронного пр-ва.
Ссылки:
[1] https://data-mozart.com/parquet-file-format-everything-you-need-to-know/
[2] https://www.dolthub.com/blog/2023-05-05-dolt-1-dot-0/
[3] https://carlineng.com/?postid=semantic-layer
[4] https://www.socialeurope.eu/financing-the-common-good
[5] https://chandlergovernmentindex.com/
#readings #data #tech
- Parquet file format – everything you need to know! [1] короткое понятное чтение с примерами и визуализацией о том что такое формат Parquet. Автор активно рекламирует в конце Delta Lake file format от Databricks, но почему бы и нет, почитать про него тоже стоит потраченного времени.
- Dolt 1.0 [2] вышел релиз первой стабильной версии Dolt, базы данных совмещающей интерфейс MySQL и Git и сделанной по принципу git для данных. Лично я бы давно перешёл на Dolt в своих экспериментах если бы там был не аналог MySQL, а аналог MongodB, потому что плоские таблицы пригодны не для всех данных. Но конкретно Dolt очень интересная штука.
- What Happened to the Semantic Layer? [3] хороший текст про текущее состояние технологий semantic layer которые ещё называют "headless BI", автор работает на проектом Malloy в Google для языков запросов и преобразования данных в SQL-совместимых средах, так что без рекламы Malloy там текст не обошёлся, но если вы про Malloy не читали, то почитать точно вреда не будет, у технологии есть перспектива.
- Financing the common good [4] а вот это уже статья не про технологии, а про проблемы финансирования общего блага (common good) в том числе закрепленного в глобальных программах ООН и о необходимости радикальной реформы мировых финансов.
- Chandler Good Governance Index [5] вышел ежегодный индекс качества государственного управления, покрывает 104 правительства стран в мире, на постсоветском пространстве авторы не оценивали только Туркменистан и Азербайджан. Рейтинг составной, в основном учитываются другие рейтинги и опросы с подтверждённой методологией. Например, используется Open Budget Index и рейтинги оценки электронного пр-ва.
Ссылки:
[1] https://data-mozart.com/parquet-file-format-everything-you-need-to-know/
[2] https://www.dolthub.com/blog/2023-05-05-dolt-1-dot-0/
[3] https://carlineng.com/?postid=semantic-layer
[4] https://www.socialeurope.eu/financing-the-common-good
[5] https://chandlergovernmentindex.com/
#readings #data #tech
Data Mozart
Parquet file format - everything you need to know! - Data Mozart
New data flavors require new ways for storing it! Learn everything you need to know about the Parquet file format
Тем временем в Испании 3 мая приняли первую национальную стратегию открытой науки [1] и собираются тратить по 23.8 миллионов евро ежегодно до 2027 года на развитие открытой науки и интеграции в мировую и европейскую инфраструктуру, в частности в European Open Science Cloud (EOSC). Учитывая что в Испании довольно развиты порталы открытых данных и не так много открытых репозиториев научных данных, я предполагаю что они пойдут французским путём и интегрируют открытые научные данные в нац портал datos.gob.es, но может быть и пойдут польским путем и вложатся в обучение работе с научными репозиториями и создании репозиториев научных данных в ведущих университетах.
Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/
#opendata #openaccess #openscience #spain #eu
Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/
#opendata #openaccess #openscience #spain #eu
Forwarded from 42 секунды
The Guardian: WhatsApp может покинуть рынок Великобритании из-за нового законопроекта
– Сервису угрожает законопроект про безопасность в интернете
– Его разрабатывают 4+ года, там 250 страниц (оглавление из 10)
– Законопроект наделяет регулятора UK новыми полномочиями
– Они будут касаться борьбы с терроризмом, защиты детей и др.
– Штрафы для компаний могут составить до 10% оборота в мире
– Фактически, этот закон будет запрещать сквозное шифрование
– Т.к. оно не дает технической возможности прочитать сообщения
– WhatsApp не готов снижать безопасность для всех
– Около 98% его пользователей находятся за пределами рынка UK
@ftsec
– Сервису угрожает законопроект про безопасность в интернете
– Его разрабатывают 4+ года, там 250 страниц (оглавление из 10)
– Законопроект наделяет регулятора UK новыми полномочиями
– Они будут касаться борьбы с терроризмом, защиты детей и др.
– Штрафы для компаний могут составить до 10% оборота в мире
– Фактически, этот закон будет запрещать сквозное шифрование
– Т.к. оно не дает технической возможности прочитать сообщения
– WhatsApp не готов снижать безопасность для всех
– Около 98% его пользователей находятся за пределами рынка UK
@ftsec
В рубрике неочевидных источников информации и наборов данных о порталах данных о которых многие могут не подозревать.
Я ранее рассказывал что компания Esri сейчас обеспечивает работу сотен порталов открытых данных и геоданных через их продукт ArcGIS Hub [1]. В принципе же Esri вот уже много помимо корпоративных версий ArcGIS продают свои облачные сервисы и многие пользуются, как их платными так и бесплатными продуктами. Не все знают что карты, слои карт, документы большинства публичных пользователей доступны в их поисковой системе на hub.arcgis.com [2]. Причём там часто есть ссылки на слои и карты которые не найти на сайтах их создателей.
Например, у Тверского госуниверситета есть образовательный геопортал портал [3] и геоинформационная платформа [4] где кроме карт непосредственно области [5] можно ещё и воспользоваться API ArcGIS и выгрузить данные слоёв ассоциированных с этими картами [6]. Там же есть карты Оренбургского госуниверситета [7]. Многие другие данные и карты публикуются международными организациями, например Freshwater Water Monitoring Stations and Treaties-Russian Federation [8] публикуемые WESR UNEP и многое другое.
Россия в данном случае как пример, аналогично можно найти данные по постсоветским странам, странам Африки и тд. у которых так просто не найти их национальные порталы открытых данных. Сложно лишь найти данные по странам вроде Армении поскольку кроме страны есть ещё и одноимённый муниципалитет в Колумбии [9] по которому много геоданных, которые всплывают в поиске [10].
Часть данных из сервисов ArcGIS можно скачивать сразу, часть доступны через их API, но важнее то что это один из источников данных о странах где чиновники могут даже не знать о существовании этих данных.
Ссылки:
[1] https://t.iss.one/begtin/4804
[2] https://hub.arcgis.com
[3] https://geoportal-gymnasiumtsu.hub.arcgis.com/
[4] https://gymnasiumtsu.maps.arcgis.com
[5] https://gymnasiumtsu.maps.arcgis.com/apps/instant/minimalist/index.html?appid=546f6308f2364aea8aedd2d4906ab801
[6] https://gymnasiumtsu.maps.arcgis.com/sharing/rest/content/items/4ef1a0683c4842bcbafd3d91d4ec0291/data?f=json
[7] https://ggf-osu.maps.arcgis.com
[8] https://hub.arcgis.com/maps/uneplive::freshwater-water-monitoring-stations-and-treaties-russian-federation/about
[9] https://en.wikipedia.org/wiki/Armenia,_Colombia
[10] https://hub.arcgis.com/search?q=Armenia
#opendata #geodata #datasets #datacatalogs
Я ранее рассказывал что компания Esri сейчас обеспечивает работу сотен порталов открытых данных и геоданных через их продукт ArcGIS Hub [1]. В принципе же Esri вот уже много помимо корпоративных версий ArcGIS продают свои облачные сервисы и многие пользуются, как их платными так и бесплатными продуктами. Не все знают что карты, слои карт, документы большинства публичных пользователей доступны в их поисковой системе на hub.arcgis.com [2]. Причём там часто есть ссылки на слои и карты которые не найти на сайтах их создателей.
Например, у Тверского госуниверситета есть образовательный геопортал портал [3] и геоинформационная платформа [4] где кроме карт непосредственно области [5] можно ещё и воспользоваться API ArcGIS и выгрузить данные слоёв ассоциированных с этими картами [6]. Там же есть карты Оренбургского госуниверситета [7]. Многие другие данные и карты публикуются международными организациями, например Freshwater Water Monitoring Stations and Treaties-Russian Federation [8] публикуемые WESR UNEP и многое другое.
Россия в данном случае как пример, аналогично можно найти данные по постсоветским странам, странам Африки и тд. у которых так просто не найти их национальные порталы открытых данных. Сложно лишь найти данные по странам вроде Армении поскольку кроме страны есть ещё и одноимённый муниципалитет в Колумбии [9] по которому много геоданных, которые всплывают в поиске [10].
Часть данных из сервисов ArcGIS можно скачивать сразу, часть доступны через их API, но важнее то что это один из источников данных о странах где чиновники могут даже не знать о существовании этих данных.
Ссылки:
[1] https://t.iss.one/begtin/4804
[2] https://hub.arcgis.com
[3] https://geoportal-gymnasiumtsu.hub.arcgis.com/
[4] https://gymnasiumtsu.maps.arcgis.com
[5] https://gymnasiumtsu.maps.arcgis.com/apps/instant/minimalist/index.html?appid=546f6308f2364aea8aedd2d4906ab801
[6] https://gymnasiumtsu.maps.arcgis.com/sharing/rest/content/items/4ef1a0683c4842bcbafd3d91d4ec0291/data?f=json
[7] https://ggf-osu.maps.arcgis.com
[8] https://hub.arcgis.com/maps/uneplive::freshwater-water-monitoring-stations-and-treaties-russian-federation/about
[9] https://en.wikipedia.org/wiki/Armenia,_Colombia
[10] https://hub.arcgis.com/search?q=Armenia
#opendata #geodata #datasets #datacatalogs
Telegram
Ivan Begtin
Кто-то мог обратить внимание что в последнее время я чаще писал про открытые данные в контексте геоданных и открытой научной инфраструктуры (открытого доступа). Помимо того что я не так давно писал про открытые данные в фактах и тезисах в рассылке, у этого…
Forwarded from Национальный цифровой архив
They destroyed computer drivers, they shredded files and burned all the books in libraries 🍽
На прошлой неделе стартовал сериал-антиутопия Silo. В нем рассказывается о сообществе из 10 тыс. человек, которые живут в 140-этажном бункере, укрываясь от последствий катастрофического события на Земле.
По сюжету архивы, в том числе на цифровых носителях, считаются уничтоженными силами мятежников 140 лет назад. Поэтому архивы и артефакты прошлого получили статус реликвий и стали нелегальными и запрещенными для хранения и использования, а вопросы по поводу этой нелогичности оказалось нельзя произносить вслух.
Тем не менее, один из случайно найденных жестких дисков, содержимое которого удалось восстановить, становится основой для того, чтобы подвергнуть сомнениям уклад жизни всего сообщества и необходимость выживания в бункере.
Фокус на ценности архивов в сериале — своевременное напоминание о необходимости сохранять жизненно важную информацию, которая имеет решающее значение для выживания людей и развития общества.
Рекомендуем к просмотру!
На прошлой неделе стартовал сериал-антиутопия Silo. В нем рассказывается о сообществе из 10 тыс. человек, которые живут в 140-этажном бункере, укрываясь от последствий катастрофического события на Земле.
По сюжету архивы, в том числе на цифровых носителях, считаются уничтоженными силами мятежников 140 лет назад. Поэтому архивы и артефакты прошлого получили статус реликвий и стали нелегальными и запрещенными для хранения и использования, а вопросы по поводу этой нелогичности оказалось нельзя произносить вслух.
Тем не менее, один из случайно найденных жестких дисков, содержимое которого удалось восстановить, становится основой для того, чтобы подвергнуть сомнениям уклад жизни всего сообщества и необходимость выживания в бункере.
Фокус на ценности архивов в сериале — своевременное напоминание о необходимости сохранять жизненно важную информацию, которая имеет решающее значение для выживания людей и развития общества.
Рекомендуем к просмотру!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В 2019 году кто-то структурировал и визуализировал Библию, а мы ее случайно нашли в книжных магазинах Еревана. Уровень проработанности поражает. Вот бы и Закон о бюджете в таком же виде представляли (Бюджеты для граждан не предлагать, им пока до этого уровня далеко. Всем кроме Москвы)
В рубрике как это работает у них Геопортал Госкартгеофонда Республики Беларусь [1]. Создан на базе ПО с открытым кодом Geonetwork, включает как изображения карт, в основном ещё времен СССР, так и геосервисы для отображения. Геосервисы реализованы на базе ПО с открытым кодом Geoserver, например, https://gisserver.nca.by:8080/geoserver и https://meta.geo.by/geoserver и доступны для подключения WFS, WCS, WMS и др.
По сравнению с порталом геоданных, к примеру, Польши [2] в 11 тысяч наборов данных и Литвы [3] в 217 наборов данных - это немного, скорее удивительно что даже такой портал есть и что он сделан на Geonetwork.
Ссылки:
[1] https://meta.geo.by/geonetwork
[2] https://metadane.podgik.pl/geonetwork
[3] https://www.inspire-geoportal.lt/geonetwork
#opendata #geodata #belarus #datacatalogs
По сравнению с порталом геоданных, к примеру, Польши [2] в 11 тысяч наборов данных и Литвы [3] в 217 наборов данных - это немного, скорее удивительно что даже такой портал есть и что он сделан на Geonetwork.
Ссылки:
[1] https://meta.geo.by/geonetwork
[2] https://metadane.podgik.pl/geonetwork
[3] https://www.inspire-geoportal.lt/geonetwork
#opendata #geodata #belarus #datacatalogs
Amnesty International опубликовали в начале мая доклад Automated Aparteid [1] о том как в Восточном Иерусалиме и Хевроне они провели исследование и обнаружили огромное число камер и подтверждение слежки с их помощью. В докладе довольно много всего про масштаб цифрового наблюдения и отдельный акцент на почти полной непрозрачности всей этой деятельности. Доклад довольно резкий в отношении Израиля с другими акцентами чем привычные публикации про злоупотребление мониторингом камерами. Обычно все говорят о праве граждан на ограничение государства и корпораций в слежке за жителями и опрозрачивание работы систем слежки для граждан/налогоплательщиков, а здесь особая ситуация спорных территорий и слежки за гражданами другого государства. В мире таких прецедентов не так много, не так часто границы стран являются не только спорными, но и густо населены.
И, конечно, вот этот изучаемый случай как раз на грани контрастности мнений, что же важнее права человека в любом случае и в любой ситуации или безопасность.
Ссылки:
[1] https://www.amnesty.org.uk/files/2023-05/Automated%20Apartheid.pdf
#surveillance #izrael #privacy
И, конечно, вот этот изучаемый случай как раз на грани контрастности мнений, что же важнее права человека в любом случае и в любой ситуации или безопасность.
Ссылки:
[1] https://www.amnesty.org.uk/files/2023-05/Automated%20Apartheid.pdf
#surveillance #izrael #privacy
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла версия 1.0 корпоративного каталога данных Open Metadata [1] с открытым кодом. Продукт интересный, даёт уйму интересных возможностей для тех кто делает свои корпоративные каталоги данных и систематизирует внутренние ресурсы в виде данных. Я давно к нему присматриваюсь и, хотя пока ещё не смотрел версию 1.0, обязательно посмотрю. В том числе они заявляют автоматическое выявлении персональных данных (Auto PII Classification), а я продолжаю заниматься небольшим продуктом по идентификации семантических типов данных и персональные данные туда тоже входят.
Но даже до того как я посмотрю версию 1.0 я могу сказать то чего в Open Metadata точно до сих пор нет - это поддержка NoSQL во всех формах. Нет поддержки, ни Redis, ни MongoDB, ни ArangoDB, ни JSON объектов внутри NewSQL баз данных. А это значит что если у вас только SQL архитектура и инфраструктура, то это инструмент, возможно, подходящий. А если, например, кроме SQL у вас ещё и базы MongoDB для хранения, Elastic для поискового индекса, Redis для сессий пользователей и ещё что-нибудь экзотическое и какое-нибудь legacy, то нужно искать другие инструменты.
Конечно, команда Open Metadata действует как стартап и делают хорошо какую-то узкую область, но одновременно они заложили архитектурное ограничение восприятия каталогизируемых объектов как таблиц. Преодолеть им его теперь очень сложно, нужно будет переписать много кода и поломать совместимость с уже написанными расширениями.
Ссылки:
[1] https://blog.open-metadata.org/openmetadata-1-0-release-beb34762d916
#opensource #datacatalogs #metadata
Но даже до того как я посмотрю версию 1.0 я могу сказать то чего в Open Metadata точно до сих пор нет - это поддержка NoSQL во всех формах. Нет поддержки, ни Redis, ни MongoDB, ни ArangoDB, ни JSON объектов внутри NewSQL баз данных. А это значит что если у вас только SQL архитектура и инфраструктура, то это инструмент, возможно, подходящий. А если, например, кроме SQL у вас ещё и базы MongoDB для хранения, Elastic для поискового индекса, Redis для сессий пользователей и ещё что-нибудь экзотическое и какое-нибудь legacy, то нужно искать другие инструменты.
Конечно, команда Open Metadata действует как стартап и делают хорошо какую-то узкую область, но одновременно они заложили архитектурное ограничение восприятия каталогизируемых объектов как таблиц. Преодолеть им его теперь очень сложно, нужно будет переписать много кода и поломать совместимость с уже написанными расширениями.
Ссылки:
[1] https://blog.open-metadata.org/openmetadata-1-0-release-beb34762d916
#opensource #datacatalogs #metadata