Ivan Begtin
7.99K subscribers
1.77K photos
3 videos
101 files
4.49K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Я ранее давал ссылку на текст Стивена Вольфрама про то как устроен ChatGPT [1], а вот и близкий по смыслу текст Understanding Large Language Models [2] от Себастиана Рашка, автора многочисленных книг по машинному обучению. Собственно и этот текст ориентирован в основном на тех кто машинное обучение изучал и понимает хотя бы основу.

‘Godfather of AI’ quits Google with regrets and fears about his life’s work [3] новость о том что что "один из отцов ИИ" Geoffrey Hinton покинул Google. Скорее всего практического влияния на продукты компании его уход не имеет, но репутационно это минус для Google, поскольку он немного не мало, но Тюринговский лауреат (Нобель для комьютерных наук) и уходит со словами о бесконтрольном развитии AI в Google.

Неинвазивный метод превращения мыслей в текст с помощью ИИ Scientists develop A.I. system focused on turning peoples’ thoughts into text [4]. Пока только в лаборатории и требует сложных устройств, не портативно, но уже интересно. Как минимум для записи снов, как максимум для психологической диагностики. Мне на ум сразу приходит полиграф нового типа, одновременно записывающий не только сердечный ритм, но и мысли в ответ на задаваемые вопросы.

Ссылки:
[1] https://t.iss.one/begtin/4612
[2] https://magazine.sebastianraschka.com/p/understanding-large-language-models
[3] https://www.theverge.com/2023/5/1/23706311/hinton-godfather-of-ai-threats-fears-warnings
[4] https://www.cnbc.com/2023/05/01/scientists-develop-ai-system-focused-on-turning-thoughts-into-text.html

#ai #readings #technology
В рубрике как это работает у них портал данных для машинного обучения AI Hub в Южной Корее [1]

На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.

Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].

Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]

Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393

#datasets #datacatalogs #dataportals #korea #ai #ml
В рубрике интересных наборов данных платформа открытых геоданных по Кавказу [1] от UN Environment Programme/GRID-Geneva

118 наборов данных связанных с населением, климатом, лесом, водой и тд. с охватом территорий Армении, Грузии, России, Азебайджана, Турции и Ирана.

В общей совокупности это относительные небольшие данные по объёму, но важные как геоснова уже размеченная на регионы и районы.

Портал создан на портале с открытым кодом GeoNode и данные доступны для ручной и автоматической выгрузке, к ним можно подключится любимым инструментом через одно из API [2]

Похожий проект есть и для Центральной Азии [3] со 192 наборами данных (слоями геоданных) по всем среднеазиатским странам.

Проект создан в рамках Central Asia Climate Information Platform (CACIP) и продолжает развиваться.

Что это значит? То что если данные не публикуют правительства стран, то это не значит что их нет. Они просто лежат в других местах;)

Ссылки:
[1] https://sustainable-caucasus.unepgrid.ch
[2] https://sustainable-caucasus.unepgrid.ch/developer/
[3] https://geonode.centralasiaclimateportal.org/

#opendata #geodata #geonode #armenia #caucasus #centralasia #datasets
Часть 1 из 2

Я было планировал написать текст с рассказом о том как устроены открытые геоданные в мире, начиная с европейской инициативы INSPIRE, но быстро понял что текст будет неполным если также не рассказать про UN-GGIM, UNSDI, GEOSS, GMES, GeoSUR и ещё многие другие глобальные и региональные инициативы по открытости метаданных. Текст напишу уже позже и в форме лонгрида в рассылку [1].

А пока про каталогизацию каталогов данных на текущий момент. Я напомню что занимаюсь сейчас проектом Common Data Index [по систематизации каталогов данных и далее по анализу их содержания с разными продуктами на выходе. Чтобы понять какое ПО используется, какие стандарты, какие данные публикуются надо многие из них пересмотреть глазами, не всё автоматизируется. Уже сейчас доступен датасет с каталогами данных [2] и я регулярно пишу о том что же там.

Сейчас в наборе данных с каталогами открытых данных 1950 каталогов и этот список растёт, 461 каталог ещё просто не обработан и сколько-то ещё не найдено. Я могу много лекций прочитать про Data Discovery и о том как находить данные разными способами и как их публикуют.

Интересно то что в процессе выясняется столь многое что было лично мне и многие в сообществе неизвестно совершенно.

1) Начну с неожиданного, очень много порталов данных в азиатских странах: Таиланде, Японии, Южной Корее, Малайзии, Индонезии и Китае. Не так много пока как в США или в Европе, но, в принципе, очень много. Особенность их в том что они не на виду, они почти никогда не переведены на другие языки кроме государственного и их если не знать как искать или если не просматривать сайты органов власти то и не найти не местному жителю (не владеющему языком), так же они резко недопредставлены во всех предыдущих попытках систематизации каталогов данных таких как DataShades, Dataportals.org, Open Data Inception и др.

2) Очень всё не очень на постсоветском пространстве. В России наизобретали велосипедов что для открытых данных, что для геоданных и геоданными исключительно торгуют, открытых почти нет. Это резко контрастирует со всем миром. В Центральной Азии данные есть, но с систематизацией их дело обстоит плохо. В Армении надо очень много усилий приложить чтобы найти опубликованные данные, нет даже госпортала с данными. В Грузии всё выглядело неплохо, в основном из-за прицела на вступление в ЕС, непонятно что дальше. А Азербайджане ситуация мало отличная от Средней Азии и тд. А ещё во всем постсоветском пространстве кроме стран вошедших в ЕС очень скудно с публикацией открытых научных данных, даже в режиме "не быть, но казаться".

3) Иногда порталы открытых данных делают экзотическими способами на CMS вроде Semantic Mediawiki или Wordpress, но в основном, инструменты данных весьма стандартны: CKAN, Geonetwork, Dataverse, DKAN, GeoNode, NADA, OpenDataSoft, Socrata и др.
Часть 2 из 2.

4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.

5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.

6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.

7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.

8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени

Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr

#opendata #commondataindex #datacatalogs #dataportals #datasets
Полезное чтение про данные, технологии и не только:
- Parquet file format – everything you need to know! [1] короткое понятное чтение с примерами и визуализацией о том что такое формат Parquet. Автор активно рекламирует в конце Delta Lake file format от Databricks, но почему бы и нет, почитать про него тоже стоит потраченного времени.

- Dolt 1.0 [2] вышел релиз первой стабильной версии Dolt, базы данных совмещающей интерфейс MySQL и Git и сделанной по принципу git для данных. Лично я бы давно перешёл на Dolt в своих экспериментах если бы там был не аналог MySQL, а аналог MongodB, потому что плоские таблицы пригодны не для всех данных. Но конкретно Dolt очень интересная штука.

- What Happened to the Semantic Layer? [3] хороший текст про текущее состояние технологий semantic layer которые ещё называют "headless BI", автор работает на проектом Malloy в Google для языков запросов и преобразования данных в SQL-совместимых средах, так что без рекламы Malloy там текст не обошёлся, но если вы про Malloy не читали, то почитать точно вреда не будет, у технологии есть перспектива.

- Financing the common good [4] а вот это уже статья не про технологии, а про проблемы финансирования общего блага (common good) в том числе закрепленного в глобальных программах ООН и о необходимости радикальной реформы мировых финансов.

- Chandler Good Governance Index [5] вышел ежегодный индекс качества государственного управления, покрывает 104 правительства стран в мире, на постсоветском пространстве авторы не оценивали только Туркменистан и Азербайджан. Рейтинг составной, в основном учитываются другие рейтинги и опросы с подтверждённой методологией. Например, используется Open Budget Index и рейтинги оценки электронного пр-ва.

Ссылки:
[1] https://data-mozart.com/parquet-file-format-everything-you-need-to-know/
[2] https://www.dolthub.com/blog/2023-05-05-dolt-1-dot-0/
[3] https://carlineng.com/?postid=semantic-layer
[4] https://www.socialeurope.eu/financing-the-common-good
[5] https://chandlergovernmentindex.com/

#readings #data #tech
Тем временем в Испании 3 мая приняли первую национальную стратегию открытой науки [1] и собираются тратить по 23.8 миллионов евро ежегодно до 2027 года на развитие открытой науки и интеграции в мировую и европейскую инфраструктуру, в частности в European Open Science Cloud (EOSC). Учитывая что в Испании довольно развиты порталы открытых данных и не так много открытых репозиториев научных данных, я предполагаю что они пойдут французским путём и интегрируют открытые научные данные в нац портал datos.gob.es, но может быть и пойдут польским путем и вложатся в обучение работе с научными репозиториями и создании репозиториев научных данных в ведущих университетах.

Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/

#opendata #openaccess #openscience #spain #eu
Forwarded from 42 секунды
The Guardian: WhatsApp может покинуть рынок Великобритании из-за нового законопроекта

– Сервису угрожает законопроект про безопасность в интернете
– Его разрабатывают 4+ года, там 250 страниц (оглавление из 10)
– Законопроект наделяет регулятора UK новыми полномочиями
– Они будут касаться борьбы с терроризмом, защиты детей и др.
– Штрафы для компаний могут составить до 10% оборота в мире
– Фактически, этот закон будет запрещать сквозное шифрование
– Т.к. оно не дает технической возможности прочитать сообщения
– WhatsApp не готов снижать безопасность для всех
– Около 98% его пользователей находятся за пределами рынка UK

@ftsec
В рубрике неочевидных источников информации и наборов данных о порталах данных о которых многие могут не подозревать.

Я ранее рассказывал что компания Esri сейчас обеспечивает работу сотен порталов открытых данных и геоданных через их продукт ArcGIS Hub [1]. В принципе же Esri вот уже много помимо корпоративных версий ArcGIS продают свои облачные сервисы и многие пользуются, как их платными так и бесплатными продуктами. Не все знают что карты, слои карт, документы большинства публичных пользователей доступны в их поисковой системе на hub.arcgis.com [2]. Причём там часто есть ссылки на слои и карты которые не найти на сайтах их создателей.

Например, у Тверского госуниверситета есть образовательный геопортал портал [3] и геоинформационная платформа [4] где кроме карт непосредственно области [5] можно ещё и воспользоваться API ArcGIS и выгрузить данные слоёв ассоциированных с этими картами [6]. Там же есть карты Оренбургского госуниверситета [7]. Многие другие данные и карты публикуются международными организациями, например Freshwater Water Monitoring Stations and Treaties-Russian Federation [8] публикуемые WESR UNEP и многое другое.

Россия в данном случае как пример, аналогично можно найти данные по постсоветским странам, странам Африки и тд. у которых так просто не найти их национальные порталы открытых данных. Сложно лишь найти данные по странам вроде Армении поскольку кроме страны есть ещё и одноимённый муниципалитет в Колумбии [9] по которому много геоданных, которые всплывают в поиске [10].

Часть данных из сервисов ArcGIS можно скачивать сразу, часть доступны через их API, но важнее то что это один из источников данных о странах где чиновники могут даже не знать о существовании этих данных.

Ссылки:
[1] https://t.iss.one/begtin/4804
[2] https://hub.arcgis.com
[3] https://geoportal-gymnasiumtsu.hub.arcgis.com/
[4] https://gymnasiumtsu.maps.arcgis.com
[5] https://gymnasiumtsu.maps.arcgis.com/apps/instant/minimalist/index.html?appid=546f6308f2364aea8aedd2d4906ab801
[6] https://gymnasiumtsu.maps.arcgis.com/sharing/rest/content/items/4ef1a0683c4842bcbafd3d91d4ec0291/data?f=json
[7] https://ggf-osu.maps.arcgis.com
[8] https://hub.arcgis.com/maps/uneplive::freshwater-water-monitoring-stations-and-treaties-russian-federation/about
[9] https://en.wikipedia.org/wiki/Armenia,_Colombia
[10] https://hub.arcgis.com/search?q=Armenia

#opendata #geodata #datasets #datacatalogs
They destroyed computer drivers, they shredded files and burned all the books in libraries 🍽

На прошлой неделе стартовал сериал-антиутопия Silo. В нем рассказывается о сообществе из 10 тыс. человек, которые живут в 140-этажном бункере, укрываясь от последствий катастрофического события на Земле.

По сюжету архивы, в том числе на цифровых носителях, считаются уничтоженными силами мятежников 140 лет назад. Поэтому архивы и артефакты прошлого получили статус реликвий и стали нелегальными и запрещенными для хранения и использования, а вопросы по поводу этой нелогичности оказалось нельзя произносить вслух.

Тем не менее, один из случайно найденных жестких дисков, содержимое которого удалось восстановить, становится основой для того, чтобы подвергнуть сомнениям уклад жизни всего сообщества и необходимость выживания в бункере.

Фокус на ценности архивов в сериале — своевременное напоминание о необходимости сохранять жизненно важную информацию, которая имеет решающее значение для выживания людей и развития общества.

Рекомендуем к просмотру!
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В 2019 году кто-то структурировал и визуализировал Библию, а мы ее случайно нашли в книжных магазинах Еревана. Уровень проработанности поражает. Вот бы и Закон о бюджете в таком же виде представляли (Бюджеты для граждан не предлагать, им пока до этого уровня далеко. Всем кроме Москвы)
В рубрике как это работает у них Геопортал Госкартгеофонда Республики Беларусь [1]. Создан на базе ПО с открытым кодом Geonetwork, включает как изображения карт, в основном ещё времен СССР, так и геосервисы для отображения. Геосервисы реализованы на базе ПО с открытым кодом Geoserver, например, https://gisserver.nca.by:8080/geoserver и https://meta.geo.by/geoserver и доступны для подключения WFS, WCS, WMS и др.

По сравнению с порталом геоданных, к примеру, Польши [2] в 11 тысяч наборов данных и Литвы [3] в 217 наборов данных - это немного, скорее удивительно что даже такой портал есть и что он сделан на Geonetwork.

Ссылки:
[1] https://meta.geo.by/geonetwork
[2] https://metadane.podgik.pl/geonetwork
[3] https://www.inspire-geoportal.lt/geonetwork

#opendata #geodata #belarus #datacatalogs
Amnesty International опубликовали в начале мая доклад Automated Aparteid [1] о том как в Восточном Иерусалиме и Хевроне они провели исследование и обнаружили огромное число камер и подтверждение слежки с их помощью. В докладе довольно много всего про масштаб цифрового наблюдения и отдельный акцент на почти полной непрозрачности всей этой деятельности. Доклад довольно резкий в отношении Израиля с другими акцентами чем привычные публикации про злоупотребление мониторингом камерами. Обычно все говорят о праве граждан на ограничение государства и корпораций в слежке за жителями и опрозрачивание работы систем слежки для граждан/налогоплательщиков, а здесь особая ситуация спорных территорий и слежки за гражданами другого государства. В мире таких прецедентов не так много, не так часто границы стран являются не только спорными, но и густо населены.

И, конечно, вот этот изучаемый случай как раз на грани контрастности мнений, что же важнее права человека в любом случае и в любой ситуации или безопасность.

Ссылки:
[1] https://www.amnesty.org.uk/files/2023-05/Automated%20Apartheid.pdf

#surveillance #izrael #privacy
This media is not supported in your browser
VIEW IN TELEGRAM
Вышла версия 1.0 корпоративного каталога данных Open Metadata [1] с открытым кодом. Продукт интересный, даёт уйму интересных возможностей для тех кто делает свои корпоративные каталоги данных и систематизирует внутренние ресурсы в виде данных. Я давно к нему присматриваюсь и, хотя пока ещё не смотрел версию 1.0, обязательно посмотрю. В том числе они заявляют автоматическое выявлении персональных данных (Auto PII Classification), а я продолжаю заниматься небольшим продуктом по идентификации семантических типов данных и персональные данные туда тоже входят.

Но даже до того как я посмотрю версию 1.0 я могу сказать то чего в Open Metadata точно до сих пор нет - это поддержка NoSQL во всех формах. Нет поддержки, ни Redis, ни MongoDB, ни ArangoDB, ни JSON объектов внутри NewSQL баз данных. А это значит что если у вас только SQL архитектура и инфраструктура, то это инструмент, возможно, подходящий. А если, например, кроме SQL у вас ещё и базы MongoDB для хранения, Elastic для поискового индекса, Redis для сессий пользователей и ещё что-нибудь экзотическое и какое-нибудь legacy, то нужно искать другие инструменты.

Конечно, команда Open Metadata действует как стартап и делают хорошо какую-то узкую область, но одновременно они заложили архитектурное ограничение восприятия каталогизируемых объектов как таблиц. Преодолеть им его теперь очень сложно, нужно будет переписать много кода и поломать совместимость с уже написанными расширениями.


Ссылки:
[1] https://blog.open-metadata.org/openmetadata-1-0-release-beb34762d916

#opensource #datacatalogs #metadata
В рубрике полезного чтения про данные, технологии и не только:
- Zero ELT could be the death of the Modern Data Stack [1] о том как вендоры крупнейших SaaS платформ могут в короткий срок убить всю экосистему Modern Data Stack реализовав достаточно простые инструмент для загрузки данных. Zero ETL - это, по сути, "убиение" ETL, например, в этот подход склоняются Amazon и Snowflake. Вообще процесс можно описать таким образом. Вначале появляется потребность в работе с данными в облачных сервисах, в первую очередь эта потребность у тех кто и так держит данные в облаках и многочисленными провайдерами разных сервисов, вроде платежных, и вынужден объединять данные. Потом появляются нишевые стартапы хорошо решающие конкретные задачи автоматизации работы с данными (всё как по учебнику), такие как Fivetran, Dbt, Hightouch и другие. Они оказываются основой Modern data stack, объединяющего понятия хорошо интегрированных сервисов работы с данными и, наконец, оказывается что клиентам управление сложностью возникшей конфигурации может быть более затратно, чем более простые инструменты, но интегрированные в платформу базового провайдера. Поэтому Zero ETL действительно имеет хорошие перспективы.

- We need to talk about Excel [2] автор и критикует и хвалит Excel и приводит в пример несколько стартапов которые не то чтобы его заменяют, но дают некоторые близкие возможности, при этом самому Excel как продукту до сих пор замены нет. Размышления вполне структурированы и аргументированы. Я лично когда думал про Excel понял что для меня всегда главной нелюбовью к нему был язык VBA. При том что когда-то, много лет назад, я на нём даже мог писать сложные макросы и отлаживать непростой код, тем не менее он до сих пор ощущается как крайне неудобный. Будь в MS Excel нативная поддержка, например, Python. Может быть когда-нибудь Microsoft поглотит PyXLL [3] и такая поддержка появится.

- Polars – Laziness and SQL Context. [4] автор пишет о том что Polars это не только более производительный инструмент для аналитики чем Pandas, но и обладает несколькими полезными функциями такими как ленивая загрузка файлов позволяющая обрабатывать файлы размером больше чем объём памяти и SQL контекст с помощью которого можно делать SQL запросы, например, к таким лениво загруженным файлам. Возможности полезные когда работаешь с данными относительно большого объёма.


Ссылки:
[1] https://medium.com/@hugolu87/zero-elt-could-be-the-death-of-the-modern-data-stack-cfdd56c9246d
[2] https://davidsj.substack.com/p/we-need-to-talk-about-excel
[3] https://www.pyxll.com
[4] https://www.confessionsofadataguy.com/polars-laziness-and-sql-context/

#data #datatools #readings #etl
В рубрике как это устроено у них Български портал за отворена наука [1], портал открытой науки Болгарии созданный в НАЦИД (Национален център за информация и документация), государственным учреждением Болгарии подведомственным местному Министерству образования и науки. На портале собираются и публикуются данные из 8 репозиториев публикации результатов научной деятельности [3] большая часть которых являются научными статьями в открытом доступе.

По сути портал выступает в качестве поисковика по метаданным, перенаправляя на открытые репозитории содержащие тексты публикаций, в этом смысле он более похож на OpenAIRE чем, к примеру, на Dataverse. В то же время, портал был сертифицирован CoreTrustSeal [4], а то есть его создатели как минимум продумали достаточно важные системные вопросы организации его работы.

В принципе, национальные порталы открытости науки не редкость, их становится всё больше. Конкретно на этом портале открытые научные данные почти не представлены, во всяком случае их почти нет в болгарских институциональных репозиториях, можно предполагать что болгарские исследователи скорее используют напрямую общеевропейские порталы вроде Zenodo.

Ссылки:
[1] https://bpos.bg
[2] https://nacid.bg
[3] https://bpos.bg/bg/repositories
[4] https://www.coretrustseal.org/wp-content/uploads/2022/03/20220307-Bulgarian-Portal-for-Open-Science_final.pdf

#openaccess #openscience #bulgaria #eu