Ivan Begtin
8K subscribers
1.91K photos
3 videos
101 files
4.61K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
В рубрике больших открытых наборов данных The Stack [1] 3.1 терабайта 300 миллионов файлов исходного кода на 30 языках программирования с разрешающими лицензиями (permissive licenses) на его повторное использование. Опубликован на Hugging Face, кроме программных языков, охватывает около 20 естественных языков (английский, китайский, испанский, русский и др.)

Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․

Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.

А также большой тред в твиттере с рассказом об этом наборе данных [3]

Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097

#opendata #opensource #datasets
Прекрасное руководство [1] с примерами по тому как можно визуализировать реки и затопленные территории с помощью QGIS и RiverREM [2], библиотеки для Python из проекта OpenTopography.

Примеры все из США где в рамках программы 3D Elevation Program [4] сейчас оцифрована почти каждая миля страны с высокой степенью геометрической детализации.

Есть, также, очень подробное руководство как создавать именно такие картинки [5] с использованием файлов DEM (Digital elevation model), а на Flickr есть коллекция изображений подобных этим [6] которые можно использовать в некоммерческих целях.

Ссылки:
[1] https://www.beautifulpublicdata.com/visualizing-rivers-and-floodplains/
[2] https://github.com/klarrieu/RiverREM
[3] https://opentopography.org/
[4] https://www.usgs.gov/3d-elevation-program
[5] https://dancoecarto.com/creating-rems-in-qgis-the-idw-method
[6] https://www.flickr.com/photos/165735975@N07/sets/72177720300430208/

#dataviz #opendata
Я регулярно рассказываю про работу над выявлением смысловых типов данных, это моя любимая тема в работе с данными - семантические типы данных. Я писал об этом большой текст на английском языке [1] и про проекты metacrafter [2] по идентификации типов данных и metacrafter-registry [3] реестр семантических типов данных.

В них пока небольшие, но обновления.
1. В реестр добавлены много типов персональных данных в реестр, например, идентификаторы паспортов [4] и водительских удостоверений. Везде где возможно приведены регулярные выражения для проверки этих типов данных.
2. Добавлены новые правила идентификации смысловых полей для русского и французского языка. Теперь можно использовать metacrafter на русскоязычных и франкоязычных наборах данных.

И, конечно, всё это расширяемые проекты и если какие-то данные ещё не идентифицируются, то их можно добавить.

А я напомню что metacrafter сейчас используется в другом нашем проекте Datacrafter для идентификации типов данных в каталоге [7].

Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/metacrafter-registry
[4] https://registry.apicrafter.io/datatype/aupassport
[5] https://registry.apicrafter.io/datatype/cadriverlic
[6] https://github.com/apicrafter/metacrafter/tree/main/rules
[7] https://datacrafter.ru/class

#opensource #datatools #data #dataengineering
Собирать обратную связь создателям продуктов сложно, это требует навыков и понимания того как работать с аудиторией, клиентами, потребителями и экспертами. Я в последний месяц несколько часов посвятил продукту CKAN [1] - это продукт для публикации открытых данных с открытым кодом разрабатываемый большой международной компанией и поддерживаемый парой коммерческих компаний сопровождающих порталы созданные на нём CKAN.

Они недавно опубликовали результаты своего исследования [2], они полезны тем кто изучает экосистему открытости данных в мире. А я могу поделиться собственными ощущениями.

Начну с того что собирать обратную связь действительно сложно. Когда ты создаёшь продукт коммерческий то обратная связь начинается когда у него появляется лояльная аудитория. Спроси внешнего человека, он, скорее всего, проигнорирует и ещё и подумает "Зачем мне тратить на это время?". Спроси эксперта - он скажет "ребята, это консалтинг, моё время стоит денег". Продукт должен быть, либо феноменальным, либо ты им пользуешься уже много лет и есть что сказать, либо собирать надо так чтобы мотивировать пользователей. Опять же это с точки зрения пользователя, стороннего наблюдателя.

В случае с продуктами на открытом исходном коде ситуация несколько иная. Обратная связь, часто, возникает потому что даже если бенефициарами продукта являются коммерческие компании, у него есть открытый контур и коммерческая версия продукта добавляет ему качества, но открытая никуда не исчезает. Обратите внимание, не бесплатная, которую владельцы/разработчики в любой момент могут сделать платной, а именно открытая.

Поэтому какой-нибудь продукт вроде dbt, Meltano, Dagster (примеры из рынка данных) имеют какую-то невероятную обратную связь от пользователей и немало контрибьюторов в код даже при том что их создают и развивают стартапы эффективно их монетизирующие.

Всё вместе это и называется работа с сообществом. Я тут не могу не напомнить про отличную книгу от Nadia Engball под названием Working in Public: The Making and Maintenance of Open Source Software [3] о том как создаются и развиваются сообщества открытого кода и что делает их устойчивыми.

Ссылки:
[1] https://ckan.org
[2] https://ckan.org/blog/ckan-30-product-strategy-research-part-3
[3] https://www.amazon.com/gp/product/B08BDGXVK9/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B08BDGXVK9&linkCode=as2&tag=begtintech-20&linkId=5df79c2a091bee55a08f60476f15ac33

#opensource #thoughts
Для тех кто любит программировать на Python и не любит Javascript не могу не рассказать о таком проекте как PyScript [1], код для исполнения кода Python'а на стороне браузера. Включает как простые, так и сложные примеры [2], а также по нему есть огромное руководство с кучей подробностей [3].

Признаюсь, я лично, никогда не любил разработку фронтэнда именно из-за Javascript'а, какое-то сильное чувство отторжение у меня вызывало его использование, так что не только Javascript'у проникать на сервер, но и Python'у в браузер.

А их свежего и любопытного - руководство по написанию расширений для Google Chrome с помощью PyScript [4].

Почему это важно? Многие продукты по обработке и визуализации данных не сервере написаны на Python. Если PyScript будет работать с хорошей производительностью, то часть задач обработки можно будет перенести в браузер и поддерживать единую кодовую базу.

Пока единственное ограничение в том что PyScript более-менее оттестирован в Chrome, но даже в Firefox'е его активно не проверяли.

Тем не менее, экспериментировать можно уже сейчас.

Ссылки:
[1] https://pyscript.net
[2] https://pyscript.net/examples/
[3] https://realpython.com/pyscript-python-in-browser/#modules-missing-from-the-python-standard-library
[4] https://medium.com/@petefison/write-chrome-extensions-in-python-6c6b0e2e1573

#opensource #python #programming
Ещё одна утилита идентифицирующая смысл данных в базах данных - catwright [1]. Авторы декларируют что используют ИИ и поддержку категорий данных времени и геоданных. Правда они называют категориями то что все остальные называют семантическими типами данных. Сейчас правил и категорий там мало, зато есть предобученная модель.

Выглядит любопытно, но, пока, не более того. Я всё же скажу что metacrafter [2] куда практичнее поскольку расширяем.

Ссылки:
[1] https://github.com/jataware/cartwright
[2] https://github.com/apicrafter/metacrafter

#opensource #datatypes #dataengineering
Полезное чтение про данные, технологии и не только:
- Your Data Catalog Shouldn’t Be Just One More UI [1] автор рассуждает о том что каталоги данных должны быть API First, построены изначально под автоматизацию работы с данными. Приводит в пример Datahub и OpenMetadata. Мои мысли с ним созвучны, только я думал о том же в форме Headless data catalog и Headless data management system.
- Visualization Tips for Data Story-Telling [2] как подбирать цвета при визуализации данных и много других советов.
- Dataclasses: Supercharge your Python code [3] классы данных, для тех кто хочет продвинутся в разработке на Python в сторону датацентричности. Классы данных хорошая штука, нехватает только ещё более удобных инструментов для маппинга их на хранилища.
- Introducing Notion AI [4] Notion обещают ИИ который будет помогать писать тексты. Таких предложений всё больше, скоро их будет какое-то пугающее количество. Когда наступит перелом, когда Google добавит похожее в Google Docs и GMail или когда Microsoft поместит это в онлайн версию MS Office?
- DuckDB — What’s the Hype About? [5] рассуждения о хайпе вокруг DuckDB. Всё по делу, главное достоинство DuckDB - это возможность работы с данными локально, и без дополнительных знаний кроме Pandas. Главное не забывать это это локальная аналитическая база не заменяющая серверные продукты.

Ссылки:
[1] https://towardsdatascience.com/your-data-catalog-shouldnt-be-just-one-more-ui-e6bffb793cf1
[2] https://medium.com/mlearning-ai/visualization-tips-for-data-story-telling-1e99cccbb8c7
[3] https://heyashy.medium.com/supercharge-your-python-code-with-dataclasses-6965ddd7fb98
[4] https://www.notion.so/product/ai
[5] https://olivermolander.medium.com/duckdb-whats-the-hype-about-5d46aaa73196

#opensource #readings #datatools #data #ai
Многие следят за событиями в Twitter'е с массовыми увольнениями инженеров и руганью Элона Маска с некоторыми из них публично. Можно смотреть на это с разными эмоциями, кто-то, надеюсь меньшинство думает что "так мол им и надо зажравшимся смузеедам", а кому-то события вокруг твиттера лишь в очередной раз напоминают что чем меньше ты зависишь от централизованных платформ тем лучше.

Поэтому, мой аккаунт в Mastodon https://mastodon.world/@ibegtin где я буду время от времени писать на преимущественно на английском языке, может на каких-то ещё. Как ни странно сервера Mastodon ещё не заблокировали в России, но это же ненадолго, мы же понимаем.

На всякий случай напоминаю мой блог с длинными техническими текстами на английском языке https://medium.com/@ibegtin, рассылка в с длинными текстами на русском https://begtin.substack.com

#blogging
Интересное и познавательное чтение про то как Amazon изучал рынок блокчейна в 2016 году, но компания не стала в него вкладываться [1]. Автор, Тим Брэй, бывший вице президент Amazon тогда изучал блокчейн-стартапы, встречался с финансовыми компаниями/банками/представителями бирж и по сути изучал рынок и спрос. Изучение показало что:
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.

Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.

А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]

Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3

#technology #blockchain
Свежая система раскрытия данных о госконтрактах в Пуэрто Рико Contratos En Ley [1]

Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]

Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.

Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.

Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.

Ссылки:
[1] https://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org

#opendata #contracting #procurement #usa #transparency
Суд Европейского Союза принял решение о том что раскрытие реестров бенефициаров противоречит правам человека [1]. Сейчас реестры закрыли Голландия и Люксембург, вполне возможно вскоре такая же участь последует другие открытые реестры. При этом, не могу не напомнить, что раскрытие реестров бенефициаров было официально поддержано на встрече G20 и в мире есть несколько больших инициатив в этой области, в основном родом из Великобритании. Например, Open Ownership [2].

Означает ли это что будет сложнее расследовать коррупционные схемы с участием компаний зарегистрированных в Европе? Для журналистов - скорее всего да.

Действительно, что важнее, общественный интерес или частная жизнь (бизнес) ? Лично я считаю что в данном случае интерес общества и практики проверки контрагентов перевешивают риски для человека.

Ссылки:
[1] https://delano.lu/article/court-of-justice-of-the-eu-que
[2] https://t.iss.one/begtin/4382
[3] https://openownership.org

#opendata #opengov #transparency #eu
В рубрике интересных наборов данных открытый датасет The Global Jukebox: A public database of performing arts and culture [1] как часть одноимённой научной работы посвящённой сбору, систематизации и изучению традиционных песен.

Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]

Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна

Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/

#opendata #digitalhumanities
В рубрике интересных инструментов работы с данными Rasgo [1], интерактивный каталог данных работающий поверх Snowflake и BigQuery и в планах команды поддержать RedShift и Delta Lake. Основная идея в том что командам по работе с данными может быть сложно работать с данными в облачных хранилищах и Rasgo должен помочь им в этих задачах. Через интерактивное построние запросов и систематизацию метаданных.

Заход интересный тем что они пытаются совместить интерактивный каталог с интерактивным no-code построителем запросов к базам данных.

А также пытаются идти по пути инструментов очистки данных, оценки их качества и ещё многое другое с акцентом на команды работающие с данными в области ИИ (разработки моделей).

Непонятно что из этого выстрелит, но стоит внимания и наблюдения за их судьбой.
Продукт не на открытом коде, привлекли $20 миллионов инвестиций в июне 2021 года.

Ссылки:
[1] https://www.rasgoml.com/

#startups #data #datatools #dataengineering #datacatalogs