В рубрике больших открытых наборов данных The Stack [1] 3.1 терабайта 300 миллионов файлов исходного кода на 30 языках программирования с разрешающими лицензиями (permissive licenses) на его повторное использование. Опубликован на Hugging Face, кроме программных языков, охватывает около 20 естественных языков (английский, китайский, испанский, русский и др.)
Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․
Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.
А также большой тред в твиттере с рассказом об этом наборе данных [3]
Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097
#opendata #opensource #datasets
Является результатом проекта BigCode [2], совместных усилий команд ServiceNow и Hugging Face․
Можно сказать что это большой шаг вперед к развитию языковых моделей для программного кода и появлению новых продуктов похожих на Github Copilot и аналоги, но, на сей раз, с соблюдением лицензионной чистоты.
А также большой тред в твиттере с рассказом об этом наборе данных [3]
Ссылки:
[1] https://huggingface.co/datasets/bigcode/the-stack
[2] https://www.bigcode-project.org/
[3] https://twitter.com/BigCodeProject/status/1585631176353796097
#opendata #opensource #datasets
Прекрасное руководство [1] с примерами по тому как можно визуализировать реки и затопленные территории с помощью QGIS и RiverREM [2], библиотеки для Python из проекта OpenTopography.
Примеры все из США где в рамках программы 3D Elevation Program [4] сейчас оцифрована почти каждая миля страны с высокой степенью геометрической детализации.
Есть, также, очень подробное руководство как создавать именно такие картинки [5] с использованием файлов DEM (Digital elevation model), а на Flickr есть коллекция изображений подобных этим [6] которые можно использовать в некоммерческих целях.
Ссылки:
[1] https://www.beautifulpublicdata.com/visualizing-rivers-and-floodplains/
[2] https://github.com/klarrieu/RiverREM
[3] https://opentopography.org/
[4] https://www.usgs.gov/3d-elevation-program
[5] https://dancoecarto.com/creating-rems-in-qgis-the-idw-method
[6] https://www.flickr.com/photos/165735975@N07/sets/72177720300430208/
#dataviz #opendata
Примеры все из США где в рамках программы 3D Elevation Program [4] сейчас оцифрована почти каждая миля страны с высокой степенью геометрической детализации.
Есть, также, очень подробное руководство как создавать именно такие картинки [5] с использованием файлов DEM (Digital elevation model), а на Flickr есть коллекция изображений подобных этим [6] которые можно использовать в некоммерческих целях.
Ссылки:
[1] https://www.beautifulpublicdata.com/visualizing-rivers-and-floodplains/
[2] https://github.com/klarrieu/RiverREM
[3] https://opentopography.org/
[4] https://www.usgs.gov/3d-elevation-program
[5] https://dancoecarto.com/creating-rems-in-qgis-the-idw-method
[6] https://www.flickr.com/photos/165735975@N07/sets/72177720300430208/
#dataviz #opendata
Я регулярно рассказываю про работу над выявлением смысловых типов данных, это моя любимая тема в работе с данными - семантические типы данных. Я писал об этом большой текст на английском языке [1] и про проекты metacrafter [2] по идентификации типов данных и metacrafter-registry [3] реестр семантических типов данных.
В них пока небольшие, но обновления.
1. В реестр добавлены много типов персональных данных в реестр, например, идентификаторы паспортов [4] и водительских удостоверений. Везде где возможно приведены регулярные выражения для проверки этих типов данных.
2. Добавлены новые правила идентификации смысловых полей для русского и французского языка. Теперь можно использовать metacrafter на русскоязычных и франкоязычных наборах данных.
И, конечно, всё это расширяемые проекты и если какие-то данные ещё не идентифицируются, то их можно добавить.
А я напомню что metacrafter сейчас используется в другом нашем проекте Datacrafter для идентификации типов данных в каталоге [7].
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/metacrafter-registry
[4] https://registry.apicrafter.io/datatype/aupassport
[5] https://registry.apicrafter.io/datatype/cadriverlic
[6] https://github.com/apicrafter/metacrafter/tree/main/rules
[7] https://datacrafter.ru/class
#opensource #datatools #data #dataengineering
В них пока небольшие, но обновления.
1. В реестр добавлены много типов персональных данных в реестр, например, идентификаторы паспортов [4] и водительских удостоверений. Везде где возможно приведены регулярные выражения для проверки этих типов данных.
2. Добавлены новые правила идентификации смысловых полей для русского и французского языка. Теперь можно использовать metacrafter на русскоязычных и франкоязычных наборах данных.
И, конечно, всё это расширяемые проекты и если какие-то данные ещё не идентифицируются, то их можно добавить.
А я напомню что metacrafter сейчас используется в другом нашем проекте Datacrafter для идентификации типов данных в каталоге [7].
Ссылки:
[1] https://medium.com/@ibegtin/semantic-data-types-systematic-approach-and-types-registry-a2c2a60a467b
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/metacrafter-registry
[4] https://registry.apicrafter.io/datatype/aupassport
[5] https://registry.apicrafter.io/datatype/cadriverlic
[6] https://github.com/apicrafter/metacrafter/tree/main/rules
[7] https://datacrafter.ru/class
#opensource #datatools #data #dataengineering
Medium
Semantic data types. Systematic approach and types registry
What is semantic data types?
Собирать обратную связь создателям продуктов сложно, это требует навыков и понимания того как работать с аудиторией, клиентами, потребителями и экспертами. Я в последний месяц несколько часов посвятил продукту CKAN [1] - это продукт для публикации открытых данных с открытым кодом разрабатываемый большой международной компанией и поддерживаемый парой коммерческих компаний сопровождающих порталы созданные на нём CKAN.
Они недавно опубликовали результаты своего исследования [2], они полезны тем кто изучает экосистему открытости данных в мире. А я могу поделиться собственными ощущениями.
Начну с того что собирать обратную связь действительно сложно. Когда ты создаёшь продукт коммерческий то обратная связь начинается когда у него появляется лояльная аудитория. Спроси внешнего человека, он, скорее всего, проигнорирует и ещё и подумает "Зачем мне тратить на это время?". Спроси эксперта - он скажет "ребята, это консалтинг, моё время стоит денег". Продукт должен быть, либо феноменальным, либо ты им пользуешься уже много лет и есть что сказать, либо собирать надо так чтобы мотивировать пользователей. Опять же это с точки зрения пользователя, стороннего наблюдателя.
В случае с продуктами на открытом исходном коде ситуация несколько иная. Обратная связь, часто, возникает потому что даже если бенефициарами продукта являются коммерческие компании, у него есть открытый контур и коммерческая версия продукта добавляет ему качества, но открытая никуда не исчезает. Обратите внимание, не бесплатная, которую владельцы/разработчики в любой момент могут сделать платной, а именно открытая.
Поэтому какой-нибудь продукт вроде dbt, Meltano, Dagster (примеры из рынка данных) имеют какую-то невероятную обратную связь от пользователей и немало контрибьюторов в код даже при том что их создают и развивают стартапы эффективно их монетизирующие.
Всё вместе это и называется работа с сообществом. Я тут не могу не напомнить про отличную книгу от Nadia Engball под названием Working in Public: The Making and Maintenance of Open Source Software [3] о том как создаются и развиваются сообщества открытого кода и что делает их устойчивыми.
Ссылки:
[1] https://ckan.org
[2] https://ckan.org/blog/ckan-30-product-strategy-research-part-3
[3] https://www.amazon.com/gp/product/B08BDGXVK9/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B08BDGXVK9&linkCode=as2&tag=begtintech-20&linkId=5df79c2a091bee55a08f60476f15ac33
#opensource #thoughts
Они недавно опубликовали результаты своего исследования [2], они полезны тем кто изучает экосистему открытости данных в мире. А я могу поделиться собственными ощущениями.
Начну с того что собирать обратную связь действительно сложно. Когда ты создаёшь продукт коммерческий то обратная связь начинается когда у него появляется лояльная аудитория. Спроси внешнего человека, он, скорее всего, проигнорирует и ещё и подумает "Зачем мне тратить на это время?". Спроси эксперта - он скажет "ребята, это консалтинг, моё время стоит денег". Продукт должен быть, либо феноменальным, либо ты им пользуешься уже много лет и есть что сказать, либо собирать надо так чтобы мотивировать пользователей. Опять же это с точки зрения пользователя, стороннего наблюдателя.
В случае с продуктами на открытом исходном коде ситуация несколько иная. Обратная связь, часто, возникает потому что даже если бенефициарами продукта являются коммерческие компании, у него есть открытый контур и коммерческая версия продукта добавляет ему качества, но открытая никуда не исчезает. Обратите внимание, не бесплатная, которую владельцы/разработчики в любой момент могут сделать платной, а именно открытая.
Поэтому какой-нибудь продукт вроде dbt, Meltano, Dagster (примеры из рынка данных) имеют какую-то невероятную обратную связь от пользователей и немало контрибьюторов в код даже при том что их создают и развивают стартапы эффективно их монетизирующие.
Всё вместе это и называется работа с сообществом. Я тут не могу не напомнить про отличную книгу от Nadia Engball под названием Working in Public: The Making and Maintenance of Open Source Software [3] о том как создаются и развиваются сообщества открытого кода и что делает их устойчивыми.
Ссылки:
[1] https://ckan.org
[2] https://ckan.org/blog/ckan-30-product-strategy-research-part-3
[3] https://www.amazon.com/gp/product/B08BDGXVK9/ref=as_li_tl?ie=UTF8&camp=1789&creative=9325&creativeASIN=B08BDGXVK9&linkCode=as2&tag=begtintech-20&linkId=5df79c2a091bee55a08f60476f15ac33
#opensource #thoughts
Для тех кто любит программировать на Python и не любит Javascript не могу не рассказать о таком проекте как PyScript [1], код для исполнения кода Python'а на стороне браузера. Включает как простые, так и сложные примеры [2], а также по нему есть огромное руководство с кучей подробностей [3].
Признаюсь, я лично, никогда не любил разработку фронтэнда именно из-за Javascript'а, какое-то сильное чувство отторжение у меня вызывало его использование, так что не только Javascript'у проникать на сервер, но и Python'у в браузер.
А их свежего и любопытного - руководство по написанию расширений для Google Chrome с помощью PyScript [4].
Почему это важно? Многие продукты по обработке и визуализации данных не сервере написаны на Python. Если PyScript будет работать с хорошей производительностью, то часть задач обработки можно будет перенести в браузер и поддерживать единую кодовую базу.
Пока единственное ограничение в том что PyScript более-менее оттестирован в Chrome, но даже в Firefox'е его активно не проверяли.
Тем не менее, экспериментировать можно уже сейчас.
Ссылки:
[1] https://pyscript.net
[2] https://pyscript.net/examples/
[3] https://realpython.com/pyscript-python-in-browser/#modules-missing-from-the-python-standard-library
[4] https://medium.com/@petefison/write-chrome-extensions-in-python-6c6b0e2e1573
#opensource #python #programming
Признаюсь, я лично, никогда не любил разработку фронтэнда именно из-за Javascript'а, какое-то сильное чувство отторжение у меня вызывало его использование, так что не только Javascript'у проникать на сервер, но и Python'у в браузер.
А их свежего и любопытного - руководство по написанию расширений для Google Chrome с помощью PyScript [4].
Почему это важно? Многие продукты по обработке и визуализации данных не сервере написаны на Python. Если PyScript будет работать с хорошей производительностью, то часть задач обработки можно будет перенести в браузер и поддерживать единую кодовую базу.
Пока единственное ограничение в том что PyScript более-менее оттестирован в Chrome, но даже в Firefox'е его активно не проверяли.
Тем не менее, экспериментировать можно уже сейчас.
Ссылки:
[1] https://pyscript.net
[2] https://pyscript.net/examples/
[3] https://realpython.com/pyscript-python-in-browser/#modules-missing-from-the-python-standard-library
[4] https://medium.com/@petefison/write-chrome-extensions-in-python-6c6b0e2e1573
#opensource #python #programming
pyscript.net
PyScript is a platform for Python in the browser.
Ещё одна утилита идентифицирующая смысл данных в базах данных - catwright [1]. Авторы декларируют что используют ИИ и поддержку категорий данных времени и геоданных. Правда они называют категориями то что все остальные называют семантическими типами данных. Сейчас правил и категорий там мало, зато есть предобученная модель.
Выглядит любопытно, но, пока, не более того. Я всё же скажу что metacrafter [2] куда практичнее поскольку расширяем.
Ссылки:
[1] https://github.com/jataware/cartwright
[2] https://github.com/apicrafter/metacrafter
#opensource #datatypes #dataengineering
Выглядит любопытно, но, пока, не более того. Я всё же скажу что metacrafter [2] куда практичнее поскольку расширяем.
Ссылки:
[1] https://github.com/jataware/cartwright
[2] https://github.com/apicrafter/metacrafter
#opensource #datatypes #dataengineering
GitHub
GitHub - jataware/cartwright: A recurrent neural network paired with heuristic methods that automatically infer geospatial, temporal…
A recurrent neural network paired with heuristic methods that automatically infer geospatial, temporal and feature columns - GitHub - jataware/cartwright: A recurrent neural network paired with heu...
Полезное чтение про данные, технологии и не только:
- Your Data Catalog Shouldn’t Be Just One More UI [1] автор рассуждает о том что каталоги данных должны быть API First, построены изначально под автоматизацию работы с данными. Приводит в пример Datahub и OpenMetadata. Мои мысли с ним созвучны, только я думал о том же в форме Headless data catalog и Headless data management system.
- Visualization Tips for Data Story-Telling [2] как подбирать цвета при визуализации данных и много других советов.
- Dataclasses: Supercharge your Python code [3] классы данных, для тех кто хочет продвинутся в разработке на Python в сторону датацентричности. Классы данных хорошая штука, нехватает только ещё более удобных инструментов для маппинга их на хранилища.
- Introducing Notion AI [4] Notion обещают ИИ который будет помогать писать тексты. Таких предложений всё больше, скоро их будет какое-то пугающее количество. Когда наступит перелом, когда Google добавит похожее в Google Docs и GMail или когда Microsoft поместит это в онлайн версию MS Office?
- DuckDB — What’s the Hype About? [5] рассуждения о хайпе вокруг DuckDB. Всё по делу, главное достоинство DuckDB - это возможность работы с данными локально, и без дополнительных знаний кроме Pandas. Главное не забывать это это локальная аналитическая база не заменяющая серверные продукты.
Ссылки:
[1] https://towardsdatascience.com/your-data-catalog-shouldnt-be-just-one-more-ui-e6bffb793cf1
[2] https://medium.com/mlearning-ai/visualization-tips-for-data-story-telling-1e99cccbb8c7
[3] https://heyashy.medium.com/supercharge-your-python-code-with-dataclasses-6965ddd7fb98
[4] https://www.notion.so/product/ai
[5] https://olivermolander.medium.com/duckdb-whats-the-hype-about-5d46aaa73196
#opensource #readings #datatools #data #ai
- Your Data Catalog Shouldn’t Be Just One More UI [1] автор рассуждает о том что каталоги данных должны быть API First, построены изначально под автоматизацию работы с данными. Приводит в пример Datahub и OpenMetadata. Мои мысли с ним созвучны, только я думал о том же в форме Headless data catalog и Headless data management system.
- Visualization Tips for Data Story-Telling [2] как подбирать цвета при визуализации данных и много других советов.
- Dataclasses: Supercharge your Python code [3] классы данных, для тех кто хочет продвинутся в разработке на Python в сторону датацентричности. Классы данных хорошая штука, нехватает только ещё более удобных инструментов для маппинга их на хранилища.
- Introducing Notion AI [4] Notion обещают ИИ который будет помогать писать тексты. Таких предложений всё больше, скоро их будет какое-то пугающее количество. Когда наступит перелом, когда Google добавит похожее в Google Docs и GMail или когда Microsoft поместит это в онлайн версию MS Office?
- DuckDB — What’s the Hype About? [5] рассуждения о хайпе вокруг DuckDB. Всё по делу, главное достоинство DuckDB - это возможность работы с данными локально, и без дополнительных знаний кроме Pandas. Главное не забывать это это локальная аналитическая база не заменяющая серверные продукты.
Ссылки:
[1] https://towardsdatascience.com/your-data-catalog-shouldnt-be-just-one-more-ui-e6bffb793cf1
[2] https://medium.com/mlearning-ai/visualization-tips-for-data-story-telling-1e99cccbb8c7
[3] https://heyashy.medium.com/supercharge-your-python-code-with-dataclasses-6965ddd7fb98
[4] https://www.notion.so/product/ai
[5] https://olivermolander.medium.com/duckdb-whats-the-hype-about-5d46aaa73196
#opensource #readings #datatools #data #ai
Medium
Your Data Catalog Shouldn’t Be Just One More UI
An in-depth look into how an API-focused data catalog can help you ensure the success of your data platform via combining metadata types.
Многие следят за событиями в Twitter'е с массовыми увольнениями инженеров и руганью Элона Маска с некоторыми из них публично. Можно смотреть на это с разными эмоциями, кто-то, надеюсь меньшинство думает что "так мол им и надо зажравшимся смузеедам", а кому-то события вокруг твиттера лишь в очередной раз напоминают что чем меньше ты зависишь от централизованных платформ тем лучше.
Поэтому, мой аккаунт в Mastodon https://mastodon.world/@ibegtin где я буду время от времени писать на преимущественно на английском языке, может на каких-то ещё. Как ни странно сервера Mastodon ещё не заблокировали в России, но это же ненадолго, мы же понимаем.
На всякий случай напоминаю мой блог с длинными техническими текстами на английском языке https://medium.com/@ibegtin, рассылка в с длинными текстами на русском https://begtin.substack.com
#blogging
Поэтому, мой аккаунт в Mastodon https://mastodon.world/@ibegtin где я буду время от времени писать на преимущественно на английском языке, может на каких-то ещё. Как ни странно сервера Mastodon ещё не заблокировали в России, но это же ненадолго, мы же понимаем.
На всякий случай напоминаю мой блог с длинными техническими текстами на английском языке https://medium.com/@ibegtin, рассылка в с длинными текстами на русском https://begtin.substack.com
#blogging
Mastodon
Ivan Begtin (@[email protected])
27 Posts, 62 Following, 50 Followers · I am the founder of APICrafter startup and Infoculture NGO, and creator of open data and data engineering projects.
Интересное и познавательное чтение про то как Amazon изучал рынок блокчейна в 2016 году, но компания не стала в него вкладываться [1]. Автор, Тим Брэй, бывший вице президент Amazon тогда изучал блокчейн-стартапы, встречался с финансовыми компаниями/банками/представителями бирж и по сути изучал рынок и спрос. Изучение показало что:
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.
Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.
А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]
Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3
#technology #blockchain
1) У финансовых институтов действительно был (и есть) запрос на распределённые базы данных, цифровые подписки, продукт на основе digital ledger, без привязки к блокчейну
2) Почти все напыщенные блокчейн стартапы декларирующие соответствие регуляторным требованиям, наличие крупных клиентов и тд, по факту ничем этим не обладали.
Автор в итоге возвращается к тому что отказ инвестиций в блокчейн и связанные с ним технологии было стратегически правильно для Amazon.
А поводом для его обсуждений является новость о том что австралийская биржа, в том же 2016 году запустившая эксперимент на блокчейне и потратившая на него $165 миллионов долларов теперь от него полностью отказалась [2]
Ссылки:
[1] https://www.tbray.org/ongoing/When/202x/2022/11/19/AWS-Blockchain
[2] https://www.forbes.com/sites/michaeldelcastillo/2022/11/16/seminal-blockchain-project--goes-down-the-drain-chairman-apologizes/?sh=566b795a17d3
#technology #blockchain
Forbes
ASX Chairman Apologizes After Writing Off $165 Million Blockchain Project
Distributed ledger effort pulled after six years of development; reviews find it still doesn’t meet standards.
Свежая система раскрытия данных о госконтрактах в Пуэрто Рико Contratos En Ley [1]
Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]
Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.
Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.
Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.
Ссылки:
[1] https://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org
#opendata #contracting #procurement #usa #transparency
Включает два раздела - поиск и анализ. В поиске можно найти данные о контрактах и их исполнителе, а в анализе обзоры контрактной системы Пуэрто Рико [2]
Поиск идёт по более чем 1.5 млн записей, не так много по сравнению с другими странами, но много для Пуэрто Рико.
Данные можно выгрузить в CSV, а сам проект сделан на основе стандарта Open Contracting и на базе нескольких инструментов сбора данных с открытым кодом.
Проект развивается НКО Sembrando Sentido (Сеющий смысл) [3] хочется надеяться что открытый код они также опубликуют.
Ссылки:
[1] https://contratosenley.org/en
[2] https://bit.ly/3AqPZUz
[3] https://www.sembrandosentido.org
#opendata #contracting #procurement #usa #transparency
Суд Европейского Союза принял решение о том что раскрытие реестров бенефициаров противоречит правам человека [1]. Сейчас реестры закрыли Голландия и Люксембург, вполне возможно вскоре такая же участь последует другие открытые реестры. При этом, не могу не напомнить, что раскрытие реестров бенефициаров было официально поддержано на встрече G20 и в мире есть несколько больших инициатив в этой области, в основном родом из Великобритании. Например, Open Ownership [2].
Означает ли это что будет сложнее расследовать коррупционные схемы с участием компаний зарегистрированных в Европе? Для журналистов - скорее всего да.
Действительно, что важнее, общественный интерес или частная жизнь (бизнес) ? Лично я считаю что в данном случае интерес общества и практики проверки контрагентов перевешивают риски для человека.
Ссылки:
[1] https://delano.lu/article/court-of-justice-of-the-eu-que
[2] https://t.iss.one/begtin/4382
[3] https://openownership.org
#opendata #opengov #transparency #eu
Означает ли это что будет сложнее расследовать коррупционные схемы с участием компаний зарегистрированных в Европе? Для журналистов - скорее всего да.
Действительно, что важнее, общественный интерес или частная жизнь (бизнес) ? Лично я считаю что в данном случае интерес общества и практики проверки контрагентов перевешивают риски для человека.
Ссылки:
[1] https://delano.lu/article/court-of-justice-of-the-eu-que
[2] https://t.iss.one/begtin/4382
[3] https://openownership.org
#opendata #opengov #transparency #eu
delano.lu
EU Court of Justice questions unlimited access to RBO
The Court of Justice of the European Union (CJEU) has just published a ruling in which it considers invalid the provision of the EU anti-money laundering directive that makes information on the beneficial owners of companies public. A victory for those who…
В рубрике интересных наборов данных открытый датасет The Global Jukebox: A public database of performing arts and culture [1] как часть одноимённой научной работы посвящённой сбору, систематизации и изучению традиционных песен.
Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]
Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна
Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/
#opendata #digitalhumanities
Включает тысячи песен, открытые данные на Zenodo [2] и данные и код на Github [3], а также интерактивный сайт [4]
Прекрасный пример проекта в области цифровой гуманитаристики. Объём данных, относительно, невелик, но культурная значимость несомненна
Ссылки:
[1] https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0275469
[2] https://zenodo.org/record/6537663#.YnszmllS_BK
[3] https://github.com/theglobaljukebox
[4] https://theglobaljukebox.org/
#opendata #digitalhumanities
В рубрике интересных инструментов работы с данными Rasgo [1], интерактивный каталог данных работающий поверх Snowflake и BigQuery и в планах команды поддержать RedShift и Delta Lake. Основная идея в том что командам по работе с данными может быть сложно работать с данными в облачных хранилищах и Rasgo должен помочь им в этих задачах. Через интерактивное построние запросов и систематизацию метаданных.
Заход интересный тем что они пытаются совместить интерактивный каталог с интерактивным no-code построителем запросов к базам данных.
А также пытаются идти по пути инструментов очистки данных, оценки их качества и ещё многое другое с акцентом на команды работающие с данными в области ИИ (разработки моделей).
Непонятно что из этого выстрелит, но стоит внимания и наблюдения за их судьбой.
Продукт не на открытом коде, привлекли $20 миллионов инвестиций в июне 2021 года.
Ссылки:
[1] https://www.rasgoml.com/
#startups #data #datatools #dataengineering #datacatalogs
Заход интересный тем что они пытаются совместить интерактивный каталог с интерактивным no-code построителем запросов к базам данных.
А также пытаются идти по пути инструментов очистки данных, оценки их качества и ещё многое другое с акцентом на команды работающие с данными в области ИИ (разработки моделей).
Непонятно что из этого выстрелит, но стоит внимания и наблюдения за их судьбой.
Продукт не на открытом коде, привлекли $20 миллионов инвестиций в июне 2021 года.
Ссылки:
[1] https://www.rasgoml.com/
#startups #data #datatools #dataengineering #datacatalogs
Rasgoml
Rasgo - Generative AI for your EDW
Experience the next evolution in self-service analytics with generative AI that helps you make data-driven decisions faster.