В рубрике полезных инструментов по автоматизации визуализации данных Visprex [1] визуализация CSV файлов сразу в браузере, без передачи куда либо.
Умеет сразу несколько базовых визуализаций что полезно для небольших дата файлов.
Из минусов - это типы данных они угадывают по полям в CSV, а если бы точно также визуализировали Parquet файлы то типы там были бы уже сразу.
Вообще скажу я в вам автоматизация визуализации данных - это та ещё наука. Её активно решают с помощью LLM в последние годы и скорее всего неплохо получится решить.
Ссылки:
[1] https://github.com/visprex/visprex
#opensource #dataviz #autodataviz
Умеет сразу несколько базовых визуализаций что полезно для небольших дата файлов.
Из минусов - это типы данных они угадывают по полям в CSV, а если бы точно также визуализировали Parquet файлы то типы там были бы уже сразу.
Вообще скажу я в вам автоматизация визуализации данных - это та ещё наука. Её активно решают с помощью LLM в последние годы и скорее всего неплохо получится решить.
Ссылки:
[1] https://github.com/visprex/visprex
#opensource #dataviz #autodataviz
Оказывается вышел пре-релиз версии 6.0 библиотеки Plotly для визуализации данных [1] самое интересное там это то что они перешли на библиотеку Narwhals [2] которая позволяет работать с условно любой библиотекой для датафреймов и сохранять совместимость с pandas. Например, это такие библиотеки как: cuDF, Modin, pandas, Polars, PyArrow
Собственно и автор Plotly пишет про то что для не-pandas датафреймов всё ускоряется в 2-3 раза [3].
По всем параметрам хорошая штука, надо использовать на практике.
Ссылки:
[1] https://github.com/plotly/plotly.py/releases/tag/v6.0.0rc0
[2] https://github.com/narwhals-dev/narwhals
[3] https://www.linkedin.com/posts/marcogorelli_plotly-60-%F0%9D%90%A9%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%A5%F0%9D%90%9E%F0%9D%90%9A%F0%9D%90%AC%F0%9D%90%9E-is-out-activity-7267885615096991744-2ORl?utm_source=share&utm_medium=member_desktop
#opensource #dataviz #dataframes
Собственно и автор Plotly пишет про то что для не-pandas датафреймов всё ускоряется в 2-3 раза [3].
По всем параметрам хорошая штука, надо использовать на практике.
Ссылки:
[1] https://github.com/plotly/plotly.py/releases/tag/v6.0.0rc0
[2] https://github.com/narwhals-dev/narwhals
[3] https://www.linkedin.com/posts/marcogorelli_plotly-60-%F0%9D%90%A9%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%A5%F0%9D%90%9E%F0%9D%90%9A%F0%9D%90%AC%F0%9D%90%9E-is-out-activity-7267885615096991744-2ORl?utm_source=share&utm_medium=member_desktop
#opensource #dataviz #dataframes
Graphic Walker [1] ещё один симпатичный инструмент для анализа и визуализации данных позиционируемый как альтернатива Tableau.
На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.
Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR
#opensource #dataviz #dataanalysis
На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.
Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR
#opensource #dataviz #dataanalysis
В рубрике полезного чтения про данные, технологии и не только:
- Dismantling ELT: The Case for Graphs, Not Silos [1] размышления автора о том что такое ELT с точки зрения данных которые являются графом. Он там постоянно ссылается на закон Конвея «организации проектируют системы, которые копируют структуру коммуникаций в этой организации» и про необходимость изменения отношения к тому как данные обрабатываются.
- 7 Databases in 7 Weeks for 2025 [2] автор рассказывает о том почему стоит изучить такие базы данных как PostgreSQL, SQlite, DuckDB, Clickhouse, FoundationDB, TigerBeetle и CockroachDB. Подборка хорошая, стоит изучить
- reactable-py [3] код для быстрой визуализации датафреймов. Мне он чем то напомнил проект Datasette [4], но очень отдалённо. Удобно тем что хорошо встраивается в веб страницу и может быть полезно в дата сторителлинге.
- Field Boundaries for Agriculture (fiboa) [5] малоизвестный пока что проект по сбору наборов данных и инструментов для создания данных в сельском хозяйстве, конкретно в определении границ участков. Сами данные публикуют в Source Cooperative, каталоге больших геоданных [6]
- Common Operational Datasets [7] [8] [9] общие операционные наборы достоверных данных необходимые для принятия решений. Термин UN OCHA определяющий ключевые данные необходимые для противодействия стихийным бедствиям. Чем то напоминает концепцию high-value datasets используемую в Евросоюзе.
Ссылки:
[1] https://jack-vanlightly.com/blog/2024/11/26/dismantling-elt-the-case-for-graphs-not-silos
[2] https://matt.blwt.io/post/7-databases-in-7-weeks-for-2025/
[3] https://machow.github.io/reactable-py/get-started/index.html
[4] https://datasette.io
[5] https://github.com/fiboa
[6] https://source.coop/
[7] https://cod.unocha.org
[8] https://data.humdata.org/event/cod/
[9] https://humanitarian.atlassian.net/wiki/spaces/imtoolbox/pages/42045911/Common+Operational+Datasets+CODs
#opendata #opensource #readings #dataviz #dataframes
- Dismantling ELT: The Case for Graphs, Not Silos [1] размышления автора о том что такое ELT с точки зрения данных которые являются графом. Он там постоянно ссылается на закон Конвея «организации проектируют системы, которые копируют структуру коммуникаций в этой организации» и про необходимость изменения отношения к тому как данные обрабатываются.
- 7 Databases in 7 Weeks for 2025 [2] автор рассказывает о том почему стоит изучить такие базы данных как PostgreSQL, SQlite, DuckDB, Clickhouse, FoundationDB, TigerBeetle и CockroachDB. Подборка хорошая, стоит изучить
- reactable-py [3] код для быстрой визуализации датафреймов. Мне он чем то напомнил проект Datasette [4], но очень отдалённо. Удобно тем что хорошо встраивается в веб страницу и может быть полезно в дата сторителлинге.
- Field Boundaries for Agriculture (fiboa) [5] малоизвестный пока что проект по сбору наборов данных и инструментов для создания данных в сельском хозяйстве, конкретно в определении границ участков. Сами данные публикуют в Source Cooperative, каталоге больших геоданных [6]
- Common Operational Datasets [7] [8] [9] общие операционные наборы достоверных данных необходимые для принятия решений. Термин UN OCHA определяющий ключевые данные необходимые для противодействия стихийным бедствиям. Чем то напоминает концепцию high-value datasets используемую в Евросоюзе.
Ссылки:
[1] https://jack-vanlightly.com/blog/2024/11/26/dismantling-elt-the-case-for-graphs-not-silos
[2] https://matt.blwt.io/post/7-databases-in-7-weeks-for-2025/
[3] https://machow.github.io/reactable-py/get-started/index.html
[4] https://datasette.io
[5] https://github.com/fiboa
[6] https://source.coop/
[7] https://cod.unocha.org
[8] https://data.humdata.org/event/cod/
[9] https://humanitarian.atlassian.net/wiki/spaces/imtoolbox/pages/42045911/Common+Operational+Datasets+CODs
#opendata #opensource #readings #dataviz #dataframes
Jack Vanlightly
Dismantling ELT: The Case for Graphs, Not Silos — Jack Vanlightly
ELT is a bridge between silos. A world without silos is a graph. I’ve been banging my drum recently about the ills of Conway’s Law and the need for low-coupling data architectures. In my Curse of Conway and the Data Space blog post, I explored how Conway’s…
Ещё один симпатичный движок для индексирования и поиска текста SeekStorm [1] умеет искать по тексту на разных языках, по скорости сравним с MeiliSearch, обещают многоязычность и внутри всё написано на Rust.
В примерах есть поиск по большим коллекциям PDF файлов, должен быть удобен для поиска, например, по базам научных статей которые почти всегда в PDF.
Можно попробовать с его помощью проиндексировать много миллионов документов. Десятки миллионов документов!
Но надо тестировать чтобы понять как он умеет инкрементально обрабатывать документов, сколько потребляет ресурсов и тд.
Ссылки:
[1] https://github.com/SeekStorm/SeekStorm
[2] https://deephn.org/?q=Data+indexing
#opensource #dataengineering
В примерах есть поиск по большим коллекциям PDF файлов, должен быть удобен для поиска, например, по базам научных статей которые почти всегда в PDF.
Можно попробовать с его помощью проиндексировать много миллионов документов. Десятки миллионов документов!
Но надо тестировать чтобы понять как он умеет инкрементально обрабатывать документов, сколько потребляет ресурсов и тд.
Ссылки:
[1] https://github.com/SeekStorm/SeekStorm
[2] https://deephn.org/?q=Data+indexing
#opensource #dataengineering
Тем временем Amazon анонсировали S3 Tables [1], возможность работать с данными таблиц которые хранятся в S3, но работа с ними как с дата файлами и через SQL запросы. Внутри этого всего движок поддерживающий Apache Iceberg, относительно новый открытый формат хранения и распространения таблиц внутри которого файлы Parquet и ассоциированные с ними метаданныею
Много где пишут что такой продукт может подорвать бизнес крупнейших игроков рынка облачной дата аналитики и хранения Databricks и Snowflake [2], цена, как и у всех AWS продуктов, будет сложная, но похоже что честная за такой сервис.
Правда, по личному опыту могу сказать что использование облачных сервисов Amazon это удобно, но всегда влетает в копеечку. На эту тему бесконечное число мемов и даже стартапы есть оптимизирующие облачное использование.
Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/
[2] https://meltware.com/2024/12/04/s3-tables.html
#opensource #dataengineering #amazon #aws
Много где пишут что такой продукт может подорвать бизнес крупнейших игроков рынка облачной дата аналитики и хранения Databricks и Snowflake [2], цена, как и у всех AWS продуктов, будет сложная, но похоже что честная за такой сервис.
Правда, по личному опыту могу сказать что использование облачных сервисов Amazon это удобно, но всегда влетает в копеечку. На эту тему бесконечное число мемов и даже стартапы есть оптимизирующие облачное использование.
Ссылки:
[1] https://aws.amazon.com/ru/blogs/aws/new-amazon-s3-tables-storage-optimized-for-analytics-workloads/
[2] https://meltware.com/2024/12/04/s3-tables.html
#opensource #dataengineering #amazon #aws
Amazon
New Amazon S3 Tables: Storage optimized for analytics workloads | Amazon Web Services
Amazon S3 Tables optimize tabular data storage (like transactions and sensor readings) in Apache Iceberg, enabling high-performance, low-cost queries using Athena, EMR, and Spark.
Полезные ссылки про данные, технологии и не только:
- The DuckDB Avro Extension [1] новое расширение для DuckDB для поддержки формата файлов Apache Avro. Не то чтобы Avro часто встречается в дикой природе, но во многих корпоративных стеках данных он есть и хорошо что к нему есть расширение. Заодно полезное чтение про внутреннее устройство и специфику этого формата.
- Prototype Fund: a successful story of project replication within the Open Knowledge Network [2] в блоке Open Knowledge Foundation видео с рассказом про Prototype Fund в Германии и Швейцарии. Это специальный фонд для поддержки проектов с открытым кодом, про открытые данные и вообще про технологические аспекты открытости (например, стандарты) в контексте цифровой общей инфраструктуры. Иначе говоря поддержка открытых проектов создаваемых для общественного блага. Жаль этот опыт трудновоспроизводим.
- The History of the Decline and Fall of In-Memory Database Systems [3] приятный текст про "взлет и падение" баз данных работавших только в памяти и о том почему почти все СУБД вернулись к модели постоянного хранения. Спойлер:потому что цены гигабайт на SSD падают быстрее чем цены за гигабайт RAM
- Researchers achieve 96% accuracy in detecting phishing emails with open-source AI [4] вот полезное применение LLM, ловить фишинговые письма. Правда, сдаётся мне что есть способы и попроще, но и этот весьма неплох. Причём 95% точности достигается довольно легковесной моделью, а 96% уже с существенно большими требованиями
- An Open Source Python Library for Anonymizing Sensitive Data [5] статья об анонимизации данных и открытой библиотеке авторов о том как ей пользоваться.
Ссылки:
[1] https://duckdb.org/2024/12/09/duckdb-avro-extension
[2] https://blog.okfn.org/2024/12/05/prototype-fund-a-successful-story-of-project-replication-within-the-open-knowledge-network/
[3] https://cedardb.com/blog/in_memory_dbms/
[4] https://the-decoder.com/researchers-achieve-96-accuracy-in-detecting-phishing-emails-with-open-source-ai/
[5] https://www.nature.com/articles/s41597-024-04019-z
#opensource #ai #rdbms #readings
- The DuckDB Avro Extension [1] новое расширение для DuckDB для поддержки формата файлов Apache Avro. Не то чтобы Avro часто встречается в дикой природе, но во многих корпоративных стеках данных он есть и хорошо что к нему есть расширение. Заодно полезное чтение про внутреннее устройство и специфику этого формата.
- Prototype Fund: a successful story of project replication within the Open Knowledge Network [2] в блоке Open Knowledge Foundation видео с рассказом про Prototype Fund в Германии и Швейцарии. Это специальный фонд для поддержки проектов с открытым кодом, про открытые данные и вообще про технологические аспекты открытости (например, стандарты) в контексте цифровой общей инфраструктуры. Иначе говоря поддержка открытых проектов создаваемых для общественного блага. Жаль этот опыт трудновоспроизводим.
- The History of the Decline and Fall of In-Memory Database Systems [3] приятный текст про "взлет и падение" баз данных работавших только в памяти и о том почему почти все СУБД вернулись к модели постоянного хранения. Спойлер:
- Researchers achieve 96% accuracy in detecting phishing emails with open-source AI [4] вот полезное применение LLM, ловить фишинговые письма. Правда, сдаётся мне что есть способы и попроще, но и этот весьма неплох. Причём 95% точности достигается довольно легковесной моделью, а 96% уже с существенно большими требованиями
- An Open Source Python Library for Anonymizing Sensitive Data [5] статья об анонимизации данных и открытой библиотеке авторов о том как ей пользоваться.
Ссылки:
[1] https://duckdb.org/2024/12/09/duckdb-avro-extension
[2] https://blog.okfn.org/2024/12/05/prototype-fund-a-successful-story-of-project-replication-within-the-open-knowledge-network/
[3] https://cedardb.com/blog/in_memory_dbms/
[4] https://the-decoder.com/researchers-achieve-96-accuracy-in-detecting-phishing-emails-with-open-source-ai/
[5] https://www.nature.com/articles/s41597-024-04019-z
#opensource #ai #rdbms #readings
Forwarded from Национальный цифровой архив
Для тех кто работает с архивами сайтов в формате WARC свежий инструмент WARC-GPT [1] по исследованию содержимого WARC файлов с использованием большой языковой модели (ИИ).
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
С открытым кодом [2] и примерами. Для проверки можно взять их тестовый датасет, скачать из Руархива (ruarxive.org) или создать самостоятельно с помощью wget или wpull.
Ссылки:
[1] https://lil.law.harvard.edu/blog/2024/02/12/warc-gpt-an-open-source-tool-for-exploring-web-archives-with-ai/
[2] https://github.com/harvard-lil/warc-gpt
#opensource #digitalpreservation #ai #webarchives
Для настоящих фанатов работы с командной строкой переосмысление работы с оболочками/терминалами в виде Wave Terminal [1] проекта с открытым кодом для который, с одной стороны даёт возможность работать с несколькими сессиями командной строки, а с другой позволяет организовывать пространство в виде виджетов. Сейчас эти виджеты включают:
- окно терминала
- системная информация по нагрузке памяти и CPU в реальном времени
- папки с файлами
- диалоговое окно с чатботом
- окно браузера
Для Windows прозрачная интеграция с WSL и дистанционным подключением к серверам, для других OS пока не пробовал.
Ко всему ещё и под открытой лицензией, в общем-то для тех кто живёт командной строкой не продукт, а мечта. Хотя я лично для W10 и W11 давно привык к Windows Terminal [2], но этот продукт может его потеснить потому что выглядит неплохо.
И, сразу понятно как создатели могут монетизировать такой продукт:
- виджеты для дистанционного подключения к Grafana, Prometheus, Datadog, Newrelic и тд.
- сервис взаимодействия с чат ботами через свои сервера с возможностью переключения на разные AI модели, собственно это уже проксируется через них для одной модели, просто пока денег за это не берут
- интеграция с дата инженерными платформами, базами данных и тд. где есть конвееры и нагрузка на ресурсы
При этом всё настраивается через файлы конфигурации и инструменты командной строки, организуется в рабочие пространства и можно создать рабочее пространство под конкретный проект, для работы, для работы с домашними устройствами и так далее.
Для дистанционной отладки продуктов и для операций DataOps и DevOps может быть весьма полезной прикладной штукой
Ссылки:
[1] https://github.com/wavetermdev/waveterm
[2] https://github.com/microsoft/terminal
#opensource #commandline
- окно терминала
- системная информация по нагрузке памяти и CPU в реальном времени
- папки с файлами
- диалоговое окно с чатботом
- окно браузера
Для Windows прозрачная интеграция с WSL и дистанционным подключением к серверам, для других OS пока не пробовал.
Ко всему ещё и под открытой лицензией, в общем-то для тех кто живёт командной строкой не продукт, а мечта. Хотя я лично для W10 и W11 давно привык к Windows Terminal [2], но этот продукт может его потеснить потому что выглядит неплохо.
И, сразу понятно как создатели могут монетизировать такой продукт:
- виджеты для дистанционного подключения к Grafana, Prometheus, Datadog, Newrelic и тд.
- сервис взаимодействия с чат ботами через свои сервера с возможностью переключения на разные AI модели, собственно это уже проксируется через них для одной модели, просто пока денег за это не берут
- интеграция с дата инженерными платформами, базами данных и тд. где есть конвееры и нагрузка на ресурсы
При этом всё настраивается через файлы конфигурации и инструменты командной строки, организуется в рабочие пространства и можно создать рабочее пространство под конкретный проект, для работы, для работы с домашними устройствами и так далее.
Для дистанционной отладки продуктов и для операций DataOps и DevOps может быть весьма полезной прикладной штукой
Ссылки:
[1] https://github.com/wavetermdev/waveterm
[2] https://github.com/microsoft/terminal
#opensource #commandline
В рубрике интересных каталогов данных я ранее писал про WIS 2.0 движок от Всемирной метеорологической организации (WMO) по сбору стандартизированных данных о погоде [1]. Но это относительно новый продукт, ведь большое число стран интегрировано с системами WMO и без него. И делают они это, не все но многие, с помощью другого продукта который называется OpenWIS [2].
Это продукт с открытым кодом созданный в The OpenWIS Association AISBL через кооперацию более чем десятка стран.
На базе OpenWIS работают порталы с данными о погоде в России [3], Таиланде [4], Индонезии [5], Южной Корее [6] и многих других странах.
Внутри OpenWIS форк продукта Geonetwork, специализированного каталога метаданных используемого для публикации и поиска по пространственным данным. Поскольку у Geonetwork много открытых API и интерфейсов то к этим порталам можно подключится даже когда их веб интерфейсы закрыты паролями. Например, у российской инсталляции OpenWIS открытое API по стандарту OAI-PMH [7] и, скорее всего и другие тоже есть.
Код OpenWIS не развивается уже несколько лет, явно постепенно метеорологические агентства будут переходить на WIS 2.0 и на другие решения, тем не менее эти порталы это тоже каталоги данных. В реестре каталогов Dateno их пока нет, кроме портала OpenWIS в Таиланде, который был идентифицирован как экземпляр Geonetwork хотя, правильнее всё же будет определять OpenWIS как отдельный тип каталогов данных.
С одной стороны данных в этих каталогах данных немного, сотни слоёв карт, максимум, а с другой стороны их сбор не требует сверхусилий и рано или поздно они появятся в поиске Dateno.
Ссылки:
[1] https://t.iss.one/begtin/5972
[2] https://github.com/OpenWIS/openwis
[3] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/main.home
[4] https://wis.tmd.go.th/openwis-user-portal/srv/en/main.home
[5] https://wis.bmkg.go.id/openwis-user-portal/srv/en/about.home
[6] https://dcpc.nmsc.kma.go.kr/openwis-user-portal/srv/en/main.home
[7] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/oaipmh?verb=Identify
#opendata #datacatalogs #data #meteorology #opensource
Это продукт с открытым кодом созданный в The OpenWIS Association AISBL через кооперацию более чем десятка стран.
На базе OpenWIS работают порталы с данными о погоде в России [3], Таиланде [4], Индонезии [5], Южной Корее [6] и многих других странах.
Внутри OpenWIS форк продукта Geonetwork, специализированного каталога метаданных используемого для публикации и поиска по пространственным данным. Поскольку у Geonetwork много открытых API и интерфейсов то к этим порталам можно подключится даже когда их веб интерфейсы закрыты паролями. Например, у российской инсталляции OpenWIS открытое API по стандарту OAI-PMH [7] и, скорее всего и другие тоже есть.
Код OpenWIS не развивается уже несколько лет, явно постепенно метеорологические агентства будут переходить на WIS 2.0 и на другие решения, тем не менее эти порталы это тоже каталоги данных. В реестре каталогов Dateno их пока нет, кроме портала OpenWIS в Таиланде, который был идентифицирован как экземпляр Geonetwork хотя, правильнее всё же будет определять OpenWIS как отдельный тип каталогов данных.
С одной стороны данных в этих каталогах данных немного, сотни слоёв карт, максимум, а с другой стороны их сбор не требует сверхусилий и рано или поздно они появятся в поиске Dateno.
Ссылки:
[1] https://t.iss.one/begtin/5972
[2] https://github.com/OpenWIS/openwis
[3] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/main.home
[4] https://wis.tmd.go.th/openwis-user-portal/srv/en/main.home
[5] https://wis.bmkg.go.id/openwis-user-portal/srv/en/about.home
[6] https://dcpc.nmsc.kma.go.kr/openwis-user-portal/srv/en/main.home
[7] https://meta.gisc-msk.wis.mecom.ru/openwis-portal/srv/en/oaipmh?verb=Identify
#opendata #datacatalogs #data #meteorology #opensource