Ivan Begtin
7.98K subscribers
1.85K photos
3 videos
101 files
4.56K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Подборка полезных ссылок про данные, технологии и не только:
- drawdb [1] визуальное проектирование баз данных и SQL генератор на базе draw.io. Открытый код на JS, лицензия MIT. Выглядит очень даже неплохо
- quickwit [2] альтернатива Datadog и подобным сервисам, но с открытым кодом. Реализует поисковую систему для наблюдаемости процессов. Лицензия AGPL или коммерческая, для бизнеса. Выглядит как минимум интересно, очередной пример YAML программирования, огромного числа файлов для настройки.
- paradedb [3] альтернатива Elasticsearch на базе Postgres, обещают что внутри файлы parquet и многократно выше скорость аналитических запросов. Обещают облачный сервис, пока доступен open source продукт. Лицензия AGPL для всех и коммерческая для бизнеса.
- traefik [4] реверсный прокси для HTTP для развертывания микросервисов и API, похож на альтернативу Kong и Tyk. Открытый код под MIT лицензией

Ссылки:
[1] https://github.com/drawdb-io/drawdb
[2] https://github.com/quickwit-oss/quickwit
[3] https://github.com/paradedb/paradedb
[4] https://github.com/traefik/traefik

#opensource #data #datatools #api #dataviz
В рубрике *как это работает у них* Национальная карта Австралии [1] позволяет отображать более 13 тысяч наборов геоданных из сотен каталогов данных и геосерверов по всей стране. А также позволяет загружать собственные наборы данных и работать с ними на карте. Поддерживает слои по стандартам OGC (WMS, WFS и др.), слои ArcGIS серверов, порталы данных Socrata, OpenDataSoft, файлы GeoJSON и ещё много чего другого.

Внутри работает на открытом исходном коде TerriaJS [2] созданном командой Data61 [3] национального агентства CSIRO и развиваемом под лицензией Apache 2.0 [4].

Кроме национального портала в Австралии и других странах на базе этого движка существует больше геопорталов, например, таких как:
- Portale del suolo в Италии [5]
- Digital Earth Africa Map [6]
- Digital Earth Australia Map [7]
и многие другие.

А также карта визуализации данных не геоплатформе открытых государственных геоданных США GeoPlatform.gov [8].

TerriaJS и построенные на основе этого фреймворка проекты можно отнести к успешным примерам создания и внедрения открытого исходного кода профинансированного государством. А также примером повторного использования кода созданного по заказу правительств одних стран, другими странами.

Ссылки:
[1] https://nationalmap.gov.au
[2] https://terria.io
[3] https://data61.csiro.au
[4] https://github.com/TerriaJS/terriajs
[5] https://www.sardegnaportalesuolo.it/webgis/
[6] https://maps.digitalearth.africa/
[7] https://maps.dea.ga.gov.au/
[8] https://terriamap.geoplatform.gov/


#opendata #geodata #spatial #dataviz #data #australia #opensource
This media is not supported in your browser
VIEW IN TELEGRAM
Свежий любопытный инструмент для автоматизации работы аналитика: Thread [1], автоматизирует Jupyter Notebook с помощью API OpenAI, позволяет автозаполнять таблицы, генерировать код и визуализацию.

Выглядит симпатично, для многих задач это просто полезно. Как минимум хорошо ускоряет работу опытных аналитиков.

Автор явно создал движок под облачный стартап где такое будет из коробки.

И да, открытый код под лицензией AGPL3. Кстати явный видный тренд применения GPL/AGPL в современном исходном коде, но не от идеалов FSF, а именно для того чтобы не ограничивать себя в создании стартапа и бизнеса, но ограничивать в этом всех остальных.

Ссылки:
[1] https://github.com/squaredtechnologies/thread

#opensource #ai #analytics #dataviz #jupyter
Свежая бесплатная полезная книга
Visualization for Public Involvement [1] про визуализацию инфраструктурных проектов для упрощения принятия решений, в том числе с вовлечением граждан. Вся книга построена вокруг транспортных проектов и примеров их визуализации департаментами транспорта в штатах США. Она в меньшей степени про работу с данными как с данными и в большей степени про визуализацию для нетехнических специалистов, но сложным образом, с 3D моделированием и тд. и про то как это позволяет вовлекать их в принятие решений.

Ссылки:
[1] https://nap.nationalacademies.org/catalog/27882/visualization-for-public-involvement

#dataviz #transport
В качестве примера интерактивной визуально насыщенной инфографики свежее видео Стива Баллмера, бывшего главы Microsoft, про бюджет США [1]. Для тех кто не может посмотреть видео на Youtube я специально сделал набор скриншотов.

Рассказывает и показывает он весьма наглядно, не вдаваясь в идеи как менять ситуацию с растущим долгом и лишь указывая на факты.

Честно говоря я не знаю его политических целей, они наверняка есть в таком проекте, но сам проект USAFacts весьма любопытный, хотя и малоизвестный широкой публике.

Ссылки:
[1] https://usafacts.org/just-the-facts/budget/

#budget #government #usa #dataviz #infographics
Городские дашборды Гонконга [1] из плюсов выглядят довольно неплохо, из минусов данные не обновляли с февраля 2024 г. Интегрированы с национальным порталом открытых данных [2] где много разных данных и API.

В восточной и юго-восточной азии, в принципе, популярны городские и страновые дашборды, но всё время остаётся ощущение что они какой-то эксперимент.

Ссылки:
[1] https://dashboard.data.gov.hk/city-at-a-glance
[2] https://data.gov.hk/tc/

#opendata #data #hongkong #dashboards #dataviz
Для тех кто любит визуализировать данные нестандартными способами, сайт Printing Money [1] с визуализацией доходов или расходов, в общем, денег в час в виде напечатанных долларов. Начинает с минимальной оплаты труда, заканчивает военными расходами США и дефицитом бюджета США. Скриншот не отражает движения, лучше смотреть на сайте, а видео не прилагаю потому что файл видео или GIF получаются слишком большими.

Интересная задумка, применима не только к деньгам.

Ссылки:
[1] https://neal.fun/printing-money/

#dataviz
Пишут что Looker, сервис от Google более не работает в России для российских аккаунтов. Я сам проверить никак не могу, мой аккаунт там к РФ не был привязан, но если у вас такой есть, то проверьте на всякий случай. Всё таки Looker был и остаётся весьма качественным продуктом по визуализации данных.

#sanctions #russia #dataviz
Любопытное про визуализацию индикаторов. Смотрю публикацию в блоге World Bank с данными по их индексу бедности, замене индекса Gini [1] и она по умолчанию бинарная. Условно: всё плохо и всё не так уж плохо. Там же в той же визуализации есть возможность посмотреть детализированную раскладку по странам, но что-то есть в донесении знаний в виде двух визуализаций: простой и посложнее. Сделано всё это несложно и визуализировано популярными инструментами, вопрос самого подхода. Вначале быстрое послание, потом развернутое.

Второй пример - это рейтинг/индекс WJP Rule of Law Index. Там не все страны, например, Армении нет, но можно посмотреть на примере России [2], весьма любопытный способ визуализации позиций в индексе и многочисленных субиндексах. Создатели явно вложились в визуализацию и интерактивность, можно рассматривать как хороший пример таких визуализаций. Я вот этих индексов перевидал уже под сотню и хорошая подача - это всегда интересно.

А заодно можно увидеть как со стороны оценивают текущую открытость данных и законов в РФ. Оценивают, как ни странно, выше чем некоторые европейские страны. Впрочем тут важно помнить что в в 2021 г. Россия по открытости гос-ва была на 41 месте, в 2022 - тоже на 41, в 2023 на 42, а в 2024 на 47.

Впрочем, возвращаясь к визуализации, жаль что сайт у них не с открытым кодом.

Вообще все эти международные страновые рейтинги почти все можно было бы упаковать в один типовой движок, но почти все они про привлечение внимание и активно развиваются в части интерактивности и визуализации. Так что новые примеры посмотреть всегда любопытно.

Ссылки:
[1] https://blogs.worldbank.org/en/opendata/inside-the-world-bank-s-new-inequality-indicator--the-number-of-
[2] https://worldjusticeproject.org/rule-of-law-index/country/2024/Russian%20Federation
[3] https://worldjusticeproject.org/rule-of-law-index/factors/2024/Russian%20Federation/Open%20Government

#opendata #opengovernment #dataviz
В рубрике интересных каталогов и поисковиков по данным проект WorldEx [1] каталог данных и поисковик геоданных привязанных к хексагонам.

Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.

Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.

Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.

Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.

Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex

#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
Подборка ссылок про данные, технологии и не только:
- OpenSeaMap [1] аналог OpenStreetMap для морей, открытая краудсорсинговая карта морей и морской инфраструктуры. Нигде не видел сравнений масштабов проекта с коммерческими, но может быть есть шанс повторить судьбу OSM ?
- Data Formulator [2] инструмент по автоматизации визуализации данных с помощью ИИ. Создан исследователями из Microsoft в рамках научной работы. Впервые опубликовали в январе 2024, а в октябре добавили возможность запускать его локально
- 30DayMapChallenge [3] глобальный конкурс для GIS специалистов с ежедневными задачками по визуализации геоданных. В этот раз задачки на ноябрь 2024. Для тех кто хочет показать что умеет визуализировать данные - это очень хороший конкурс чтобы показать себе и другим уровень своих навыков.
- A Business Analyst’s Introduction to Business Analytics [4] книга по бизнес аналитике в открытом доступе. Все примеры на языке R, для тех кто интересуется первым и знает второе - самое оно.
- First aid for figures [5] добротная подборка ресурсов о том как учёным лучше оформлять их работы, научные иконки для замены текстов, оформление таблиц, оформление изображений и тд.
- Chart.css [6] один из самых простых инструментов рисования графиков с помощью элементов HTML и CSS стилей. Поддерживает много видов графиков, очень просто настраивается и очень легковесен.
- A vision for public sector data in Scotland [7] в Шотландии моделируют стратегию региона по работе с госданными. Для этого там создали группу экспертов из 30 человек и под названием Horizon Scan Group после чего те разработали вот такой документ долгосрочного видения
- Using Rust in Non-Rust Servers to Improve Performance [8] большой гайд о том как оптимизировать выполнение задач с помощью Rust для проектов не на Rust. Ваш код медленно работает? Так его можно переписать на Rust, во много как альтернатива переписывания его на C++.

Ссылки:
[1] https://openseamap.org
[2] https://github.com/microsoft/data-formulator
[3] https://30daymapchallenge.com/
[4] https://www.causact.com/
[5] https://helenajamborwrites.netlify.app/posts/24-10_linkcollection/
[6] https://chartscss.org/
[7] https://community.thedatalab.com/news/2187703
[8] https://github.com/pretzelhammer/rust-blog/blob/master/posts/rust-in-non-rust-servers.md

#opensource #gis #dataviz #opendata
Кстати, я вот не обращал внимание, а сегодня обнаружил что Datalens [1] существует как open source продукт.

И сразу много вопросов к залу.

Есть ли кто-то кто развертывал его в корпоративной сети или в облаке? Есть ли какие-то зависимости от чужих сервисов или можно использовать хоть в полностью закрытой сети?

И ещё вопрос, кем теперь будет развиваться этот продукт, Яндексом или Nebius ?

Есть задачи где нужны похожие BI и хочется понять стоит ли развертывать локально и экспериментировать с Datalens.

Ссылки:
[1] https://datalens.tech

#opensource #dataviz
В рубрике полезных инструментов по автоматизации визуализации данных Visprex [1] визуализация CSV файлов сразу в браузере, без передачи куда либо.

Умеет сразу несколько базовых визуализаций что полезно для небольших дата файлов.

Из минусов - это типы данных они угадывают по полям в CSV, а если бы точно также визуализировали Parquet файлы то типы там были бы уже сразу.

Вообще скажу я в вам автоматизация визуализации данных - это та ещё наука. Её активно решают с помощью LLM в последние годы и скорее всего неплохо получится решить.

Ссылки:
[1] https://github.com/visprex/visprex

#opensource #dataviz #autodataviz
Оказывается вышел пре-релиз версии 6.0 библиотеки Plotly для визуализации данных [1] самое интересное там это то что они перешли на библиотеку Narwhals [2] которая позволяет работать с условно любой библиотекой для датафреймов и сохранять совместимость с pandas. Например, это такие библиотеки как: cuDF, Modin, pandas, Polars, PyArrow

Собственно и автор Plotly пишет про то что для не-pandas датафреймов всё ускоряется в 2-3 раза [3].

По всем параметрам хорошая штука, надо использовать на практике.

Ссылки:
[1] https://github.com/plotly/plotly.py/releases/tag/v6.0.0rc0
[2] https://github.com/narwhals-dev/narwhals
[3] https://www.linkedin.com/posts/marcogorelli_plotly-60-%F0%9D%90%A9%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%AB%F0%9D%90%9E%F0%9D%90%A5%F0%9D%90%9E%F0%9D%90%9A%F0%9D%90%AC%F0%9D%90%9E-is-out-activity-7267885615096991744-2ORl?utm_source=share&utm_medium=member_desktop

#opensource #dataviz #dataframes
Graphic Walker [1] ещё один симпатичный инструмент для анализа и визуализации данных позиционируемый как альтернатива Tableau.

На его основе работает GWalkR [2] инструмент для Exploratory Data Analysis (EDA) на языке R что хорошо встраивается в R Notebook и иные встроенные способы визуализации.

Ссылки:
[1] https://github.com/Kanaries/graphic-walker
[2] https://github.com/Kanaries/GWalkR

#opensource #dataviz #dataanalysis