Ivan Begtin
7.99K subscribers
1.88K photos
3 videos
101 files
4.58K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts [email protected]
Download Telegram
Полезное чтение про данные:
- дорожная карта развития dbt до 2023 года [1]. Главное, конечно, поддержка моделей на Python. Очень надеюсь что работать с NoSQL данными с помощью dbt станет куда проще.
- труба данных от Stripe [2], можно данные о платежах теперь получать напрямую в свой data warehouse. Довольно интересный подход и стратегия. Не подключать внешние ELT/ETL а самим складывать в базу клиента. Если такое будет развиваться, то весь ландшафт продуктов на данных поменяется.
- batch or stream [3] о том как работать с данными, выгрузками или потоками. Интересные размышления
- State of Workflow Orchestration 2022 [4] доклад о управлении потоками задач и данных. Много любопытного, я из него узнал про Temporal [5], движке для задач с JS внутри. Из минусов - читая доклад можно подумать что движков всего 5-6, а это совсем не так

Ссылки:
[1] https://github.com/dbt-labs/dbt-core/blob/main/docs/roadmap/2022-05-dbt-a-core-story.md
[2] https://stripe.com/en-gb-fr/data-pipeline
[3] https://medium.com/@bdjidi/batch-or-stream-8627b2cd9031
[4] https://www.prefect.io/lp/gradientflow/
[5] https://temporal.io

#datatools #datengineering #opensource #reading
Для тех кто ищет бесплатные и открытые инструменты для работы с данными, любопытный инструмент VDK (Versatile Data Kit) от Vmware [1].

Это малоизвестная альтернатива Meltano или Dagster для извлечения и обработки данных. Чем-то похоже на dbt, но не такое проработанное.

Построено вокруг обработки данных в SQL источниках, ИМХО, достоинством может быть только большая простота чем у dbt в связке с одним из дата оркестраторов. Написано всё на Python.

Не могу сказать что я до конца понимаю в чём магия именно этого инструмента, но команда у него активная, код активно разрабатывается, документацию пишут, может быть и вырастет что-то неожиданно полезное.

P.S. Я стараюсь не лениться и когда нахожу какой-то инструмент который имеет открытый код на Github то вношу его в один из личных списков таких как: Data catalogs, Data pipelines, Data transformation, Data tools и так далее. Если хотите их видеть то они собраны на странице [2] и можно подписаться на то чтобы видеть их обновления зафолловив меня на Github

Ссылки:
[1] https://github.com/vmware/versatile-data-kit
[2] https://github.com/ivbeg?tab=stars

#opensource #datatools #datengineering