Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from 5 minutes of data
Bruine

Если бы у dbt, Airbyte и Great Expectations был ребенок, то это был бы Bruine.

End-to-end data framework, который покрывает весь цикл работы с данными: от загрузки до трансформации и проверки качества.

🌟 Что умеет Bruine (документация):

📥 Загрузка данных через Ingestr - мощный инструмент для ETL процессов

🔄 Гибкие трансформации на Python и SQL с поддержкой разных платформ

📊 Продвинутая материализация таблиц/view и поддержка инкрементальных обновлений

🐍 Изолированные Python-окружения на базе uv для безопасного выполнения кода

Встроенная система проверки качества данных

📝 Поддержка Jinja-шаблонов для DRY-подхода в разработке

🔍 Предварительная проверка пайплайнов через dry-run

💡 Бонус: Есть удобное расширение для VS Code!
⚡️ Написан на Go для максимальной производительности

Подробнее про компонент Ingestr можно почитать в моем предыдущем посте: тык
Я тут подумал, что нужно сделать, если вдруг начнётся нашествие LLM на прогеров.

План такой: те, кто пострадал, генерируют кучу нерабочего и ошибочного кода. LLM постепенно переобучивается и начинает сама себя уничтожать.

Компании массово отказываются от LLM в ключевых процессах и нанимают втридорога разрабов обратно 😇

------‐-------------------

А если серьёзно - вот курс по LLM (бесплатно, но на инглише) https://github.com/mlabonne/llm-course
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium

Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.

Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.


https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium

Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.

Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.


https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Do you have a Kimball mart and wonder how to add Data Vault as enterprise DW?
This brilliant article by Patrick Cuba is a gold mine for that. From landing, staging, and autonomous loader for hub, link and sat. Test automation, point-in-time (PIT) and finally the data mart. Only need 10 mins of your time to go through those important concepts. Create data pipeline on Snowflake using Stream and Task. Go on, you do want to know that right? Click here: https://lnkd.in/eHpb5n7B
Even if you build your Data Vault on Databricks you'll still learn a lot from this.
Thank you Patrick for writing this.
Forwarded from Yandex Cloud
Подводим итоги 2024 года

Шахматы — наша новогодняя тема: точные ходы и продуманные стратегии вдохновляют команду Yandex Cloud на новые достижения.

Подобно гроссмейстерам мы продолжаем расти и развивать бизнес, помогаем клиентам и партнёрам становиться сильными фигурами на рынке, а разработчикам создавать новые технологии и делать выигрышные ходы в работе и жизни.

В карточках мы провели параллель между итогами года и шахматными рекордами, а все подробности читайте в нашем блоге по ссылке.

#yacloud_news
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM