Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from BigData ninja (=))
Осенний бигдатник от sql-ninja.ru
30 ноября в 10:20 на ст.м. Таганская, Марксистская в БЦ Таганка Атриум

Мета стэк!
Flink, Spark, Debezium, Iceberg, StreamHouse, Промышленная эксплуатация баз данных и самое главное - Нетворкинг 🥹
Да, онлайн будет 😊

купить билет

erid:CQH36pWzJqDgK9RNHwhSjbuJD6So5abX7aDH9bXgpAsMEa
Реклама, ИП "Ким Лестат Альбертович", ИНН 183403475084
Forwarded from BigData info
Media is too big
VIEW IN TELEGRAM
Интервью с Андреем Бородиным из Yandex Cloud и Max Yang из Hash Data про Cloudberry DB
Forwarded from BigData info
Что-то на умном https://www.isprasopen.ru/#Agenda
на бигдатном тоже есть: YDB, Picodata, Tarantool, CedrusData
я зарегался и скорее всего пойду
Forwarded from Data Engineer
Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔

Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.

Скачать можно здесь
Forwarded from 5 minutes of data
Bruine

Если бы у dbt, Airbyte и Great Expectations был ребенок, то это был бы Bruine.

End-to-end data framework, который покрывает весь цикл работы с данными: от загрузки до трансформации и проверки качества.

🌟 Что умеет Bruine (документация):

📥 Загрузка данных через Ingestr - мощный инструмент для ETL процессов

🔄 Гибкие трансформации на Python и SQL с поддержкой разных платформ

📊 Продвинутая материализация таблиц/view и поддержка инкрементальных обновлений

🐍 Изолированные Python-окружения на базе uv для безопасного выполнения кода

Встроенная система проверки качества данных

📝 Поддержка Jinja-шаблонов для DRY-подхода в разработке

🔍 Предварительная проверка пайплайнов через dry-run

💡 Бонус: Есть удобное расширение для VS Code!
⚡️ Написан на Go для максимальной производительности

Подробнее про компонент Ingestr можно почитать в моем предыдущем посте: тык
Я тут подумал, что нужно сделать, если вдруг начнётся нашествие LLM на прогеров.

План такой: те, кто пострадал, генерируют кучу нерабочего и ошибочного кода. LLM постепенно переобучивается и начинает сама себя уничтожать.

Компании массово отказываются от LLM в ключевых процессах и нанимают втридорога разрабов обратно 😇

------‐-------------------

А если серьёзно - вот курс по LLM (бесплатно, но на инглише) https://github.com/mlabonne/llm-course
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium

Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.

Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.


https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium

Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.

Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.


https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d