Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод главы "Введение в dbt" из книги Unlocking dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод главы «Введение в dbt» из книги Unlocking dbt
Введение в dbt В 2006 году британский математик и предприниматель в области анализа данных Клайв Хамби ввел фразу: «Данные — это новая нефть», подчеркнув их невероятно высокую ценность. Как и нефть, данные в сыром виде полезны, но их нужно обработать, чтобы…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Перевод Analytics Engineering with SQL and dbt. Глава 1
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
Немного о концепции Analytics Engineering и терминологии.
https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Перевод Analytics Engineering with SQL and dbt. Глава 1
Инженерия аналитики (Analytics Engineering) История аналитики включает важные этапы и технологии, которые сформировали эту область в том виде, какой мы знаем сегодня. Всё началось с появления концепции хранилищ данных в 1980-х годах, что стало основой для…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Понимание инкрементальных стратегий dbt, часть 1
Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).
https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/
#dbt
Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).
https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/
#dbt
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Понимание инкрементальных стратегий dbt, часть 1
Перевод статьи, исходный текст: https://medium.com/indiciumtech/understanding-dbt-incremental-strategies-part-1-2-22bd97c7eeb5 Данный перевод выполнен с небольшими примечаниями. Используйте статью как ориентир, проверяя по каждой базе и каждому адаптеру возможность…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Курс по dbt для инженеров данных
https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1
#dbt
https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1
#dbt
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.
https://github.com/dlt-hub/dlt
GitHub
GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️ - GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️
Forwarded from BigData ninja (=))
Осенний бигдатник от sql-ninja.ru
30 ноября в 10:20 на ст.м. Таганская, Марксистская в БЦ Таганка Атриум
Мета стэк!
Flink, Spark, Debezium, Iceberg, StreamHouse, Промышленная эксплуатация баз данных и самое главное - Нетворкинг 🥹
Да, онлайн будет 😊
купить билет
erid:
Реклама, ИП "Ким Лестат Альбертович", ИНН 183403475084
30 ноября в 10:20 на ст.м. Таганская, Марксистская в БЦ Таганка Атриум
Мета стэк!
Flink, Spark, Debezium, Iceberg, StreamHouse, Промышленная эксплуатация баз данных и самое главное - Нетворкинг 🥹
Да, онлайн будет 😊
купить билет
erid:
CQH36pWzJqDgK9RNHwhSjbuJD6So5abX7aDH9bXgpAsMEaРеклама, ИП "Ким Лестат Альбертович", ИНН 183403475084
Forwarded from BigData info
Media is too big
VIEW IN TELEGRAM
Интервью с Андреем Бородиным из Yandex Cloud и Max Yang из Hash Data про Cloudberry DB
Forwarded from BigData info
Что-то на умном https://www.isprasopen.ru/#Agenda
на бигдатном тоже есть: YDB, Picodata, Tarantool, CedrusData
я зарегался и скорее всего пойду
на бигдатном тоже есть: YDB, Picodata, Tarantool, CedrusData
я зарегался и скорее всего пойду
Forwarded from Data Engineer
Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔
Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.
Скачать можно здесь
Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.
Скачать можно здесь
Forwarded from 5 minutes of data
Bruine
Если бы у dbt, Airbyte и Great Expectations был ребенок, то это был бы Bruine.
End-to-end data framework, который покрывает весь цикл работы с данными: от загрузки до трансформации и проверки качества.
🌟 Что умеет Bruine (документация):
📥 Загрузка данных через Ingestr - мощный инструмент для ETL процессов
🔄 Гибкие трансформации на Python и SQL с поддержкой разных платформ
📊 Продвинутая материализация таблиц/view и поддержка инкрементальных обновлений
🐍 Изолированные Python-окружения на базе uv для безопасного выполнения кода
✨ Встроенная система проверки качества данных
📝 Поддержка Jinja-шаблонов для DRY-подхода в разработке
🔍 Предварительная проверка пайплайнов через dry-run
💡 Бонус: Есть удобное расширение для VS Code!
⚡️ Написан на Go для максимальной производительности
Подробнее про компонент Ingestr можно почитать в моем предыдущем посте: тык
Если бы у dbt, Airbyte и Great Expectations был ребенок, то это был бы Bruine.
End-to-end data framework, который покрывает весь цикл работы с данными: от загрузки до трансформации и проверки качества.
🌟 Что умеет Bruine (документация):
📥 Загрузка данных через Ingestr - мощный инструмент для ETL процессов
🔄 Гибкие трансформации на Python и SQL с поддержкой разных платформ
📊 Продвинутая материализация таблиц/view и поддержка инкрементальных обновлений
🐍 Изолированные Python-окружения на базе uv для безопасного выполнения кода
✨ Встроенная система проверки качества данных
📝 Поддержка Jinja-шаблонов для DRY-подхода в разработке
🔍 Предварительная проверка пайплайнов через dry-run
💡 Бонус: Есть удобное расширение для VS Code!
⚡️ Написан на Go для максимальной производительности
Подробнее про компонент Ingestr можно почитать в моем предыдущем посте: тык
bruin-data.github.io
What is Bruin? | Bruin CLI
Open-source multi-language data pipelines
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Инкрементальное обновление данных - Incremental Data Refresh
Шаблоны обновления данных
https://datatalks.ru/incremental-data-refresh-sql-patterns/
Шаблоны обновления данных
https://datatalks.ru/incremental-data-refresh-sql-patterns/
DataTalks.RU. Data Engineering / DWH / Data Pipeline
Инкрементальное обновление данных — Incremental Data Refresh
Инкрементальное обновление данных - Incremental Data Refresh
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Эволюция архитектур платформы данных- Евгений Ермаков
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy
YouTube
Евгений Ермаков — Эволюция архитектур платформы данных
Подробнее о фестивале TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Я тут подумал, что нужно сделать, если вдруг начнётся нашествие LLM на прогеров.
План такой: те, кто пострадал, генерируют кучу нерабочего и ошибочного кода. LLM постепенно переобучивается и начинает сама себя уничтожать.
Компании массово отказываются от LLM в ключевых процессах и нанимают втридорога разрабов обратно 😇
------‐-------------------
А если серьёзно - вот курс по LLM (бесплатно, но на инглише) https://github.com/mlabonne/llm-course
План такой: те, кто пострадал, генерируют кучу нерабочего и ошибочного кода. LLM постепенно переобучивается и начинает сама себя уничтожать.
Компании массово отказываются от LLM в ключевых процессах и нанимают втридорога разрабов обратно 😇
------‐-------------------
А если серьёзно - вот курс по LLM (бесплатно, но на инглише) https://github.com/mlabonne/llm-course
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor
Airflow + Cosmos + DBT
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323
Medium
How I Built This Data Platform in One Week
This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.
Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.
https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d
Medium
How we orchestrate 2000+ DBT models in Apache Airflow
In recent years, DBT (Data Build Tool) has established itself as the go-to data transformation workflow, connecting to a variety of…