Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

35 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

5 views10:54

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum

Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.

Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.

Читать: https://habr.com/ru/companies/sberbank/articles/869294/

#ru

@database_design | Другие наши каналы

5 views11:11

Data Engineering / reposts & drafts

https://github.com/Armaan1Gohil/dataengineering-tech-stack

GitHub - Armaan1Gohil/dataengineering-tech-stack: Local Environment to Practice Data Engineering

Local Environment to Practice Data Engineering. Contribute to Armaan1Gohil/dataengineering-tech-stack development by creating an account on GitHub.

6 views12:12

Data Engineering / reposts & drafts

Forwarded from Data Engineer

Весьма и весьма любопытный репозиторий, я вам скажу, для тех кто хочет изучить «модные» (от слова modern) инструменты инженерии данных.

Что-то здесь дополнительно комментировать — только портить. Смотрите сами, тем более, что впереди долгие и зимние выходные.

4 views12:12

Data Engineering / reposts & drafts

https://internarenadata.sapiens.solutions/

https://t.iss.one/halltape_data/493?comment=5826

12 viewsedited 09:55

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Оптимизация SQL запросов на примере ClickHouse

Бесплатно

Научимся писать SQL запросы так, чтобы не убить базу данных. Изучим основные методы оптимизации SQL запросов, актуальные для любой СУБД

https://stepik.org/course/Оптимизация-SQL-запросов-на-примере-ClickHouse-215412/

#ClickHouse

Stepik: online education

Оптимизация SQL запросов на примере ClickHouse

🔥 Ваши SQL-запросы тормозят и съедают ресурсы?

На этом курсе вы научитесь писать молниеносные запросы, которые не положат базу — даже на огромных данных в ClickHouse.

Без воды: только практические приемы оптимизации, которые работают в любой СУБД. Узнаете…

2 views10:09

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Awesome Data Engineering Learning Sources

Подборка ресурсов для изучения направления Data Engineering с минимальным бюджетом (большая часть бесплатно на YT).

https://datatalks.ru/awesome-data-engineering-learning-sources/

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Awesome Data Engineering. Дорожная карта Data Engineer RoadMap

Awesome Data Engineering. Дорожная карта Data Engineer RoadMap. Дорожная карта по изучению инженерии данных. Как стать дата инженером?

1 view10:09

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод главы "Введение в dbt" из книги Unlocking dbt

https://datatalks.ru/unlocking-dbt-data-build-tool-part-1/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод главы «Введение в dbt» из книги Unlocking dbt

Введение в dbt В 2006 году британский математик и предприниматель в области анализа данных Клайв Хамби ввел фразу: «Данные — это новая нефть», подчеркнув их невероятно высокую ценность. Как и нефть, данные в сыром виде полезны, но их нужно обработать, чтобы…

2 views10:09

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Перевод Analytics Engineering with SQL and dbt. Глава 1

Немного о концепции Analytics Engineering и терминологии.

https://datatalks.ru/analytics-engineering-with-sql-and-dbt-chapter-1/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Перевод Analytics Engineering with SQL and dbt. Глава 1

Инженерия аналитики (Analytics Engineering) История аналитики включает важные этапы и технологии, которые сформировали эту область в том виде, какой мы знаем сегодня. Всё началось с появления концепции хранилищ данных в 1980-х годах, что стало основой для…

3 views10:09

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Понимание инкрементальных стратегий dbt, часть 1

Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).

https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/

#dbt

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Понимание инкрементальных стратегий dbt, часть 1

Перевод статьи, исходный текст: https://medium.com/indiciumtech/understanding-dbt-incremental-strategies-part-1-2-22bd97c7eeb5 Данный перевод выполнен с небольшими примечаниями. Используйте статью как ориентир, проверяя по каждой базе и каждому адаптеру возможность…

4 views10:09

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Курс по dbt для инженеров данных

https://youtube.com/playlist?list=PLzvuaEeolxkyx7XruoatSFdYDyLji_o1J&si=oH5Bne-fU2lCqJl1

#dbt

5 views10:09

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.

https://github.com/dlt-hub/dlt

GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

data load tool (dlt) is an open source Python library that makes data loading easy 🛠️ - GitHub - dlt-hub/dlt: data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

5 views07:36

Data Engineering / reposts & drafts

https://t.iss.one/hadoopusers/206364?thread=206329

#GP

Aleksei Razvodov in Data Engineers

Есть где-то статьи/доклады, которые можно почитать по вашей реализации онлайн ддл для вертики?

Источник большинства данных — kafka connect (CDC навроде debezium + sink), часть может спарком загружаться.

Операции предварительно могут быть какими угодно…

6 views12:01

Data Engineering / reposts & drafts

Forwarded from BigData ninja (=))

Осенний бигдатник от sql-ninja.ru
30 ноября в 10:20 на ст.м. Таганская, Марксистская в БЦ Таганка Атриум

Мета стэк!
Flink, Spark, Debezium, Iceberg, StreamHouse, Промышленная эксплуатация баз данных и самое главное - Нетворкинг 🥹
Да, онлайн будет 😊

купить билет

erid:CQH36pWzJqDgK9RNHwhSjbuJD6So5abX7aDH9bXgpAsMEa
Реклама, ИП "Ким Лестат Альбертович", ИНН 183403475084

6 views12:01

Data Engineering / reposts & drafts

Forwarded from BigData info

Media is too big

VIEW IN TELEGRAM

Интервью с Андреем Бородиным из Yandex Cloud и Max Yang из Hash Data про Cloudberry DB

10 views12:01

Data Engineering / reposts & drafts

Forwarded from BigData info

Что-то на умном https://www.isprasopen.ru/#Agenda
на бигдатном тоже есть: YDB, Picodata, Tarantool, CedrusData
я зарегался и скорее всего пойду

9 views12:01

Data Engineering / reposts & drafts

https://www.linkedin.com/posts/eczachly_fact-data-is-the-largest-data-that-youll-activity-7266208179116474368-x0xr?utm_medium=ios_app&utm_source=social_share_video_v2&utm_campaign=share_via

Zach Wilson on LinkedIn: Fact data is the largest data that you'll handle as a data engineer!

In… | 37 comments

Fact data is the largest data that you'll handle as a data engineer!

In this free four hour course, I'll go over everything I learned at Meta to manage the… | 37 comments on LinkedIn

9 views08:58

Data Engineering / reposts & drafts

Forwarded from Data Engineer

Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔

Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.

Скачать можно здесь

7 views13:59

Data Engineering / reposts & drafts

#Bruin
https://bruin-data.github.io/bruin

bruin-data.github.io

What is Bruin? | Bruin CLI

Open-source multi-language data pipelines

8 viewsedited 19:36

Data Engineering / reposts & drafts

Forwarded from 5 minutes of data

Bruine

Если бы у dbt, Airbyte и Great Expectations был ребенок, то это был бы Bruine.

End-to-end data framework, который покрывает весь цикл работы с данными: от загрузки до трансформации и проверки качества.

🌟 Что умеет Bruine (документация ):

📥 Загрузка данных через Ingestr - мощный инструмент для ETL процессов

🔄 Гибкие трансформации на Python и SQL с поддержкой разных платформ

📊 Продвинутая материализация таблиц/view и поддержка инкрементальных обновлений

🐍 Изолированные Python-окружения на базе uv для безопасного выполнения кода

✨ Встроенная система проверки качества данных

📝 Поддержка Jinja-шаблонов для DRY-подхода в разработке

🔍 Предварительная проверка пайплайнов через dry-run

💡 Бонус: Есть удобное расширение для VS Code!
⚡️ Написан на Go для максимальной производительности

Подробнее про компонент Ingestr можно почитать в моем предыдущем посте: тык

bruin-data.github.io

What is Bruin? | Bruin CLI

Open-source multi-language data pipelines

9 views19:36

Data Engineering / reposts & drafts

https://t.iss.one/rzv_de/288?comment=870

Data & IT Career in rzv Data Engineering Comments

пока что пятнично-не-осилил демо-снапшлоты данных, но (по ходу освоения) что мешает
- не удалять "главную" запись в DWH, даже если он удалилась в источнике?
- вести версионность кластеров в RDV и уже на основе самых аткуальных правил определять финалную версию…

11 views14:01