Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Data Engineering / reposts & drafts
https://youtu.be/Riouu4szE5g
• Упрощает процесс создания и использования данных.

00:30:29 Управление полным циклом данных
• Улучшает качество данных и повышает доверие к ним.
• Включает анализ данных, определение метрик качества и стандартов.
• Реализует стандарты и мониторит данные для исправления.

00:34:43 Итог
• Метод дата хаб автоматизирует работу с мета-данными.
• Каждый инструмент решает отдельный пул задач.
• Комплексное использование инструментов обеспечивает качественные и надежные данные.

00:35:25 Управление правами в PostgreSQL
• Вопрос о возможности переноса управления правами в PostgreSQL на коннект-менеджер.
• Коннект-менеджер служит для мапинга пользователей и учеток, но не для управления правами доступа.
• Управление правами доступа остается настройкой в кластере PostgreSQL.

00:36:16 Заключение
• Благодарность за внимание.
• Пожелание хорошего дня.
Forwarded from DATABASE DESIGN
Как мы проверяли качество данных после завершения миграции с Teradata на Greenplum

Привет, Хабр! Мы завершаем серию статей о миграции аналитического хранилища данных с платформы Teradata на GreenPlum. В предыдущих статьях мы рассказали о нашем опыте и результатах автоматизированного переписывания SQL‑скриптов с помощью реализованных сервисов миграции кода и переноса архива данных. В этот раз мы расскажем вам о нашем опыте и результатах кросс‑платформенной проверки качества данных во время и после миграции, а также о трудностях и решениях, связанных с этим процессом.

Завершая нашу серию, мы подходим к ключевому аспекту миграции данных — проверке и обеспечению качества данных после переноса. Теперь, когда перед нами стоят два параллельно функционирующих хранилища, возникает вопрос о точности и согласованности данных между ними.


Читать: https://habr.com/ru/companies/sberbank/articles/869294/

#ru

@database_design | Другие наши каналы
Forwarded from Data Engineer
Весьма и весьма любопытный репозиторий, я вам скажу, для тех кто хочет изучить «модные» (от слова modern) инструменты инженерии данных.

Что-то здесь дополнительно комментировать — только портить. Смотрите сами, тем более, что впереди долгие и зимние выходные.
Понимание инкрементальных стратегий dbt, часть 1

Вторую часть не буду переводить, этот перевод сделал больше с целью ознакомить с вариантами обновления данных в таблицах. По технической реализации лучше доку смотреть и анализировать, как каждая стратегия работает на уровне макросов (или сгенерированного sql).

https://datatalks.ru/understanding-dbt-incremental-strategies-part-1/

#dbt
data load tool (dlt) is an open source Python library that makes data loading easy 🛠️

🔹Автоматическая схема: проверка структуры данных и создание схемы для места назначения.
🔹 Нормализация данных: согласованные и проверенные данные перед загрузкой.
🔹Полная интеграция: Colab, AWS Lambda, Airflow и локальные среды.
🔹Масштабируемость: адаптируется к растущим потребностям в данных в производстве.
🔹Простота обслуживания: понятная структура конвейера данных для обновлений.
🔹Быстрое исследование: быстрое исследование и получение информации из новых источников данных.
🔹Универсальное использование: подходит для несистематических исследований и создания сложных погрузочных инфраструктур.
🔹Начните работу за считанные секунды с помощью CLI: Мощный CLI для управления, развертывания и проверки локальных pipelines.
🔹Поэтапная загрузка: загружайте только новые или измененные данные и избегайте повторной загрузки старых записей.
🔹Открытый исходный код: бесплатно и под лицензией Apache 2.0.

https://github.com/dlt-hub/dlt
Forwarded from BigData ninja (=))
Осенний бигдатник от sql-ninja.ru
30 ноября в 10:20 на ст.м. Таганская, Марксистская в БЦ Таганка Атриум

Мета стэк!
Flink, Spark, Debezium, Iceberg, StreamHouse, Промышленная эксплуатация баз данных и самое главное - Нетворкинг 🥹
Да, онлайн будет 😊

купить билет

erid:CQH36pWzJqDgK9RNHwhSjbuJD6So5abX7aDH9bXgpAsMEa
Реклама, ИП "Ким Лестат Альбертович", ИНН 183403475084
Forwarded from BigData info
Media is too big
VIEW IN TELEGRAM
Интервью с Андреем Бородиным из Yandex Cloud и Max Yang из Hash Data про Cloudberry DB
Forwarded from BigData info
Что-то на умном https://www.isprasopen.ru/#Agenda
на бигдатном тоже есть: YDB, Picodata, Tarantool, CedrusData
я зарегался и скорее всего пойду
Forwarded from Data Engineer
Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔

Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.

Скачать можно здесь
Forwarded from 5 minutes of data
Bruine

Если бы у dbt, Airbyte и Great Expectations был ребенок, то это был бы Bruine.

End-to-end data framework, который покрывает весь цикл работы с данными: от загрузки до трансформации и проверки качества.

🌟 Что умеет Bruine (документация):

📥 Загрузка данных через Ingestr - мощный инструмент для ETL процессов

🔄 Гибкие трансформации на Python и SQL с поддержкой разных платформ

📊 Продвинутая материализация таблиц/view и поддержка инкрементальных обновлений

🐍 Изолированные Python-окружения на базе uv для безопасного выполнения кода

Встроенная система проверки качества данных

📝 Поддержка Jinja-шаблонов для DRY-подхода в разработке

🔍 Предварительная проверка пайплайнов через dry-run

💡 Бонус: Есть удобное расширение для VS Code!
⚡️ Написан на Go для максимальной производительности

Подробнее про компонент Ingestr можно почитать в моем предыдущем посте: тык