Data Engineering / reposts & drafts

Forwarded from BigData ninja (=))

Осенний бигдатник от sql-ninja.ru
30 ноября в 10:20 на ст.м. Таганская, Марксистская в БЦ Таганка Атриум

Мета стэк!
Flink, Spark, Debezium, Iceberg, StreamHouse, Промышленная эксплуатация баз данных и самое главное - Нетворкинг 🥹
Да, онлайн будет 😊

купить билет

erid:CQH36pWzJqDgK9RNHwhSjbuJD6So5abX7aDH9bXgpAsMEa
Реклама, ИП "Ким Лестат Альбертович", ИНН 183403475084

6 views12:01

Data Engineering / reposts & drafts

Forwarded from BigData info

10:52

Media is too big

VIEW IN TELEGRAM

Интервью с Андреем Бородиным из Yandex Cloud и Max Yang из Hash Data про Cloudberry DB

10 views12:01

Data Engineering / reposts & drafts

Forwarded from BigData info

Что-то на умном https://www.isprasopen.ru/#Agenda
на бигдатном тоже есть: YDB, Picodata, Tarantool, CedrusData
я зарегался и скорее всего пойду

9 views12:01

Data Engineering / reposts & drafts

https://www.linkedin.com/posts/eczachly_fact-data-is-the-largest-data-that-youll-activity-7266208179116474368-x0xr?utm_medium=ios_app&utm_source=social_share_video_v2&utm_campaign=share_via

Zach Wilson on LinkedIn: Fact data is the largest data that you'll handle as a data engineer!

In… | 37 comments

Fact data is the largest data that you'll handle as a data engineer!

In this free four hour course, I'll go over everything I learned at Meta to manage the… | 37 comments on LinkedIn

9 views08:58

Data Engineering / reposts & drafts

Forwarded from Data Engineer

Наткнулся на "The Top Data Trends for 2025" от доселе неизвестных мне товарищей, объединенных общим именем Coalesce. Интересно, что из этого станет обыденностью🤔

Отчет пока не читал, но добавил в очередь, так что, ежели кто меня опередит, делитесь впечатлениями.

Скачать можно здесь

7 views13:59

Data Engineering / reposts & drafts

#Bruin
https://bruin-data.github.io/bruin

bruin-data.github.io

What is Bruin? | Bruin CLI

Open-source multi-language data pipelines

8 viewsedited 19:36

Data Engineering / reposts & drafts

Forwarded from 5 minutes of data

Bruine

Если бы у dbt, Airbyte и Great Expectations был ребенок, то это был бы Bruine.

End-to-end data framework, который покрывает весь цикл работы с данными: от загрузки до трансформации и проверки качества.

🌟 Что умеет Bruine (документация ):

📥 Загрузка данных через Ingestr - мощный инструмент для ETL процессов

🔄 Гибкие трансформации на Python и SQL с поддержкой разных платформ

📊 Продвинутая материализация таблиц/view и поддержка инкрементальных обновлений

🐍 Изолированные Python-окружения на базе uv для безопасного выполнения кода

✨ Встроенная система проверки качества данных

📝 Поддержка Jinja-шаблонов для DRY-подхода в разработке

🔍 Предварительная проверка пайплайнов через dry-run

💡 Бонус: Есть удобное расширение для VS Code!
⚡️ Написан на Go для максимальной производительности

Подробнее про компонент Ingestr можно почитать в моем предыдущем посте: тык

bruin-data.github.io

What is Bruin? | Bruin CLI

Open-source multi-language data pipelines

9 views19:36

Data Engineering / reposts & drafts

https://t.iss.one/rzv_de/288?comment=870

Data & IT Career in rzv Data Engineering Comments

пока что пятнично-не-осилил демо-снапшлоты данных, но (по ходу освоения) что мешает
- не удалять "главную" запись в DWH, даже если он удалилась в источнике?
- вести версионность кластеров в RDV и уже на основе самых аткуальных правил определять финалную версию…

11 views14:01

Data Engineering / reposts & drafts

https://t.iss.one/data_apps/424?comment=1933

10 viewsedited 14:45

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Инкрементальное обновление данных - Incremental Data Refresh

Шаблоны обновления данных

https://datatalks.ru/incremental-data-refresh-sql-patterns/

DataTalks.RU. Data Engineering / DWH / Data Pipeline

Инкрементальное обновление данных — Incremental Data Refresh

Инкрементальное обновление данных - Incremental Data Refresh

8 views15:46

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Эволюция архитектур платформы данных- Евгений Ермаков

https://youtu.be/EvefrwYmOn0?si=0IkudCSOSRtMMHyy

YouTube

Евгений Ермаков — Эволюция архитектур платформы данных

Подробнее о фестивале TechTrain: https://jrg.su/YR8JKw
— —
Во всем мире компании из самых разных отраслей вкладывают средства в анализ своих данных, в создание эффективных стратегий обработки данных и построение платформ данных. По некоторым оценкам к 2030…

7 views15:46

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Я тут подумал, что нужно сделать, если вдруг начнётся нашествие LLM на прогеров.

План такой: те, кто пострадал, генерируют кучу нерабочего и ошибочного кода. LLM постепенно переобучивается и начинает сама себя уничтожать.

Компании массово отказываются от LLM в ключевых процессах и нанимают втридорога разрабов обратно 😇

------‐-------------------

А если серьёзно - вот курс по LLM (бесплатно, но на инглише) https://github.com/mlabonne/llm-course

7 views15:46

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor

Airflow + Cosmos + DBT

https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323

Medium

How I Built This Data Platform in One Week

This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…

5 views15:46

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

How we orchestrate 2000+ DBT models in Apache Airflow | by Alexandre Magno Lima Martins | Apache Airflow | Medium

Статья описывает опыт интеграции dbt с Apache Airflow для оркестрации более 2000 моделей данных.
Авторы делятся подходом к разделению проекта dbt на несколько DAG в Airflow, что позволяет устанавливать различные расписания, уровни доступа и уведомления для разных групп моделей.

Они также обсуждают создание собственного оператора DBTOperator для эффективного запуска задач dbt в Airflow. В результате такой интеграции аналитики и владельцы продуктов могут самостоятельно создавать и поддерживать модели данных, используя только SQL и базовые знания Git, без необходимости глубокого понимания Airflow.

https://medium.com/apache-airflow/how-we-orchestrate-2000-dbt-models-in-apache-airflow-90901504032d

Medium

How we orchestrate 2000+ DBT models in Apache Airflow

In recent years, DBT (Data Build Tool) has established itself as the go-to data transformation workflow, connecting to a variety of…

6 views15:46

Data Engineering / reposts & drafts

0:11

This media is not supported in your browser

VIEW IN TELEGRAM

https://www.instagram.com/reel/C9h-5cgNc7a

8 viewsedited 21:16

Data Engineering / reposts & drafts

https://t.iss.one/DE_events/1211 #ydb_dwh

9 viewsedited 08:54

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

How I Built This Data Platform in One Week | by Dorian Teffo | DataDrivenInvestor

Airflow + Cosmos + DBT

https://medium.datadriveninvestor.com/how-i-built-this-data-platform-in-one-week-13b457d7c323

Medium

How I Built This Data Platform in One Week

This will certainly be my longest project (and the most expensive, so please like and comment), as well as my longest blog post. But…

7 views08:55

Data Engineering / reposts & drafts

Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH

Medium

How we orchestrate 2000+ DBT models in Apache Airflow

In recent years, DBT (Data Build Tool) has established itself as the go-to data transformation workflow, connecting to a variety of…

7 views08:56

Data Engineering / reposts & drafts

https://www.linkedin.com/posts/wesley-louw-a9707697_%F0%9D%97%97%F0%9D%97%AE%F0%9D%98%81%F0%9D%97%AE-%F0%9D%97%98%F0%9D%97%BB%F0%9D%97%B4%F0%9D%97%B6%F0%9D%97%BB%F0%9D%97%B2%F0%9D%97%B2%F0%9D%97%BF%F0%9D%97%B6%F0%9D%97%BB%F0%9D%97%B4-%F0%9D%97%A5%F0%9D%97%BC%F0%9D%97%AE-activity-7284420975650107392-k4hF

10 views18:17

Data Engineering / reposts & drafts

https://www.linkedin.com/posts/vrainardi_do-you-have-a-kimball-mart-and-wonder-how-activity-7289187174388781056-ix51?utm_medium=ios_app&utm_source=social_share_video_v2&utm_campaign=share_via

Vincent Rainardi on LinkedIn: Do you have a Kimball mart and wonder how to add Data Vault as enterprise…

9 views18:31

Data Engineering / reposts & drafts

Do you have a Kimball mart and wonder how to add Data Vault as enterprise DW?
This brilliant article by Patrick Cuba is a gold mine for that. From landing, staging, and autonomous loader for hub, link and sat. Test automation, point-in-time (PIT) and finally the data mart. Only need 10 mins of your time to go through those important concepts. Create data pipeline on Snowflake using Stream and Task. Go on, you do want to know that right? Click here: https://lnkd.in/eHpb5n7B
Even if you build your Data Vault on Databricks you'll still learn a lot from this.
Thank you Patrick for writing this.

lnkd.in

This link will take you to a page that’s not on LinkedIn

10 views18:31

About

Blog

Apps

Platform