Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from NOdata Миша
Больше не нужно искать тематические каналы и по отдельности на них подписываться - мы сделали это за Вас 🤝

Вам остается только сохранить папку себе и регулярно получать полезные ресурсы из сферы «IT и Технологий» 🔥

https://t.iss.one/addlist/VMuK8A3-KfM5NzM6

Хотите в подборку?
Forwarded from 5 minutes of data
Грокаем конкурентнось

Вот и дождался перевода замечательной книги от Кирилла Боброва.

Читал на английском, взял еще на русском в бумаге, очень рекомендую.

И канал Кирилла
Forwarded from Data jobs feed (KrivdaTheTriewe)
AnalyticsEngineer в m2.ru

Расширяем команду и ищем Системного Аналитика или AnalyticsEngineer которые готовы принять участие в построении платформы данных. Нужно будет общаться с аналитиками и де, формировать требования , погружаться в доменную область, писать на sql и python, заниматься моделированием данных
- Spark
- Trino
- dbt
- Iceberg
- Clickhouse


Писать можно сразу мне @krivdathetriewe
Forwarded from Курсы NovaData.
Всем привет!

Ровно через 3 недели будет открыт наш курс.

Расскажем, что ждет Вас на курсе:

📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор

Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
apache-iceberg-TDG_ER1.pdf
3.3 MB
Apache Iceberg 2024
The Definitive Guide Data

Lakehouse Functionality, Performance, and Scalability on the Data Lake
O_Reilly_Конвейеры_данных_2024.pdf
40.8 MB
Конвейеры данных. Карманный справочник 2024

Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом
Data Engineer: учебное пособие для прохождения собеседования
https://tproger.ru/curriculum/data-engineer-interview-guide

📖 In Russian: cписок русскоязычных публикаций matyushkin и блокноты Jupyter для различных образовательных ресурсов.
https://github.com/matyushkin/lessons

A complete computer science study plan to become a software engineer.
https://github.com/matyushkin/lessons

Как проходит интервью по SRE T-Bank (aka Tinkoff)
https://www.tbank.ru/career/it/interview/sre/
Forwarded from 🔋 Труба данных (Simon Osipov)
https://xuanwo.io/2024/07-rewrite-bigdata-in-rust

Тред "Rust все заменит в DE" продолжает существовать и если ну уж очень интересно, вот небольшая подборка DE-related тулзов и библиотек, написанных на Rust.
Из самого интересного это Apache DataFusion и daft

@ohmydataengineer
Forwarded from 5 minutes of data
Data Engineering Vault

📚 Data Engineering Vault - это настоящая сокровищница знаний в области инженерии данных. Это часть проекта Second Brain, который представляет собой обширную сеть взаимосвязанных концепций и идей. Second Brain организован по методологии Zettelkasten, а весь граф посторен на Obsidian.

🌐 В этом хранилище вы найдете более 100 терминов, связанных между собой, каждый из которых открывает дверь к глубоким знаниям в области дата-инжиниринга. Вот некоторые из основных топиков:

Архитектура данных: проектирование систем для эффективного хранения и обработки данных.

ETL процессы: извлечение, трансформация и загрузка данных.

Big Data технологии: Hadoop, Spark, Kafka и другие инструменты для работы с большими объемами данных.

Облачные платформы: AWS, Google Cloud, Azure и их сервисы для работы с данными.

Data Governance: управление данными, обеспечение их качества и безопасности.

🌱 Этот ресурс похож на "цифровой сад" - он постоянно растет и развивается. Вы можете исследовать связи между концепциями, углубляя свое понимание с каждым кликом.

🚀 Независимо от того, новичок вы или опытный специалист, Data Engineering Vault предлагает уникальную возможность расширить свои знания в области инженерии данных.
Forwarded from Summarize300Bot
Николай Крупий
https://youtu.be/BSge0lPJeHk
Введение в dbt: основы моделирования данных | INZHENERKA.TECH
00:00:10 Введение и ожидания
• Приветствие и просьба написать о себе и своей деятельности.
• Ведущий из Франции, зона Джим Ти плюс два.
• Ожидание участников из зоны Джим Ти плюс три и выше.

00:01:10 Введение в Debut
• Инженер данных, стажировка.
• Дебют как важный инструмент в карьере.
• Начало презентации и рассказ о вебинаре.

00:02:28 Представление ведущего
• Павел Роловец, ментор компании Инженека Тех.
• Представление вебинара по основам моделирования данных.

00:03:08 Введение в компанию и задачи
• Ведущий работает в компании Kontor, Франция.
• Разработка платформы больших данных для анализа.
• Совмещение работы инженера и ментора в школе Инженека Тех.

00:04:00 Цель вебинара
• Показать практическую ценность Debut.
• Обсуждение основных концепций и демонстрация работы с Debut.

00:05:24 Личный опыт и проблемы
• Личный опыт работы с Debut в компании.
• Проблемы с анализом данных и их решение.

00:06:01 Проблемы с данными
• Анализ терабайта данных в облаке.
• Проблемы с производительностью и качеством данных.

00:09:31 Попытки решения
• Использование Glue и Spark для подготовки данных.
• Проблемы с масштабируемостью и эффективностью.

00:10:52 Проблемы с Glue и Spark
• Проблемы с трансформацией данных в Glue и Spark.
• Несовместимость с ADF и сложность для аналитиков.

00:12:44 Альтернативное решение
• Обнаружение возможности создания таблиц в ADF.
• ADF как база данных для хранения данных.

00:13:22 Преимущества использования Apache Spark
• Добавление приписки в запрос Apache Spark позволяет создавать таблицы в формате Parquet.
• Это решение оказалось более эффективным и дешевым, чем стандартные подходы.
• Spark часто используется для ETL, но в данном случае данные уже были в хранилище.

00:14:21 Создание аналитических таблиц
• Создана библиотека для автоматизации создания аналитических таблиц.
• Библиотека считывает запросы, добавляет настройки и запускает их в Apache Spark.
• Решение упростило процесс обработки данных и сделало его более эффективным.

00:15:16 Проблемы и решения
• Проблемы с большими таблицами и инкрементальным подходом.
• Необходимость проверки качества данных и внедрения решений в рабочий процесс.
• Поддержка Apache Debut стала возможной благодаря поддержке от Apache.

00:18:14 Введение в Apache Debut
• Debut позволяет создавать таблицы и представления на основе Apache Spark.
• Debut использует шаблонизированную Apache Spark и имеет готовые стратегии материализации.
• Debut предоставляет инструменты для проверки качества данных и визуализации каталогов данных.

00:21:30 Преимущества Debut
• Debut делает аналитику более качественной и эффективной.
• Позволяет работать с командой через Git и другие инструменты разработки.
• Debut поддерживает множество хранилищ данных и является компилятором Apache Spark.

00:23:51 Заключение
• Debut упрощает трансформацию данных, когда они уже загружены в хранилище.
• Debut не работает с инжестингом данных, но может быть интегрирован с другими инструментами аналитики.

00:24:54 Введение и демонстрация
• Ведущий предлагает перейти к демонстрации и обсудить вопросы.
• Ведущий делится своими проблемами и опытом в аналитике.