Forwarded from NOdata Миша
Больше не нужно искать тематические каналы и по отдельности на них подписываться - мы сделали это за Вас 🤝
Вам остается только сохранить папку себе и регулярно получать полезные ресурсы из сферы «IT и Технологий» 🔥
https://t.iss.one/addlist/VMuK8A3-KfM5NzM6
Хотите в подборку?
Вам остается только сохранить папку себе и регулярно получать полезные ресурсы из сферы «IT и Технологий» 🔥
https://t.iss.one/addlist/VMuK8A3-KfM5NzM6
Хотите в подборку?
Forwarded from 5 minutes of data
Грокаем конкурентнось
Вот и дождался перевода замечательной книги от Кирилла Боброва.
Читал на английском, взял еще на русском в бумаге, очень рекомендую.
И канал Кирилла
Вот и дождался перевода замечательной книги от Кирилла Боброва.
Читал на английском, взял еще на русском в бумаге, очень рекомендую.
И канал Кирилла
Forwarded from Data jobs feed (KrivdaTheTriewe)
AnalyticsEngineer в m2.ru
Расширяем команду и ищем Системного Аналитика или AnalyticsEngineer которые готовы принять участие в построении платформы данных. Нужно будет общаться с аналитиками и де, формировать требования , погружаться в доменную область, писать на sql и python, заниматься моделированием данных
- Spark
- Trino
- dbt
- Iceberg
- Clickhouse
Писать можно сразу мне @krivdathetriewe
Расширяем команду и ищем Системного Аналитика или AnalyticsEngineer которые готовы принять участие в построении платформы данных. Нужно будет общаться с аналитиками и де, формировать требования , погружаться в доменную область, писать на sql и python, заниматься моделированием данных
- Spark
- Trino
- dbt
- Iceberg
- Clickhouse
Писать можно сразу мне @krivdathetriewe
Forwarded from Курсы NovaData.
Всем привет!
Ровно через 3 недели будет открыт наш курс.
Расскажем, что ждет Вас на курсе:
📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
✅ Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор
Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
Ровно через 3 недели будет открыт наш курс.
Расскажем, что ждет Вас на курсе:
📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
✅ Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор
Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
apache-iceberg-TDG_ER1.pdf
3.3 MB
Apache Iceberg 2024
The Definitive Guide Data
Lakehouse Functionality, Performance, and Scalability on the Data Lake
The Definitive Guide Data
Lakehouse Functionality, Performance, and Scalability on the Data Lake
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
O_Reilly_Конвейеры_данных_2024.pdf
40.8 MB
Конвейеры данных. Карманный справочник 2024
Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом
Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом
Forwarded from Data Engineering / Инженерия данных / Data Engineer / DWH
Data Engineer: учебное пособие для прохождения собеседования
https://tproger.ru/curriculum/data-engineer-interview-guide
📖 In Russian: cписок русскоязычных публикаций matyushkin и блокноты Jupyter для различных образовательных ресурсов.
https://github.com/matyushkin/lessons
A complete computer science study plan to become a software engineer.
https://github.com/matyushkin/lessons
Как проходит интервью по SRE T-Bank (aka Tinkoff)
https://www.tbank.ru/career/it/interview/sre/
https://tproger.ru/curriculum/data-engineer-interview-guide
📖 In Russian: cписок русскоязычных публикаций matyushkin и блокноты Jupyter для различных образовательных ресурсов.
https://github.com/matyushkin/lessons
A complete computer science study plan to become a software engineer.
https://github.com/matyushkin/lessons
Как проходит интервью по SRE T-Bank (aka Tinkoff)
https://www.tbank.ru/career/it/interview/sre/
Tproger
Data Engineer: учебное пособие для прохождения собеседования
Детальный план по обучению профессии Data Engineer. В нём вы найдёте задачи разного уровня сложности, видеоуроки и курсы.
Forwarded from 🔋 Труба данных (Simon Osipov)
https://xuanwo.io/2024/07-rewrite-bigdata-in-rust
Тред "Rust все заменит в DE" продолжает существовать и если ну уж очень интересно, вот небольшая подборка DE-related тулзов и библиотек, написанных на Rust.
Из самого интересного это Apache DataFusion и daft
@ohmydataengineer
Тред "Rust все заменит в DE" продолжает существовать и если ну уж очень интересно, вот небольшая подборка DE-related тулзов и библиотек, написанных на Rust.
Из самого интересного это Apache DataFusion и daft
@ohmydataengineer
xuanwo.io
Rewrite Bigdata in Rust
Achieving Data Freedom Through Open Source and Rust
Forwarded from 🔋 Труба данных (Simon Osipov)
Forwarded from Николай Хитров | Блог
Есть только моя архитектура и ваши неправильные [Запись]
Вышла запись моего доклада с Pycon этого года. Немного накидал на вентилятор про популярные подходы в архитектуре и откуда они вообще появились. Enjoy🍿
https://youtu.be/bpNVX9GCIWI?si=G9-HoyrrjwLnF9mk
Вышла запись моего доклада с Pycon этого года. Немного накидал на вентилятор про популярные подходы в архитектуре и откуда они вообще появились. Enjoy🍿
https://youtu.be/bpNVX9GCIWI?si=G9-HoyrrjwLnF9mk
YouTube
Николай Хитров. Есть только моя архитектура и ваши неправильные
Николай Хитров
Точка
Есть только моя архитектура и ваши неправильные
Разработчики постоянно спорят о том, как правильно проектировать приложения. Они разделяются на клубы по интересам, где каждый восхваляет свой единственно верный умный подход. И если джависты…
Точка
Есть только моя архитектура и ваши неправильные
Разработчики постоянно спорят о том, как правильно проектировать приложения. Они разделяются на клубы по интересам, где каждый восхваляет свой единственно верный умный подход. И если джависты…
Forwarded from Николай Хитров | Блог
Николай Хитров | Блог
Есть только моя архитектура и ваши неправильные [Запись] Вышла запись моего доклада с Pycon этого года. Немного накидал на вентилятор про популярные подходы в архитектуре и откуда они вообще появились. Enjoy🍿 https://youtu.be/bpNVX9GCIWI?si=G9-HoyrrjwLnF9mk
Pycon 2024.pdf
4.2 MB
Презентация к докладу
Forwarded from DE
Alaa - Optimization Algorithms - 2024.pdf
116.2 MB
Forwarded from DE
ClickHouse
Postgres to ClickHouse: Data Modeling Tips
Learn data modeling tips while transitioning from Postgres to ClickHouse. Discover how to leverage ClickHouse’s ReplacingMergeTree engine, handle duplicates, and optimize performance using the right Ordering Key and PRIMARY KEY strategies. This guide offe
Forwarded from 5 minutes of data
Data Engineering Vault
📚 Data Engineering Vault - это настоящая сокровищница знаний в области инженерии данных. Это часть проекта Second Brain, который представляет собой обширную сеть взаимосвязанных концепций и идей. Second Brain организован по методологии Zettelkasten, а весь граф посторен на Obsidian.
🌐 В этом хранилище вы найдете более 100 терминов, связанных между собой, каждый из которых открывает дверь к глубоким знаниям в области дата-инжиниринга. Вот некоторые из основных топиков:
Архитектура данных: проектирование систем для эффективного хранения и обработки данных.
ETL процессы: извлечение, трансформация и загрузка данных.
Big Data технологии: Hadoop, Spark, Kafka и другие инструменты для работы с большими объемами данных.
Облачные платформы: AWS, Google Cloud, Azure и их сервисы для работы с данными.
Data Governance: управление данными, обеспечение их качества и безопасности.
🌱 Этот ресурс похож на "цифровой сад" - он постоянно растет и развивается. Вы можете исследовать связи между концепциями, углубляя свое понимание с каждым кликом.
🚀 Независимо от того, новичок вы или опытный специалист, Data Engineering Vault предлагает уникальную возможность расширить свои знания в области инженерии данных.
📚 Data Engineering Vault - это настоящая сокровищница знаний в области инженерии данных. Это часть проекта Second Brain, который представляет собой обширную сеть взаимосвязанных концепций и идей. Second Brain организован по методологии Zettelkasten, а весь граф посторен на Obsidian.
🌐 В этом хранилище вы найдете более 100 терминов, связанных между собой, каждый из которых открывает дверь к глубоким знаниям в области дата-инжиниринга. Вот некоторые из основных топиков:
Архитектура данных: проектирование систем для эффективного хранения и обработки данных.
ETL процессы: извлечение, трансформация и загрузка данных.
Big Data технологии: Hadoop, Spark, Kafka и другие инструменты для работы с большими объемами данных.
Облачные платформы: AWS, Google Cloud, Azure и их сервисы для работы с данными.
Data Governance: управление данными, обеспечение их качества и безопасности.
🌱 Этот ресурс похож на "цифровой сад" - он постоянно растет и развивается. Вы можете исследовать связи между концепциями, углубляя свое понимание с каждым кликом.
🚀 Независимо от того, новичок вы или опытный специалист, Data Engineering Vault предлагает уникальную возможность расширить свои знания в области инженерии данных.
Simon Späti's Second Brain
Data Engineering Vault
Data Engineering Vault
Welcome to the Data Engineering Vault, an integral part of my larger [[_index|Second Brain]]. This curated network of data engineering knowledge is designed to facilitate exploration, discovery, and deep learning in the field of…
Welcome to the Data Engineering Vault, an integral part of my larger [[_index|Second Brain]]. This curated network of data engineering knowledge is designed to facilitate exploration, discovery, and deep learning in the field of…
Forwarded from Николай Крупий
YouTube
Введение в dbt: основы моделирования данных | INZHENERKA.TECH
#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech
Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech
Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…
Forwarded from Summarize300Bot
Николай Крупий
https://youtu.be/BSge0lPJeHk
Введение в dbt: основы моделирования данных | INZHENERKA.TECH
00:00:10 Введение и ожидания
• Приветствие и просьба написать о себе и своей деятельности.
• Ведущий из Франции, зона Джим Ти плюс два.
• Ожидание участников из зоны Джим Ти плюс три и выше.
00:01:10 Введение в Debut
• Инженер данных, стажировка.
• Дебют как важный инструмент в карьере.
• Начало презентации и рассказ о вебинаре.
00:02:28 Представление ведущего
• Павел Роловец, ментор компании Инженека Тех.
• Представление вебинара по основам моделирования данных.
00:03:08 Введение в компанию и задачи
• Ведущий работает в компании Kontor, Франция.
• Разработка платформы больших данных для анализа.
• Совмещение работы инженера и ментора в школе Инженека Тех.
00:04:00 Цель вебинара
• Показать практическую ценность Debut.
• Обсуждение основных концепций и демонстрация работы с Debut.
00:05:24 Личный опыт и проблемы
• Личный опыт работы с Debut в компании.
• Проблемы с анализом данных и их решение.
00:06:01 Проблемы с данными
• Анализ терабайта данных в облаке.
• Проблемы с производительностью и качеством данных.
00:09:31 Попытки решения
• Использование Glue и Spark для подготовки данных.
• Проблемы с масштабируемостью и эффективностью.
00:10:52 Проблемы с Glue и Spark
• Проблемы с трансформацией данных в Glue и Spark.
• Несовместимость с ADF и сложность для аналитиков.
00:12:44 Альтернативное решение
• Обнаружение возможности создания таблиц в ADF.
• ADF как база данных для хранения данных.
00:13:22 Преимущества использования Apache Spark
• Добавление приписки в запрос Apache Spark позволяет создавать таблицы в формате Parquet.
• Это решение оказалось более эффективным и дешевым, чем стандартные подходы.
• Spark часто используется для ETL, но в данном случае данные уже были в хранилище.
00:14:21 Создание аналитических таблиц
• Создана библиотека для автоматизации создания аналитических таблиц.
• Библиотека считывает запросы, добавляет настройки и запускает их в Apache Spark.
• Решение упростило процесс обработки данных и сделало его более эффективным.
00:15:16 Проблемы и решения
• Проблемы с большими таблицами и инкрементальным подходом.
• Необходимость проверки качества данных и внедрения решений в рабочий процесс.
• Поддержка Apache Debut стала возможной благодаря поддержке от Apache.
00:18:14 Введение в Apache Debut
• Debut позволяет создавать таблицы и представления на основе Apache Spark.
• Debut использует шаблонизированную Apache Spark и имеет готовые стратегии материализации.
• Debut предоставляет инструменты для проверки качества данных и визуализации каталогов данных.
00:21:30 Преимущества Debut
• Debut делает аналитику более качественной и эффективной.
• Позволяет работать с командой через Git и другие инструменты разработки.
• Debut поддерживает множество хранилищ данных и является компилятором Apache Spark.
00:23:51 Заключение
• Debut упрощает трансформацию данных, когда они уже загружены в хранилище.
• Debut не работает с инжестингом данных, но может быть интегрирован с другими инструментами аналитики.
00:24:54 Введение и демонстрация
• Ведущий предлагает перейти к демонстрации и обсудить вопросы.
• Ведущий делится своими проблемами и опытом в аналитике.
00:00:10 Введение и ожидания
• Приветствие и просьба написать о себе и своей деятельности.
• Ведущий из Франции, зона Джим Ти плюс два.
• Ожидание участников из зоны Джим Ти плюс три и выше.
00:01:10 Введение в Debut
• Инженер данных, стажировка.
• Дебют как важный инструмент в карьере.
• Начало презентации и рассказ о вебинаре.
00:02:28 Представление ведущего
• Павел Роловец, ментор компании Инженека Тех.
• Представление вебинара по основам моделирования данных.
00:03:08 Введение в компанию и задачи
• Ведущий работает в компании Kontor, Франция.
• Разработка платформы больших данных для анализа.
• Совмещение работы инженера и ментора в школе Инженека Тех.
00:04:00 Цель вебинара
• Показать практическую ценность Debut.
• Обсуждение основных концепций и демонстрация работы с Debut.
00:05:24 Личный опыт и проблемы
• Личный опыт работы с Debut в компании.
• Проблемы с анализом данных и их решение.
00:06:01 Проблемы с данными
• Анализ терабайта данных в облаке.
• Проблемы с производительностью и качеством данных.
00:09:31 Попытки решения
• Использование Glue и Spark для подготовки данных.
• Проблемы с масштабируемостью и эффективностью.
00:10:52 Проблемы с Glue и Spark
• Проблемы с трансформацией данных в Glue и Spark.
• Несовместимость с ADF и сложность для аналитиков.
00:12:44 Альтернативное решение
• Обнаружение возможности создания таблиц в ADF.
• ADF как база данных для хранения данных.
00:13:22 Преимущества использования Apache Spark
• Добавление приписки в запрос Apache Spark позволяет создавать таблицы в формате Parquet.
• Это решение оказалось более эффективным и дешевым, чем стандартные подходы.
• Spark часто используется для ETL, но в данном случае данные уже были в хранилище.
00:14:21 Создание аналитических таблиц
• Создана библиотека для автоматизации создания аналитических таблиц.
• Библиотека считывает запросы, добавляет настройки и запускает их в Apache Spark.
• Решение упростило процесс обработки данных и сделало его более эффективным.
00:15:16 Проблемы и решения
• Проблемы с большими таблицами и инкрементальным подходом.
• Необходимость проверки качества данных и внедрения решений в рабочий процесс.
• Поддержка Apache Debut стала возможной благодаря поддержке от Apache.
00:18:14 Введение в Apache Debut
• Debut позволяет создавать таблицы и представления на основе Apache Spark.
• Debut использует шаблонизированную Apache Spark и имеет готовые стратегии материализации.
• Debut предоставляет инструменты для проверки качества данных и визуализации каталогов данных.
00:21:30 Преимущества Debut
• Debut делает аналитику более качественной и эффективной.
• Позволяет работать с командой через Git и другие инструменты разработки.
• Debut поддерживает множество хранилищ данных и является компилятором Apache Spark.
00:23:51 Заключение
• Debut упрощает трансформацию данных, когда они уже загружены в хранилище.
• Debut не работает с инжестингом данных, но может быть интегрирован с другими инструментами аналитики.
00:24:54 Введение и демонстрация
• Ведущий предлагает перейти к демонстрации и обсудить вопросы.
• Ведущий делится своими проблемами и опытом в аналитике.
YouTube
Введение в dbt: основы моделирования данных | INZHENERKA.TECH
#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech
Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech
Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…