Data Engineering / reposts & drafts – Telegram

Data Engineering / reposts & drafts

@DataEngineering_ru

35 subscribers

227 photos

22 videos

40 files

557 links

#DataEngineering
#data_engineering
#data_engineering_ru

#DE_ru #DE

Download Telegram

About

Blog

Apps

Platform

Data Engineering / reposts & drafts

Data Engineering / reposts & drafts

Forwarded from Николай Хитров | Блог

Есть только моя архитектура и ваши неправильные [Запись]

Вышла запись моего доклада с Pycon этого года. Немного накидал на вентилятор про популярные подходы в архитектуре и откуда они вообще появились. Enjoy🍿

https://youtu.be/bpNVX9GCIWI?si=G9-HoyrrjwLnF9mk

Николай Хитров. Есть только моя архитектура и ваши неправильные

Николай Хитров
Точка

Есть только моя архитектура и ваши неправильные

Разработчики постоянно спорят о том, как правильно проектировать приложения. Они разделяются на клубы по интересам, где каждый восхваляет свой единственно верный умный подход. И если джависты…

3 views18:38

Data Engineering / reposts & drafts

Forwarded from Николай Хитров | Блог

Николай Хитров | Блог

Есть только моя архитектура и ваши неправильные [Запись] Вышла запись моего доклада с Pycon этого года. Немного накидал на вентилятор про популярные подходы в архитектуре и откуда они вообще появились. Enjoy🍿 https://youtu.be/bpNVX9GCIWI?si=G9-HoyrrjwLnF9mk

Презентация к докладу

3 views18:38

Data Engineering / reposts & drafts

Forwarded from DE

#de #dev #meme #vector #db #vectordb

3 views18:38

Data Engineering / reposts & drafts

Forwarded from DE

3 views18:38

Data Engineering / reposts & drafts

Forwarded from DE

Alaa - Optimization Algorithms - 2024.pdf

3 views18:38

Data Engineering / reposts & drafts

Forwarded from DE

3 views18:38

Data Engineering / reposts & drafts

Forwarded from DE

Антипаттерны SQL.pdf

2 views18:38

Data Engineering / reposts & drafts

Forwarded from DE

https://clickhouse.com/blog/postgres-to-clickhouse-data-modeling-tips

Postgres to ClickHouse: Data Modeling Tips

Learn data modeling tips while transitioning from Postgres to ClickHouse. Discover how to leverage ClickHouse’s ReplacingMergeTree engine, handle duplicates, and optimize performance using the right Ordering Key and PRIMARY KEY strategies. This guide offe

2 views18:38

Data Engineering / reposts & drafts

Forwarded from DE

#meme #airflow #dbt

1 view18:38

Data Engineering / reposts & drafts

Forwarded from 5 minutes of data

Data Engineering Vault

📚 Data Engineering Vault - это настоящая сокровищница знаний в области инженерии данных. Это часть проекта Second Brain, который представляет собой обширную сеть взаимосвязанных концепций и идей. Second Brain организован по методологии Zettelkasten, а весь граф посторен на Obsidian.

🌐 В этом хранилище вы найдете более 100 терминов, связанных между собой, каждый из которых открывает дверь к глубоким знаниям в области дата-инжиниринга. Вот некоторые из основных топиков:

Архитектура данных: проектирование систем для эффективного хранения и обработки данных.

ETL процессы: извлечение, трансформация и загрузка данных.

Big Data технологии: Hadoop, Spark, Kafka и другие инструменты для работы с большими объемами данных.

Облачные платформы: AWS, Google Cloud, Azure и их сервисы для работы с данными.

Data Governance: управление данными, обеспечение их качества и безопасности.

🌱 Этот ресурс похож на "цифровой сад" - он постоянно растет и развивается. Вы можете исследовать связи между концепциями, углубляя свое понимание с каждым кликом.

🚀 Независимо от того, новичок вы или опытный специалист, Data Engineering Vault предлагает уникальную возможность расширить свои знания в области инженерии данных.

Simon Späti's Second Brain

Data Engineering Vault

Data Engineering Vault
Welcome to the Data Engineering Vault, an integral part of my larger [[_index|Second Brain]]. This curated network of data engineering knowledge is designed to facilitate exploration, discovery, and deep learning in the field of…

1 view20:40

Data Engineering / reposts & drafts

Forwarded from Николай Крупий

https://youtu.be/BSge0lPJeHk

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://youtu.be/BSge0lPJeHk

Введение в dbt: основы моделирования данных | INZHENERKA.TECH
00:00:10 Введение и ожидания
• Приветствие и просьба написать о себе и своей деятельности.
• Ведущий из Франции, зона Джим Ти плюс два.
• Ожидание участников из зоны Джим Ти плюс три и выше.

00:01:10 Введение в Debut
• Инженер данных, стажировка.
• Дебют как важный инструмент в карьере.
• Начало презентации и рассказ о вебинаре.

00:02:28 Представление ведущего
• Павел Роловец, ментор компании Инженека Тех.
• Представление вебинара по основам моделирования данных.

00:03:08 Введение в компанию и задачи
• Ведущий работает в компании Kontor, Франция.
• Разработка платформы больших данных для анализа.
• Совмещение работы инженера и ментора в школе Инженека Тех.

00:04:00 Цель вебинара
• Показать практическую ценность Debut.
• Обсуждение основных концепций и демонстрация работы с Debut.

00:05:24 Личный опыт и проблемы
• Личный опыт работы с Debut в компании.
• Проблемы с анализом данных и их решение.

00:06:01 Проблемы с данными
• Анализ терабайта данных в облаке.
• Проблемы с производительностью и качеством данных.

00:09:31 Попытки решения
• Использование Glue и Spark для подготовки данных.
• Проблемы с масштабируемостью и эффективностью.

00:10:52 Проблемы с Glue и Spark
• Проблемы с трансформацией данных в Glue и Spark.
• Несовместимость с ADF и сложность для аналитиков.

00:12:44 Альтернативное решение
• Обнаружение возможности создания таблиц в ADF.
• ADF как база данных для хранения данных.

00:13:22 Преимущества использования Apache Spark
• Добавление приписки в запрос Apache Spark позволяет создавать таблицы в формате Parquet.
• Это решение оказалось более эффективным и дешевым, чем стандартные подходы.
• Spark часто используется для ETL, но в данном случае данные уже были в хранилище.

00:14:21 Создание аналитических таблиц
• Создана библиотека для автоматизации создания аналитических таблиц.
• Библиотека считывает запросы, добавляет настройки и запускает их в Apache Spark.
• Решение упростило процесс обработки данных и сделало его более эффективным.

00:15:16 Проблемы и решения
• Проблемы с большими таблицами и инкрементальным подходом.
• Необходимость проверки качества данных и внедрения решений в рабочий процесс.
• Поддержка Apache Debut стала возможной благодаря поддержке от Apache.

00:18:14 Введение в Apache Debut
• Debut позволяет создавать таблицы и представления на основе Apache Spark.
• Debut использует шаблонизированную Apache Spark и имеет готовые стратегии материализации.
• Debut предоставляет инструменты для проверки качества данных и визуализации каталогов данных.

00:21:30 Преимущества Debut
• Debut делает аналитику более качественной и эффективной.
• Позволяет работать с командой через Git и другие инструменты разработки.
• Debut поддерживает множество хранилищ данных и является компилятором Apache Spark.

00:23:51 Заключение
• Debut упрощает трансформацию данных, когда они уже загружены в хранилище.
• Debut не работает с инжестингом данных, но может быть интегрирован с другими инструментами аналитики.

00:24:54 Введение и демонстрация
• Ведущий предлагает перейти к демонстрации и обсудить вопросы.
• Ведущий делится своими проблемами и опытом в аналитике.

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://youtu.be/BSge0lPJeHk

• Пример задачи: анализ данных о поездках самокатов для определения популярных брендов.

00:27:22 Настройка проекта в Debut
• Использование Debut в облаке для удобства настройки и работы.
• Пример проекта в Debut и его структура.
• Настройка проекта и подключение к базе данных.

00:29:50 Настройка моделей и таблиц
• Настройка моделей и таблиц в Debut.
• Пример модели "trip prep" и её использование для анализа данных.
• Использование Debut для анализа данных и создания отчетов.

00:34:56 Компиляция моделей
• Компиляция модели "trip prep" с использованием Debut.
• Шаблонизированный скель и его использование.
• Компиляция модели и её размещение в папке "target".

00:36:20 Заключение
• Ведущий завершает демонстрацию и объясняет концепцию работы Debut.
• Подчеркивает важность понимания концепции для успешного использования Debut.

00:36:54 Введение в Debut
• Debut позволяет компилировать и запускать модели, добавляя их в базу данных.
• Пример: создание модели из текстового файла с помощью Debut.
• Debut упрощает создание аналитики из текстовых файлов, хранящихся в Git.
• Пример: использование файла с моделями самокатов для создания таблицы.
• Debut позволяет создавать таблицы из файлов, что упрощает процесс.
• Пример: копирование файла с моделями в папку seeds и запуск Debut.
• Debut поддерживает файлы с описаниями свойств моделей.
• Пример: создание файла с описанием свойств модели.
• Debut позволяет настраивать источники данных и их свежесть.
• Пример: настройка источников данных для моделей.
• Debut позволяет создавать модели и таблицы, используя макросы.
• Пример: создание модели и таблицы с помощью макросов.
• Debut позволяет агрегировать данные по компаниям и моделям.
• Пример: создание таблицы с количеством моделей по компаниям.
• Debut позволяет ссылаться на другие сущности через макросы.
• Пример: добавление макроса для ссылки на модель.
• Debut позволяет создавать даталайны для моделей.
• Пример: обновление таблицы с учетом зависимостей.
• Debut позволяет автоматически обновлять данные при запуске проекта.

00:51:29 Введение в Debut
• Debut - это инструмент для создания моделей данных.
• Он позволяет запускать модели в определенном порядке.
• Процесс создания модели занимает около минуты.

00:52:28 Шаблонизация и веб-опыт
• Debut использует шаблонизацию из веб-разработки.
• Шаблонизация хорошо работает в Debut.

00:52:42 Пример модели
• Пример модели для подсчета количества самокатов по брендам.
• Использование Debut для обновления аналитики в базе данных.

00:53:58 Создание модели
• Создание модели для подсчета количества поездок по моделям и брендам.
• Использование кода из файла README.md для создания модели.

00:54:48 Запуск и форматирование
• Запуск модели Debut.
• Проверка и форматирование модели для удобства использования.

00:56:07 Шаблонизация данных
• Шаблонизация данных для подсчета поездок по моделям и брендам.
• Использование реф-артефактов для корректного соединения таблиц.

00:57:15 Обновление данных
• Debut обновляет данные, включая зависимости моделей.
• Запуск модели с плюсиком для обновления всех зависимостей.

00:58:23 Проверка результатов
• Проверка результатов в базе данных.
• Вывод для бизнеса: покупка самоката не зависит от бренда.

00:59:37 Ошибки и их исправление
• Исправление ошибки при создании модели.

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…

1 view08:44

Data Engineering / reposts & drafts

https://t.iss.one/hadoopusers/206364?thread=206329

#GP

Aleksei Razvodov in Data Engineers

Есть где-то статьи/доклады, которые можно почитать по вашей реализации онлайн ддл для вертики?

Источник большинства данных — kafka connect (CDC навроде debezium + sink), часть может спарком загружаться.

Операции предварительно могут быть какими угодно…

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://youtu.be/BSge0lPJeHk

• Перенос модели в правильную папку для корректной работы.

01:00:36 Завершение и коммит
• Обновление модели и проверка данных.
• Коммит и пуш изменений в ветку вебинара.
• Поддержка Git для быстрого и удобного использования.

01:02:09 Введение в Debut
• Демонстрация работы Debut локально.
• Использование Debut для создания и перестройки моделей.
• Настройка подключения к базе данных.

01:05:04 Генерация документации
• Генерация документации в виде веб-сайта.
• Локальное размещение документации.
• Обзор документации: базы данных, модели, зависимости.

01:08:23 Заключение демонстрации
• Преимущества Debut: простота использования, настройка пайплайнов.
• Debut как инструмент для моделирования данных.
• Различие между нормализацией и моделированием в Debut.

01:09:56 Моделирование данных в Debut
• Debut как декларативный инструмент для описания пайплайнов.
• Преимущества использования Debut для моделирования данных.
• Пример использования Debut для анализа сложных запросов.

01:12:39 Применение Debut в реальных задачах
• Пример использования Debut для оптимизации сложных запросов.
• Преимущества Debut в сравнении с другими инструментами.
• Пример рефакторинга больших запросов.

01:15:23 Проблемы с запросами и данными
• Обсуждение проблем с сообщениями и ответами.
• Рефакторинг сложных запросов в отдельные модели.
• Разбиение сложных моделей на более простые и тестируемые.

01:16:16 Работа с некачественными данными
• Разговор с аналитиками о качестве данных.
• Симбиоз дата-инженера и аналитика для обеспечения качества данных.
• Оптимизация запросов для уменьшения времени выполнения.

01:18:16 Тесты и качество данных
• Важность тестов для качества данных.
• Использование пакетов для тестирования.
• Перенос запросов на обработанные таблицы для улучшения качества данных.

01:19:15 Проблемы с большими объемами данных
• Проблемы с обработкой больших объемов данных.
• Создание инкрементальных таблиц для уменьшения нагрузки.
• Преимущества инкрементальных таблиц в Debut.

01:21:24 Внедрение Debut в продуктовой аналитике
• Внедрение Debut в кикшеринговой компании.
• Проблемы с устаревшими кодами и процедурами в продуктовой аналитике.
• Переход на Debut для улучшения качества данных и архитектуры.

01:22:18 Проблемы с кодом и процедурами
• Проблемы с хранением кода в базе данных.
• Неудобства при доработке и поддержке кода.
• Проблемы с зависимостями между пайплайнами данных.

01:25:12 Переход на Debut и оркестратор Dask
• Переход на Debut для продуктовой аналитики.
• Использование Dask для оркестрации пайплайнов.
• Перенос моделей из Postgres в Debut для улучшения производительности.

01:26:41 Переход на Debut
• Debut и Postgres похожи, но с минимальными доработками можно использовать в новых проектах.
• Debut можно запускать по расписанию, используя бесплатные возможности GitHub Actions.
• Интеграция с Dask позволяет создавать красивые дата-лайны и внедрять инжестинг.

01:27:58 Преимущества Debut
• Debut поддерживает различные стратегии материализации данных.
• Предоставляет лучшие практики аналитики и рабочие подходы.
• Поддерживает различные базы данных и хранилища, что делает его универсальным.

01:30:46 Сложности и подводные камни
• Debut требует глубокого освоения, особенно для новичков.

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://youtu.be/BSge0lPJeHk

• Для аналитиков и дата-инженеров освоение Debut проще.
• Debut не подходит для всех задач, иногда требуется интеграция с другими инструментами.

01:32:41 Масштабирование и ограничения
• Debut лучше подходит для обработки больших данных, чем для сложных вычислений.
• Ограничения масштабирования могут стать проблемой при росте объема данных.
• Пример использования Debut в компании с обработкой данных из 20 предметных областей.

01:34:36 Практическое применение и советы
• Практическое применение Debut через Dask и Apache Aphine.
• Рекомендуется начинать с практики, а не только с теории.
• Доступны бесплатные демо-уроки и документация для начала работы с Debut.

01:36:30 Заключение
• Использование больших языковых моделей, таких как GPT-3, ускоряет освоение концепций Debut.

01:36:47 Введение в симулятор по Data Science
• Промокод на скидку 20% для тех, кто заинтересуется симулятором по Data Science.
• Симулятор имитирует реальные аналитические задачи и работу в стартапе.
• Помогает освоить Data Science и терминологию, а также подготовиться к собеседованиям.

01:37:39 Преимущества симулятора
• Симулятор помогает полноценно освоить Data Science.
• Включает терминологию и концепции, актуальные для современного мира аналитики.
• Бонусом добавлена тема Databricks, которая становится важной для работы с данными.

01:38:37 Рекомендации и компания "Инженерка"
• Симулятор платный, но есть бесплатные демо-уроки.
• Компания "Инженерка" обучила более 300 специалистов за три года.
• Преподаватели с международной карьерой и опытом.

01:39:41 Преимущества учебных программ "Инженерка"
• Обучение на практике, без лишней теории.
• Настройка инфраструктуры для обучения.
• Доступ к материалам после обучения.

01:41:04 Заключение и обратная связь
• Призыв следить за новостями и анонсами "Инженерка".
• Промокод и бесплатный доступ к тренажерам.
• Благодарность за участие и отзывы.

01:42:17 Личный опыт и выводы
• Личный опыт освоения Data Science.
• Data Science как инструмент для упрощения работы.
• Примеры использования Data Science для улучшения работы и качества данных.

01:45:29 Заключение и прощание
• Призыв к дальнейшему общению в чате "Инженерка".
• Прощание и завершение демонстрации.

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…

2 views08:44

Data Engineering / reposts & drafts

Forwarded from Николай Крупий

https://habr.com/ru/companies/postgrespro/articles/844540/

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

От редакции: Майкл Стоунбрейкер — один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Эндрю Павло недавно опубликовал большой обзор всех актуальных технологий систем...

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://habr.com/ru/companies/postgrespro/articles/844540/

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

• Статья посвящена обзору актуальных технологий СУБД и их развитию за последние 20 лет.Link
• Реляционная модель с расширяемой системой типов (объектно-реляционная) доминирует на рынке СУБД.Link
• Основные достижения в системах РM связаны с изменениями характеристик оборудования.Link
• SQL и реляционные СУБД продолжают эволюционировать.Link
• В статье рассматриваются различные модели данных и языки запросов для баз данных: MapReduce, хранилища "ключ-значение", документоориентированные базы данных, базы данных типа "Семейство столбцов", текстовые поисковые движки, базы данных массивов, векторные базы данных, графовые базы данных.

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

От редакции: Майкл Стоунбрейкер — один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Эндрю Павло недавно опубликовал большой обзор всех актуальных технологий систем...

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://habr.com/ru/companies/postgrespro/articles/844540/

Link
• Большинство систем, отличных от SQL или РM, обслуживают нишевые рынки и не доминируют на рынке СУБД.Link
• Многие системы, которые начинали с отказа от РM, теперь предоставляют интерфейс, похожий на SQL для РM-баз данных.Link
• SQL аккумулировал лучшие идеи языков запросов для расширения поддержки современных приложений и оставаться актуальным.Link
• Пересказана только часть. Для продолжения перейдите в режим подробного пересказа.Link

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

От редакции: Майкл Стоунбрейкер — один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Эндрю Павло недавно опубликовал большой обзор всех актуальных технологий систем...

1 view08:44

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

От редакции: Майкл Стоунбрейкер - один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Энрю Павло, недавно опубликовал большой обзор всех актуальных технологий систем управления базами данных. В этом материале — подробно обо всем, что произошло в мире баз данных за последнее время, а также прогнозы. Мы посчитали что нельзя лишать нашу аудиторию возможности ознакомиться с этим обзором, поэтому подготовили данный перевод.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Читать: https://habr.com/ru/companies/postgrespro/articles/844540/

#ru

@database_design | Другие наши каналы

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

DATABASE DESIGN

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение» От редакции: Майкл Стоунбрейкер - один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Энрю Павло, недавно опубликовал большой обзор всех актуальных…

Processing: https://habr.com/ru/companies/postgrespro/articles/844540/

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

От редакции: Майкл Стоунбрейкер — один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Эндрю Павло недавно опубликовал большой обзор всех актуальных технологий систем...

1 view08:44