Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from 5 minutes of data
Data Engineering Vault

📚 Data Engineering Vault - это настоящая сокровищница знаний в области инженерии данных. Это часть проекта Second Brain, который представляет собой обширную сеть взаимосвязанных концепций и идей. Second Brain организован по методологии Zettelkasten, а весь граф посторен на Obsidian.

🌐 В этом хранилище вы найдете более 100 терминов, связанных между собой, каждый из которых открывает дверь к глубоким знаниям в области дата-инжиниринга. Вот некоторые из основных топиков:

Архитектура данных: проектирование систем для эффективного хранения и обработки данных.

ETL процессы: извлечение, трансформация и загрузка данных.

Big Data технологии: Hadoop, Spark, Kafka и другие инструменты для работы с большими объемами данных.

Облачные платформы: AWS, Google Cloud, Azure и их сервисы для работы с данными.

Data Governance: управление данными, обеспечение их качества и безопасности.

🌱 Этот ресурс похож на "цифровой сад" - он постоянно растет и развивается. Вы можете исследовать связи между концепциями, углубляя свое понимание с каждым кликом.

🚀 Независимо от того, новичок вы или опытный специалист, Data Engineering Vault предлагает уникальную возможность расширить свои знания в области инженерии данных.
Forwarded from Summarize300Bot
Николай Крупий
https://youtu.be/BSge0lPJeHk
Введение в dbt: основы моделирования данных | INZHENERKA.TECH
00:00:10 Введение и ожидания
• Приветствие и просьба написать о себе и своей деятельности.
• Ведущий из Франции, зона Джим Ти плюс два.
• Ожидание участников из зоны Джим Ти плюс три и выше.

00:01:10 Введение в Debut
• Инженер данных, стажировка.
• Дебют как важный инструмент в карьере.
• Начало презентации и рассказ о вебинаре.

00:02:28 Представление ведущего
• Павел Роловец, ментор компании Инженека Тех.
• Представление вебинара по основам моделирования данных.

00:03:08 Введение в компанию и задачи
• Ведущий работает в компании Kontor, Франция.
• Разработка платформы больших данных для анализа.
• Совмещение работы инженера и ментора в школе Инженека Тех.

00:04:00 Цель вебинара
• Показать практическую ценность Debut.
• Обсуждение основных концепций и демонстрация работы с Debut.

00:05:24 Личный опыт и проблемы
• Личный опыт работы с Debut в компании.
• Проблемы с анализом данных и их решение.

00:06:01 Проблемы с данными
• Анализ терабайта данных в облаке.
• Проблемы с производительностью и качеством данных.

00:09:31 Попытки решения
• Использование Glue и Spark для подготовки данных.
• Проблемы с масштабируемостью и эффективностью.

00:10:52 Проблемы с Glue и Spark
• Проблемы с трансформацией данных в Glue и Spark.
• Несовместимость с ADF и сложность для аналитиков.

00:12:44 Альтернативное решение
• Обнаружение возможности создания таблиц в ADF.
• ADF как база данных для хранения данных.

00:13:22 Преимущества использования Apache Spark
• Добавление приписки в запрос Apache Spark позволяет создавать таблицы в формате Parquet.
• Это решение оказалось более эффективным и дешевым, чем стандартные подходы.
• Spark часто используется для ETL, но в данном случае данные уже были в хранилище.

00:14:21 Создание аналитических таблиц
• Создана библиотека для автоматизации создания аналитических таблиц.
• Библиотека считывает запросы, добавляет настройки и запускает их в Apache Spark.
• Решение упростило процесс обработки данных и сделало его более эффективным.

00:15:16 Проблемы и решения
• Проблемы с большими таблицами и инкрементальным подходом.
• Необходимость проверки качества данных и внедрения решений в рабочий процесс.
• Поддержка Apache Debut стала возможной благодаря поддержке от Apache.

00:18:14 Введение в Apache Debut
• Debut позволяет создавать таблицы и представления на основе Apache Spark.
• Debut использует шаблонизированную Apache Spark и имеет готовые стратегии материализации.
• Debut предоставляет инструменты для проверки качества данных и визуализации каталогов данных.

00:21:30 Преимущества Debut
• Debut делает аналитику более качественной и эффективной.
• Позволяет работать с командой через Git и другие инструменты разработки.
• Debut поддерживает множество хранилищ данных и является компилятором Apache Spark.

00:23:51 Заключение
• Debut упрощает трансформацию данных, когда они уже загружены в хранилище.
• Debut не работает с инжестингом данных, но может быть интегрирован с другими инструментами аналитики.

00:24:54 Введение и демонстрация
• Ведущий предлагает перейти к демонстрации и обсудить вопросы.
• Ведущий делится своими проблемами и опытом в аналитике.
Forwarded from Summarize300Bot
Николай Крупий
https://youtu.be/BSge0lPJeHk
• Пример задачи: анализ данных о поездках самокатов для определения популярных брендов.

00:27:22 Настройка проекта в Debut
• Использование Debut в облаке для удобства настройки и работы.
• Пример проекта в Debut и его структура.
• Настройка проекта и подключение к базе данных.

00:29:50 Настройка моделей и таблиц
• Настройка моделей и таблиц в Debut.
• Пример модели "trip prep" и её использование для анализа данных.
• Использование Debut для анализа данных и создания отчетов.

00:34:56 Компиляция моделей
• Компиляция модели "trip prep" с использованием Debut.
• Шаблонизированный скель и его использование.
• Компиляция модели и её размещение в папке "target".

00:36:20 Заключение
• Ведущий завершает демонстрацию и объясняет концепцию работы Debut.
• Подчеркивает важность понимания концепции для успешного использования Debut.

00:36:54 Введение в Debut
• Debut позволяет компилировать и запускать модели, добавляя их в базу данных.
• Пример: создание модели из текстового файла с помощью Debut.
• Debut упрощает создание аналитики из текстовых файлов, хранящихся в Git.
• Пример: использование файла с моделями самокатов для создания таблицы.
• Debut позволяет создавать таблицы из файлов, что упрощает процесс.
• Пример: копирование файла с моделями в папку seeds и запуск Debut.
• Debut поддерживает файлы с описаниями свойств моделей.
• Пример: создание файла с описанием свойств модели.
• Debut позволяет настраивать источники данных и их свежесть.
• Пример: настройка источников данных для моделей.
• Debut позволяет создавать модели и таблицы, используя макросы.
• Пример: создание модели и таблицы с помощью макросов.
• Debut позволяет агрегировать данные по компаниям и моделям.
• Пример: создание таблицы с количеством моделей по компаниям.
• Debut позволяет ссылаться на другие сущности через макросы.
• Пример: добавление макроса для ссылки на модель.
• Debut позволяет создавать даталайны для моделей.
• Пример: обновление таблицы с учетом зависимостей.
• Debut позволяет автоматически обновлять данные при запуске проекта.

00:51:29 Введение в Debut
• Debut - это инструмент для создания моделей данных.
• Он позволяет запускать модели в определенном порядке.
• Процесс создания модели занимает около минуты.

00:52:28 Шаблонизация и веб-опыт
• Debut использует шаблонизацию из веб-разработки.
• Шаблонизация хорошо работает в Debut.

00:52:42 Пример модели
• Пример модели для подсчета количества самокатов по брендам.
• Использование Debut для обновления аналитики в базе данных.

00:53:58 Создание модели
• Создание модели для подсчета количества поездок по моделям и брендам.
• Использование кода из файла README.md для создания модели.

00:54:48 Запуск и форматирование
• Запуск модели Debut.
• Проверка и форматирование модели для удобства использования.

00:56:07 Шаблонизация данных
• Шаблонизация данных для подсчета поездок по моделям и брендам.
• Использование реф-артефактов для корректного соединения таблиц.

00:57:15 Обновление данных
• Debut обновляет данные, включая зависимости моделей.
• Запуск модели с плюсиком для обновления всех зависимостей.

00:58:23 Проверка результатов
• Проверка результатов в базе данных.
• Вывод для бизнеса: покупка самоката не зависит от бренда.

00:59:37 Ошибки и их исправление
• Исправление ошибки при создании модели.
Forwarded from Summarize300Bot
Николай Крупий
https://youtu.be/BSge0lPJeHk
• Перенос модели в правильную папку для корректной работы.

01:00:36 Завершение и коммит
• Обновление модели и проверка данных.
• Коммит и пуш изменений в ветку вебинара.
• Поддержка Git для быстрого и удобного использования.

01:02:09 Введение в Debut
• Демонстрация работы Debut локально.
• Использование Debut для создания и перестройки моделей.
• Настройка подключения к базе данных.

01:05:04 Генерация документации
• Генерация документации в виде веб-сайта.
• Локальное размещение документации.
• Обзор документации: базы данных, модели, зависимости.

01:08:23 Заключение демонстрации
• Преимущества Debut: простота использования, настройка пайплайнов.
• Debut как инструмент для моделирования данных.
• Различие между нормализацией и моделированием в Debut.

01:09:56 Моделирование данных в Debut
• Debut как декларативный инструмент для описания пайплайнов.
• Преимущества использования Debut для моделирования данных.
• Пример использования Debut для анализа сложных запросов.

01:12:39 Применение Debut в реальных задачах
• Пример использования Debut для оптимизации сложных запросов.
• Преимущества Debut в сравнении с другими инструментами.
• Пример рефакторинга больших запросов.

01:15:23 Проблемы с запросами и данными
• Обсуждение проблем с сообщениями и ответами.
• Рефакторинг сложных запросов в отдельные модели.
• Разбиение сложных моделей на более простые и тестируемые.

01:16:16 Работа с некачественными данными
• Разговор с аналитиками о качестве данных.
• Симбиоз дата-инженера и аналитика для обеспечения качества данных.
• Оптимизация запросов для уменьшения времени выполнения.

01:18:16 Тесты и качество данных
• Важность тестов для качества данных.
• Использование пакетов для тестирования.
• Перенос запросов на обработанные таблицы для улучшения качества данных.

01:19:15 Проблемы с большими объемами данных
• Проблемы с обработкой больших объемов данных.
• Создание инкрементальных таблиц для уменьшения нагрузки.
• Преимущества инкрементальных таблиц в Debut.

01:21:24 Внедрение Debut в продуктовой аналитике
• Внедрение Debut в кикшеринговой компании.
• Проблемы с устаревшими кодами и процедурами в продуктовой аналитике.
• Переход на Debut для улучшения качества данных и архитектуры.

01:22:18 Проблемы с кодом и процедурами
• Проблемы с хранением кода в базе данных.
• Неудобства при доработке и поддержке кода.
• Проблемы с зависимостями между пайплайнами данных.

01:25:12 Переход на Debut и оркестратор Dask
• Переход на Debut для продуктовой аналитики.
• Использование Dask для оркестрации пайплайнов.
• Перенос моделей из Postgres в Debut для улучшения производительности.

01:26:41 Переход на Debut
• Debut и Postgres похожи, но с минимальными доработками можно использовать в новых проектах.
• Debut можно запускать по расписанию, используя бесплатные возможности GitHub Actions.
• Интеграция с Dask позволяет создавать красивые дата-лайны и внедрять инжестинг.

01:27:58 Преимущества Debut
• Debut поддерживает различные стратегии материализации данных.
• Предоставляет лучшие практики аналитики и рабочие подходы.
• Поддерживает различные базы данных и хранилища, что делает его универсальным.

01:30:46 Сложности и подводные камни
• Debut требует глубокого освоения, особенно для новичков.
Forwarded from Summarize300Bot
Николай Крупий
https://youtu.be/BSge0lPJeHk
• Для аналитиков и дата-инженеров освоение Debut проще.
• Debut не подходит для всех задач, иногда требуется интеграция с другими инструментами.

01:32:41 Масштабирование и ограничения
• Debut лучше подходит для обработки больших данных, чем для сложных вычислений.
• Ограничения масштабирования могут стать проблемой при росте объема данных.
• Пример использования Debut в компании с обработкой данных из 20 предметных областей.

01:34:36 Практическое применение и советы
• Практическое применение Debut через Dask и Apache Aphine.
• Рекомендуется начинать с практики, а не только с теории.
• Доступны бесплатные демо-уроки и документация для начала работы с Debut.

01:36:30 Заключение
• Использование больших языковых моделей, таких как GPT-3, ускоряет освоение концепций Debut.

01:36:47 Введение в симулятор по Data Science
• Промокод на скидку 20% для тех, кто заинтересуется симулятором по Data Science.
• Симулятор имитирует реальные аналитические задачи и работу в стартапе.
• Помогает освоить Data Science и терминологию, а также подготовиться к собеседованиям.

01:37:39 Преимущества симулятора
• Симулятор помогает полноценно освоить Data Science.
• Включает терминологию и концепции, актуальные для современного мира аналитики.
• Бонусом добавлена тема Databricks, которая становится важной для работы с данными.

01:38:37 Рекомендации и компания "Инженерка"
• Симулятор платный, но есть бесплатные демо-уроки.
• Компания "Инженерка" обучила более 300 специалистов за три года.
• Преподаватели с международной карьерой и опытом.

01:39:41 Преимущества учебных программ "Инженерка"
• Обучение на практике, без лишней теории.
• Настройка инфраструктуры для обучения.
• Доступ к материалам после обучения.

01:41:04 Заключение и обратная связь
• Призыв следить за новостями и анонсами "Инженерка".
• Промокод и бесплатный доступ к тренажерам.
• Благодарность за участие и отзывы.

01:42:17 Личный опыт и выводы
• Личный опыт освоения Data Science.
• Data Science как инструмент для упрощения работы.
• Примеры использования Data Science для улучшения работы и качества данных.

01:45:29 Заключение и прощание
• Призыв к дальнейшему общению в чате "Инженерка".
• Прощание и завершение демонстрации.
Forwarded from Summarize300Bot
Николай Крупий
https://habr.com/ru/companies/postgrespro/articles/844540/
Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

• Статья посвящена обзору актуальных технологий СУБД и их развитию за последние 20 лет.Link
• Реляционная модель с расширяемой системой типов (объектно-реляционная) доминирует на рынке СУБД.Link
• Основные достижения в системах РM связаны с изменениями характеристик оборудования.Link
• SQL и реляционные СУБД продолжают эволюционировать.Link
• В статье рассматриваются различные модели данных и языки запросов для баз данных: MapReduce, хранилища "ключ-значение", документоориентированные базы данных, базы данных типа "Семейство столбцов", текстовые поисковые движки, базы данных массивов, векторные базы данных, графовые базы данных.
Forwarded from Summarize300Bot
Николай Крупий
https://habr.com/ru/companies/postgrespro/articles/844540/
Link
• Большинство систем, отличных от SQL или РM, обслуживают нишевые рынки и не доминируют на рынке СУБД.Link
• Многие системы, которые начинали с отказа от РM, теперь предоставляют интерфейс, похожий на SQL для РM-баз данных.Link
• SQL аккумулировал лучшие идеи языков запросов для расширения поддержки современных приложений и оставаться актуальным.Link
• Пересказана только часть. Для продолжения перейдите в режим подробного пересказа.Link
Forwarded from DATABASE DESIGN
Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

От редакции: Майкл Стоунбрейкер - один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Энрю Павло, недавно опубликовал большой обзор всех актуальных технологий систем управления базами данных. В этом материале — подробно обо всем, что произошло в мире баз данных за последнее время, а также прогнозы. Мы посчитали что нельзя лишать нашу аудиторию возможности ознакомиться с этим обзором, поэтому подготовили данный перевод.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~


Читать: https://habr.com/ru/companies/postgrespro/articles/844540/

#ru

@database_design | Другие наши каналы