Data Engineering / reposts & drafts

Forwarded from DE

https://clickhouse.com/blog/postgres-to-clickhouse-data-modeling-tips

Postgres to ClickHouse: Data Modeling Tips

Learn data modeling tips while transitioning from Postgres to ClickHouse. Discover how to leverage ClickHouse’s ReplacingMergeTree engine, handle duplicates, and optimize performance using the right Ordering Key and PRIMARY KEY strategies. This guide offe

2 views18:38

Data Engineering / reposts & drafts

Forwarded from DE

#meme #airflow #dbt

1 view18:38

Data Engineering / reposts & drafts

Forwarded from 5 minutes of data

Data Engineering Vault

📚 Data Engineering Vault - это настоящая сокровищница знаний в области инженерии данных. Это часть проекта Second Brain, который представляет собой обширную сеть взаимосвязанных концепций и идей. Second Brain организован по методологии Zettelkasten, а весь граф посторен на Obsidian.

🌐 В этом хранилище вы найдете более 100 терминов, связанных между собой, каждый из которых открывает дверь к глубоким знаниям в области дата-инжиниринга. Вот некоторые из основных топиков:

Архитектура данных: проектирование систем для эффективного хранения и обработки данных.

ETL процессы: извлечение, трансформация и загрузка данных.

Big Data технологии: Hadoop, Spark, Kafka и другие инструменты для работы с большими объемами данных.

Облачные платформы: AWS, Google Cloud, Azure и их сервисы для работы с данными.

Data Governance: управление данными, обеспечение их качества и безопасности.

🌱 Этот ресурс похож на "цифровой сад" - он постоянно растет и развивается. Вы можете исследовать связи между концепциями, углубляя свое понимание с каждым кликом.

🚀 Независимо от того, новичок вы или опытный специалист, Data Engineering Vault предлагает уникальную возможность расширить свои знания в области инженерии данных.

Simon Späti's Second Brain

Data Engineering Vault

Data Engineering Vault
Welcome to the Data Engineering Vault, an integral part of my larger [[_index|Second Brain]]. This curated network of data engineering knowledge is designed to facilitate exploration, discovery, and deep learning in the field of…

1 view20:40

Data Engineering / reposts & drafts

Forwarded from Николай Крупий

https://youtu.be/BSge0lPJeHk

YouTube

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

#dbt #dataanalytics #dataengineering #dataengineer
🚀 Получить демо-доступ к курсу – https://clck.ru/3Bj87X
тг - канал с новостями от ИнженеркаТех – https://t.iss.one/InzhenerkaTech

Тайм-коды:
00:00 Начинаем
02:04 Рассказываем об ИнженеркаТех
03:54 В чем практическая…

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://youtu.be/BSge0lPJeHk

Введение в dbt: основы моделирования данных | INZHENERKA.TECH
00:00:10 Введение и ожидания
• Приветствие и просьба написать о себе и своей деятельности.
• Ведущий из Франции, зона Джим Ти плюс два.
• Ожидание участников из зоны Джим Ти плюс три и выше.

00:01:10 Введение в Debut
• Инженер данных, стажировка.
• Дебют как важный инструмент в карьере.
• Начало презентации и рассказ о вебинаре.

00:02:28 Представление ведущего
• Павел Роловец, ментор компании Инженека Тех.
• Представление вебинара по основам моделирования данных.

00:03:08 Введение в компанию и задачи
• Ведущий работает в компании Kontor, Франция.
• Разработка платформы больших данных для анализа.
• Совмещение работы инженера и ментора в школе Инженека Тех.

00:04:00 Цель вебинара
• Показать практическую ценность Debut.
• Обсуждение основных концепций и демонстрация работы с Debut.

00:05:24 Личный опыт и проблемы
• Личный опыт работы с Debut в компании.
• Проблемы с анализом данных и их решение.

00:06:01 Проблемы с данными
• Анализ терабайта данных в облаке.
• Проблемы с производительностью и качеством данных.

00:09:31 Попытки решения
• Использование Glue и Spark для подготовки данных.
• Проблемы с масштабируемостью и эффективностью.

00:10:52 Проблемы с Glue и Spark
• Проблемы с трансформацией данных в Glue и Spark.
• Несовместимость с ADF и сложность для аналитиков.

00:12:44 Альтернативное решение
• Обнаружение возможности создания таблиц в ADF.
• ADF как база данных для хранения данных.

00:13:22 Преимущества использования Apache Spark
• Добавление приписки в запрос Apache Spark позволяет создавать таблицы в формате Parquet.
• Это решение оказалось более эффективным и дешевым, чем стандартные подходы.
• Spark часто используется для ETL, но в данном случае данные уже были в хранилище.

00:14:21 Создание аналитических таблиц
• Создана библиотека для автоматизации создания аналитических таблиц.
• Библиотека считывает запросы, добавляет настройки и запускает их в Apache Spark.
• Решение упростило процесс обработки данных и сделало его более эффективным.

00:15:16 Проблемы и решения
• Проблемы с большими таблицами и инкрементальным подходом.
• Необходимость проверки качества данных и внедрения решений в рабочий процесс.
• Поддержка Apache Debut стала возможной благодаря поддержке от Apache.

00:18:14 Введение в Apache Debut
• Debut позволяет создавать таблицы и представления на основе Apache Spark.
• Debut использует шаблонизированную Apache Spark и имеет готовые стратегии материализации.
• Debut предоставляет инструменты для проверки качества данных и визуализации каталогов данных.

00:21:30 Преимущества Debut
• Debut делает аналитику более качественной и эффективной.
• Позволяет работать с командой через Git и другие инструменты разработки.
• Debut поддерживает множество хранилищ данных и является компилятором Apache Spark.

00:23:51 Заключение
• Debut упрощает трансформацию данных, когда они уже загружены в хранилище.
• Debut не работает с инжестингом данных, но может быть интегрирован с другими инструментами аналитики.

00:24:54 Введение и демонстрация
• Ведущий предлагает перейти к демонстрации и обсудить вопросы.
• Ведущий делится своими проблемами и опытом в аналитике.

YouTube

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://youtu.be/BSge0lPJeHk

• Пример задачи: анализ данных о поездках самокатов для определения популярных брендов.

00:27:22 Настройка проекта в Debut
• Использование Debut в облаке для удобства настройки и работы.
• Пример проекта в Debut и его структура.
• Настройка проекта и подключение к базе данных.

00:29:50 Настройка моделей и таблиц
• Настройка моделей и таблиц в Debut.
• Пример модели "trip prep" и её использование для анализа данных.
• Использование Debut для анализа данных и создания отчетов.

00:34:56 Компиляция моделей
• Компиляция модели "trip prep" с использованием Debut.
• Шаблонизированный скель и его использование.
• Компиляция модели и её размещение в папке "target".

00:36:20 Заключение
• Ведущий завершает демонстрацию и объясняет концепцию работы Debut.
• Подчеркивает важность понимания концепции для успешного использования Debut.

00:36:54 Введение в Debut
• Debut позволяет компилировать и запускать модели, добавляя их в базу данных.
• Пример: создание модели из текстового файла с помощью Debut.
• Debut упрощает создание аналитики из текстовых файлов, хранящихся в Git.
• Пример: использование файла с моделями самокатов для создания таблицы.
• Debut позволяет создавать таблицы из файлов, что упрощает процесс.
• Пример: копирование файла с моделями в папку seeds и запуск Debut.
• Debut поддерживает файлы с описаниями свойств моделей.
• Пример: создание файла с описанием свойств модели.
• Debut позволяет настраивать источники данных и их свежесть.
• Пример: настройка источников данных для моделей.
• Debut позволяет создавать модели и таблицы, используя макросы.
• Пример: создание модели и таблицы с помощью макросов.
• Debut позволяет агрегировать данные по компаниям и моделям.
• Пример: создание таблицы с количеством моделей по компаниям.
• Debut позволяет ссылаться на другие сущности через макросы.
• Пример: добавление макроса для ссылки на модель.
• Debut позволяет создавать даталайны для моделей.
• Пример: обновление таблицы с учетом зависимостей.
• Debut позволяет автоматически обновлять данные при запуске проекта.

00:51:29 Введение в Debut
• Debut - это инструмент для создания моделей данных.
• Он позволяет запускать модели в определенном порядке.
• Процесс создания модели занимает около минуты.

00:52:28 Шаблонизация и веб-опыт
• Debut использует шаблонизацию из веб-разработки.
• Шаблонизация хорошо работает в Debut.

00:52:42 Пример модели
• Пример модели для подсчета количества самокатов по брендам.
• Использование Debut для обновления аналитики в базе данных.

00:53:58 Создание модели
• Создание модели для подсчета количества поездок по моделям и брендам.
• Использование кода из файла README.md для создания модели.

00:54:48 Запуск и форматирование
• Запуск модели Debut.
• Проверка и форматирование модели для удобства использования.

00:56:07 Шаблонизация данных
• Шаблонизация данных для подсчета поездок по моделям и брендам.
• Использование реф-артефактов для корректного соединения таблиц.

00:57:15 Обновление данных
• Debut обновляет данные, включая зависимости моделей.
• Запуск модели с плюсиком для обновления всех зависимостей.

00:58:23 Проверка результатов
• Проверка результатов в базе данных.
• Вывод для бизнеса: покупка самоката не зависит от бренда.

00:59:37 Ошибки и их исправление
• Исправление ошибки при создании модели.

YouTube

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

1 view08:44

Data Engineering / reposts & drafts

https://t.iss.one/hadoopusers/206364?thread=206329

#GP

Aleksei Razvodov in Data Engineers

Есть где-то статьи/доклады, которые можно почитать по вашей реализации онлайн ддл для вертики?

Источник большинства данных — kafka connect (CDC навроде debezium + sink), часть может спарком загружаться.

Операции предварительно могут быть какими угодно…

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://youtu.be/BSge0lPJeHk

• Перенос модели в правильную папку для корректной работы.

01:00:36 Завершение и коммит
• Обновление модели и проверка данных.
• Коммит и пуш изменений в ветку вебинара.
• Поддержка Git для быстрого и удобного использования.

01:02:09 Введение в Debut
• Демонстрация работы Debut локально.
• Использование Debut для создания и перестройки моделей.
• Настройка подключения к базе данных.

01:05:04 Генерация документации
• Генерация документации в виде веб-сайта.
• Локальное размещение документации.
• Обзор документации: базы данных, модели, зависимости.

01:08:23 Заключение демонстрации
• Преимущества Debut: простота использования, настройка пайплайнов.
• Debut как инструмент для моделирования данных.
• Различие между нормализацией и моделированием в Debut.

01:09:56 Моделирование данных в Debut
• Debut как декларативный инструмент для описания пайплайнов.
• Преимущества использования Debut для моделирования данных.
• Пример использования Debut для анализа сложных запросов.

01:12:39 Применение Debut в реальных задачах
• Пример использования Debut для оптимизации сложных запросов.
• Преимущества Debut в сравнении с другими инструментами.
• Пример рефакторинга больших запросов.

01:15:23 Проблемы с запросами и данными
• Обсуждение проблем с сообщениями и ответами.
• Рефакторинг сложных запросов в отдельные модели.
• Разбиение сложных моделей на более простые и тестируемые.

01:16:16 Работа с некачественными данными
• Разговор с аналитиками о качестве данных.
• Симбиоз дата-инженера и аналитика для обеспечения качества данных.
• Оптимизация запросов для уменьшения времени выполнения.

01:18:16 Тесты и качество данных
• Важность тестов для качества данных.
• Использование пакетов для тестирования.
• Перенос запросов на обработанные таблицы для улучшения качества данных.

01:19:15 Проблемы с большими объемами данных
• Проблемы с обработкой больших объемов данных.
• Создание инкрементальных таблиц для уменьшения нагрузки.
• Преимущества инкрементальных таблиц в Debut.

01:21:24 Внедрение Debut в продуктовой аналитике
• Внедрение Debut в кикшеринговой компании.
• Проблемы с устаревшими кодами и процедурами в продуктовой аналитике.
• Переход на Debut для улучшения качества данных и архитектуры.

01:22:18 Проблемы с кодом и процедурами
• Проблемы с хранением кода в базе данных.
• Неудобства при доработке и поддержке кода.
• Проблемы с зависимостями между пайплайнами данных.

01:25:12 Переход на Debut и оркестратор Dask
• Переход на Debut для продуктовой аналитики.
• Использование Dask для оркестрации пайплайнов.
• Перенос моделей из Postgres в Debut для улучшения производительности.

01:26:41 Переход на Debut
• Debut и Postgres похожи, но с минимальными доработками можно использовать в новых проектах.
• Debut можно запускать по расписанию, используя бесплатные возможности GitHub Actions.
• Интеграция с Dask позволяет создавать красивые дата-лайны и внедрять инжестинг.

01:27:58 Преимущества Debut
• Debut поддерживает различные стратегии материализации данных.
• Предоставляет лучшие практики аналитики и рабочие подходы.
• Поддерживает различные базы данных и хранилища, что делает его универсальным.

01:30:46 Сложности и подводные камни
• Debut требует глубокого освоения, особенно для новичков.

YouTube

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://youtu.be/BSge0lPJeHk

• Для аналитиков и дата-инженеров освоение Debut проще.
• Debut не подходит для всех задач, иногда требуется интеграция с другими инструментами.

01:32:41 Масштабирование и ограничения
• Debut лучше подходит для обработки больших данных, чем для сложных вычислений.
• Ограничения масштабирования могут стать проблемой при росте объема данных.
• Пример использования Debut в компании с обработкой данных из 20 предметных областей.

01:34:36 Практическое применение и советы
• Практическое применение Debut через Dask и Apache Aphine.
• Рекомендуется начинать с практики, а не только с теории.
• Доступны бесплатные демо-уроки и документация для начала работы с Debut.

01:36:30 Заключение
• Использование больших языковых моделей, таких как GPT-3, ускоряет освоение концепций Debut.

01:36:47 Введение в симулятор по Data Science
• Промокод на скидку 20% для тех, кто заинтересуется симулятором по Data Science.
• Симулятор имитирует реальные аналитические задачи и работу в стартапе.
• Помогает освоить Data Science и терминологию, а также подготовиться к собеседованиям.

01:37:39 Преимущества симулятора
• Симулятор помогает полноценно освоить Data Science.
• Включает терминологию и концепции, актуальные для современного мира аналитики.
• Бонусом добавлена тема Databricks, которая становится важной для работы с данными.

01:38:37 Рекомендации и компания "Инженерка"
• Симулятор платный, но есть бесплатные демо-уроки.
• Компания "Инженерка" обучила более 300 специалистов за три года.
• Преподаватели с международной карьерой и опытом.

01:39:41 Преимущества учебных программ "Инженерка"
• Обучение на практике, без лишней теории.
• Настройка инфраструктуры для обучения.
• Доступ к материалам после обучения.

01:41:04 Заключение и обратная связь
• Призыв следить за новостями и анонсами "Инженерка".
• Промокод и бесплатный доступ к тренажерам.
• Благодарность за участие и отзывы.

01:42:17 Личный опыт и выводы
• Личный опыт освоения Data Science.
• Data Science как инструмент для упрощения работы.
• Примеры использования Data Science для улучшения работы и качества данных.

01:45:29 Заключение и прощание
• Призыв к дальнейшему общению в чате "Инженерка".
• Прощание и завершение демонстрации.

YouTube

Введение в dbt: основы моделирования данных | INZHENERKA.TECH

2 views08:44

Data Engineering / reposts & drafts

Forwarded from Николай Крупий

https://habr.com/ru/companies/postgrespro/articles/844540/

Хабр

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

От редакции: Майкл Стоунбрейкер — один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Эндрю Павло недавно опубликовал большой обзор всех актуальных технологий систем...

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://habr.com/ru/companies/postgrespro/articles/844540/

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

• Статья посвящена обзору актуальных технологий СУБД и их развитию за последние 20 лет.Link
• Реляционная модель с расширяемой системой типов (объектно-реляционная) доминирует на рынке СУБД.Link
• Основные достижения в системах РM связаны с изменениями характеристик оборудования.Link
• SQL и реляционные СУБД продолжают эволюционировать.Link
• В статье рассматриваются различные модели данных и языки запросов для баз данных: MapReduce, хранилища "ключ-значение", документоориентированные базы данных, базы данных типа "Семейство столбцов", текстовые поисковые движки, базы данных массивов, векторные базы данных, графовые базы данных.

Хабр

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

Николай Крупий

https://habr.com/ru/companies/postgrespro/articles/844540/

Link
• Большинство систем, отличных от SQL или РM, обслуживают нишевые рынки и не доминируют на рынке СУБД.Link
• Многие системы, которые начинали с отказа от РM, теперь предоставляют интерфейс, похожий на SQL для РM-баз данных.Link
• SQL аккумулировал лучшие идеи языков запросов для расширения поддержки современных приложений и оставаться актуальным.Link
• Пересказана только часть. Для продолжения перейдите в режим подробного пересказа.Link

Хабр

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

1 view08:44

Data Engineering / reposts & drafts

Forwarded from DATABASE DESIGN

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

От редакции: Майкл Стоунбрейкер - один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Энрю Павло, недавно опубликовал большой обзор всех актуальных технологий систем управления базами данных. В этом материале — подробно обо всем, что произошло в мире баз данных за последнее время, а также прогнозы. Мы посчитали что нельзя лишать нашу аудиторию возможности ознакомиться с этим обзором, поэтому подготовили данный перевод.

~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~

Читать: https://habr.com/ru/companies/postgrespro/articles/844540/

#ru

@database_design | Другие наши каналы

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

DATABASE DESIGN

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение» От редакции: Майкл Стоунбрейкер - один из самых известных в IT мире ученых и отец-основатель Postgres. В соавторстве с Энрю Павло, недавно опубликовал большой обзор всех актуальных…

Processing: https://habr.com/ru/companies/postgrespro/articles/844540/

Хабр

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

DATABASE DESIGN

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

• Статья посвящена обзору актуальных технологий СУБД и их развитию за последние 20 лет.Link
• Реляционная модель с расширяемой системой типов (объектно-реляционная) доминирует на рынке СУБД.Link
• SQL аккумулировал лучшие идеи языков запросов для расширения поддержки современных приложений.Link
• Хранилища "ключ-значение" (KV) - самая простая из возможных моделей данных.Link
• Документоориентированные базы данных (DOC) - модель данных документов, активно разрабатывалась в течение нескольких десятилетий.

Хабр

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Summarize300Bot

DATABASE DESIGN

Link
• Базы данных типа "Семейство столбцов" (COL) - упрощение документной модели, поддерживающее только один уровень вложенности.Link
• Текстовые поисковые движки (TEXT) - системы, основанные на инвертированных индексах и ориентированные на точный поиск совпадений.Link
• Базы данных массивов (ARRAY) - СУБД, использующие модель данных массивов для хранения и запроса данных массивов.Link
• Пересказана только часть. Для продолжения перейдите в режим подробного пересказа.Link

Хабр

Майкл Стоунбрейкер: «Всё новое — это хорошо забытое старое. Продолжение»

1 view08:44

Data Engineering / reposts & drafts

Forwarded from Инжиниринг Данных (Dmitry)

Все чаще мелькает информация про YAML инженера.

Вот несколько статей:
YAML developers and the declarative data platforms

The rise of the YAML engineer

From Data Engineer to YAML Engineer

Data Orchestration Trends: The Shift From Data Pipelines to Data Products

Dbt модели у меня безусловно лидируют, так же использовал для Mock тестов в Pytest и Helm Charts и Kubernetes.

1 view18:21

Data Engineering / reposts & drafts

Forwarded from BeOps

Книга Kubernetes in Action (2nd edition by Marko Lukša, Kevin Conner) — отличный старт для знакомства с Kubernetes

Когда я начал читать книгу Kubernetes in Action, сразу понял — это не просто теория. Автор делает акцент на понятном объяснении того, что такое Kubernetes, как он работает и почему его популярность так стремительно выросла. Честно говоря, я был впечатлен уже с первых страниц.

Что мне особенно понравилось

Во-первых, в книге есть множество наглядных иллюстраций, которые помогают понять, как Kubernetes управляет приложениями и как он абстрагирует инфраструктуру. Эти схемы не просто украшают текст, они на самом деле помогают видеть общую картину, особенно если вы еще новичок в этой теме. Ну и, конечно, материал изложен очень просто — так, как будто вы говорите с опытным наставником, а не читаете технический мануал.

Теперь давайте разберем основные идеи первых глав (1.1 Introducing Kubernetes - 1.2 Understanding Kubernetes), которые привлекли мое внимание.

---

Введение в Kubernetes: Зачем это нужно?

Kubernetes — это по сути штурман для ваших приложений. Он автоматизирует процесс их деплоя и управления, решает за вас повседневные задачи, как настоящий помощник капитана. Вся идея в том, чтобы вы сосредоточились на развитии проекта, а Kubernetes сам справился с рутиной, следя за тем, чтобы приложения работали бесперебойно.

Причем, как отмечает автор, имя Kubernetes символично. Как штурман направляет корабль, так Kubernetes направляет ваше приложение, оставляя за вами только ключевые решения.

---

Почему Kubernetes стал таким популярным?

Развитие микросервисов и контейнеров изменило весь подход к разработке ПО. Если раньше приложения представляли собой большие монолитные системы, которые было сложно масштабировать и управлять, то теперь мы работаем с десятками и сотнями микросервисов. Kubernetes автоматизирует их управление, делая развертывание и масштабирование микросервисов тривиальной задачей. Автор книги подчеркивает: то, что раньше было сложно, с Kubernetes стало простым и очевидным.

---

Как Kubernetes решает повседневные задачи?

Читая книгу, я понял: Kubernetes — это не просто система для развертывания приложений. Это целая экосистема, которая позволяет автоматически управлять масштабированием, следить за здоровьем приложения и даже восстанавливаться после сбоев. Если ваше приложение упало — Kubernetes сам перезапустит его. А если произошел сбой оборудования, Kubernetes перенесет работу на здоровые узлы. Все это экономит время и нервы.

---

Основные компоненты Kubernetes

Автор подробно объясняет архитектуру Kubernetes, разделяя её на две главные плоскости: Control Plane и Workload Plane. Control Plane управляет состоянием всего кластера, а Workload Plane — это место, где запускаются приложения. Все выглядит логично, и благодаря иллюстрациям с каждым компонентом становится легче разобраться.

---

Личный опыт

Для меня этот материал стал отличным введением в тему. Книга Kubernetes in Action помогает понять не только теоретические основы, но и показывает, как Kubernetes действительно работает на практике. А самое главное — автор делает это легко и доступно, с примерами и наглядными пояснениями. Если вы хотите погрузиться в мир Kubernetes — это идеальная отправная точка.

От себя же я составил Mind Map первых двух частей, которым хотел бы поделиться в этом посте (пока что ссылкой на dropbox)

- https://www.dropbox.com/scl/fi/9fv5og1cchp44kofi9h0p/Kubernetes-in-Action-till-1.3.pdf?rlkey=vus4tw7vsrqf15naerns2x12v&st=6miusxfn&dl=0

Обзор следующих частей опубликую очень скоро🛥

Dropbox

Kubernetes in Action till 1.3.pdf

Shared with Dropbox

1 view18:21

Data Engineering / reposts & drafts

Forwarded from Nik в мире данных

AI tutor

Недавно мне скинули ссылку на AI Tutor для ChatGPT-4 https://github.com/JushBJJ/Mr.-Ranedeer-AI-Tutor и я решил посмотреть, как это может помочь дата инженеру.

- Задача: Я хотел изучить внутренний движок запросов Apache Spark. Сам чат можно посмотреть на этой странице Notion: https://bakanchevn.notion.site/AI-Learning-782d325ffbee44ab88467bfcd9e6bc12

- Подача материала: В целом, формат ответов выглядит довольно хорошо, хотя есть некоторые недочеты (поэтому надо прокачивать скилл prompt engineering! в том числе). Я предполагаю, что для более программистских тем задачи сами по себе будут более детализированными. Иногда мне приходилось задавать вопрос несколько раз, чтобы действительно добраться до сути.

- Надежность и качество материала : Конечно, есть вопрос корректности материала, и однозначно, ориентироваться только на этот механизм не стоит 👨‍🦳, но в целом ссылки на код спарка и методы плюс минус валидные. Думаю, попробую другие темы и посмотрю, будет ли лучше или хуже.

- Тестирование. Я попробовал систему тестов и попробовал поделать ошибки в ответах. Кажется, что бот слишком вежливый, надо бы поиграться с параметрами 🤔 Фидбек выглядит валидным.

В целом, впечатление положительное, и думаю, что это может помочь людям, кто предпочитает формат самообучения, если конечно через пару лет AI не поработит нас окончательно 😡

P.S. В моем английском на скриншотах есть ошибки и недочеты, прошу этот момент игнорировать

Please open Telegram to view this post

VIEW IN TELEGRAM

GitHub

GitHub - JushBJJ/Mr.-Ranedeer-AI-Tutor: A GPT-4 AI Tutor Prompt for customizable personalized learning experiences.

A GPT-4 AI Tutor Prompt for customizable personalized learning experiences. - JushBJJ/Mr.-Ranedeer-AI-Tutor

2 views16:12

Data Engineering / reposts & drafts

Forwarded from Nik в мире данных

Mentoring

Я участвую в менторинг программе SIngularis.AI. Моя анкета находится на борде https://mathshub.notion.site/Singularis-AI-Mentoring-Program-d562243465964a94b9debfc11d2a073b#72811df65806428dadde1428e3a9786b под именем NBK. Но в целом рекомендую посмотреть различные анкеты людей и в целом слак сообщество.

Но поскольку вы в этом канале и если вам почему-то интересен менторинг от меня или просто 1-он-1 созвон, то я также вполне доступен - https://calendly.com/d/z5w-f38-3qv/1h-mentoringу (календарь пока тестовый, если вдруг не смогу в конкретное время проговорю заранее, лучше указывать ник в телеграме, если будете сет апить митинг)

В целом, формат обсуждения довольно свободный, главное, чтобы он был связан с дата тематикой, в которой я хоть как-то могу вам помочь =) (Так же могу помочь с мок интервью форматом, формата coding sql interview, easy coding python interview, и system/data design)

P.S. Я не особо опытен именно в онлайн-менторинге, но люблю формат random cofee (встречи с разными людьми) и опыт менторинга внутри компании у меня также есть.

Мой линк для референса - https://www.linkedin.com/in/bakanchevn

mathshub on Notion

Singularis AI Mentoring Program | Notion

Бесплатная менторская программа сообщества https://singularis.ai/

1 view16:12

Data Engineering / reposts & drafts

Forwarded from Nik в мире данных

И снова безработный

Пару дней назад был мой последний день в компании, так что можно порефлексировать, что удалось и что не удалось за 2 года.

Что удалось

👍

Когда я присоединился к компании, в ней было всего два дата инженера, и мы были частью BI команды. Однако мне 😃 (ну или не только мне :D) удалось продвинуть идею создания Data Platform или централизованной дата команды.

За полтора года мы смогли нанять и организовать Core Data команду до 8 фулл стек дата инженеров, 2 специалистов по DataOps и MLOps, менеджера (в виде меня) и дата архитектора. И есть планы по дальнейшему расширению команды. Команда получилась очень интернациональной, в ней работают люди из 9 разных стран, и это был довольно интересный вызов. Удалось организовать внутри сессию шейринга информации и внутреннего обучения.

Расширение команды стейкхолдеров - по факту на данный момент, команда стала централизацией по решению задач по дата инженерии для бизнеса, причем у нас была как прямая работа с департаментами, так и организация меж департаментовой кросс-интеграции

Мы успешно внедрили такие инструменты, как Snowflake, Hevodata и множество дата сервисов на GCP стеке. Кроме того. мы организовали Reverse-ETL и использовали различные подходы, включая batch и event-driven обработку данных.

Что осталось недостигнутым на момент ухода

👋

Хотя мы добились довольно неплохих результатов есть ряд областей, в которых не удалось достичь полной реализации на момент моего ухода.

В первую очередь, процессы CI/CD были только частично организованы, но я уверен, что к концу 2023 года они будут завершены.

Мониторинг данных все еще представляет собой набор несвязанных логов 🙆, и пока только в планах организация централизованного хранения. Однако мы уже внедрили критические алерты и систему уведомлений для пользователей.

Еще одной областью, которую мы не полностью освоили, является Data Quality. Хотя мы покрыли тестами часть данных с помощью dbt и создали более 500 тестов для моделей, есть еще много работы в области интеграции данных, которую мы покрыли лишь на 10-15% 👨‍🦳.

Data Lineage - это еще одна область, где мы не продвинулись дальше общения с интересными экспертами из dwh.dev и alvin.ai. 😟

Эстония в целом 🇪🇪

Эстония офигенна, отличная дигитализация, Таллинн в целом супер крутой город, довольно маленький по размеру, но у меня не было проблем в получении каких-либо услуг. Также я получил опыт аренды жилья (впервые в жизни!) и проживания в советских пяти- и девяти- этажках (не самый позитивный 😡). К сожалению, с моим паспортом в странах Балтии могут быть сюрпризы, поэтому, как минимум на время, еду в другую локацию

Что дальше

🍷

Пока могу озвучить только, что я в процессе переезда и куда переезжаю - это Берлин (или его окрестности в будущем), Германия 🇩🇪

P.S. В планах по этому двухлетнему опыту сделать докладик - Modern Data Stack - стоила ли игра свеч

Please open Telegram to view this post

VIEW IN TELEGRAM

2 views16:12

About

Blog

Apps

Platform