Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from Инжиниринг Данных (Dmitry)
Сегодня посмотрим на компоненты хранилища данных.

Хранилище данных это у нас просто большая база данных, часто это может быть распределенная (кластер из нескольких машин, чтобы они вместе все параллельно обрабатывали данные, ведь так быстрей и можно больше данных обработать - ну или просто Massive Parallel Processing)

Хранилище данных объединяет все технические компоненты в одной системе.

Все данные хранятся в собственных форматах файлов и таблиц на его собственном хранилище. Эти данные управляются исключительно движком хранения хранилища данных, регистрируются в его каталоге и могут быть доступны только пользователю или аналитическим движкам через его вычислительный движок.


До примерно 2015 года большинство хранилищ данных имели компоненты хранения и вычислений, жестко связанные на тех же узлах, так как они были разработаны и использовались в основном на местах.

Это приводило к множеству проблем. Масштабирование становилось большой проблемой, так как объемы данных быстро росли, а количество и интенсивность нагрузок росло.

Не было возможности независимо увеличивать ресурсы хранения и вычислений в зависимости от задач. Если ваши потребности в хранении данных росли быстрее, чем потребности в вычислительных ресурсах, вам все равно приходилось платить за дополнительные вычислительные мощности, даже если они вам не были нужны.

Это привело к созданию следующего поколения хранилищ данных с акцентом на облачные технологии. Эти хранилища данных начали набирать популярность примерно в 2015 году, когда облачные вычисления стали более распространенными, позволяя разделять компоненты хранения и вычислений и масштабировать эти ресурсы в соответствии с задачами. Они даже позволяли отключать вычислительные ресурсы, когда они не использовались, и не терять при этом данные.

Хранилище данных до сих пор является отличным решением для построения аналитического решения.

Минису все известны:
- Поддержка только SQL
- Вы платите за compute и storage вместе (Snowflake и тп это lakehouse и о нем будет позже)
- Сложно использовать для ML, так как данные нужно выгружать
- У вас schema on write (то есть у вас таблица создана и вы в нее уже пишите как есть)
- Не очень удобно для streaming/real time аналитики, обычно это batch - раз в час, раз в сутки
- Это Vendor Lock

В след посте рассмотрим озеро данных.

Источник: https://www.oreilly.com/library/view/apache-iceberg-the/9781098148614/ch01.html

PS Судя по прошлым комментариям, я рад что ребята в Авито Тех тоже прочитали книгу и поделились знаниями со своей аудиторией🙃

В Surfalytics я попросил всех прочитать 1ю главу и понять, так как очень важно понимать разницу между DW/Data Lake/Lake House и знать их особенности.
Forwarded from Инжиниринг Данных (Dmitry)
Ребята из DevCrowd впервые проводят большое исследование специалистов, работающих в направлениях DS/ML/AI:

- что входит в обязанности той или иной профессии
- какие навыки наиболее важны и каких знаний не хватает
- сколько зарабатывать специалисты в зависимости от опыта и грейда
- а так же полезные для развития каналы, курсы и книги

Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование максимально охватным. Его результаты появятся в открытом доступе в конце сентября, и помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией!

👉Пройти опрос

Посмотреть другие исследования проекта

PS не реклама, просто дружеский пост.
Forwarded from Инжиниринг Данных (Dmitry)
По моему мнению, сейчас для всех людей кто начинает работать с данными в контексте аналитики важно с первого дня обучения или работы по профессии знать следующие вещи:

- Командная строка (CLI), та самая, которая у вас могла быть в школе на информатик в CMD. Сейчас если у вас MacOS, то Zsh с приятными плагинами Oh My Zsh, если Windows, то сразу ставьте Ubuntu WSL.

- Среда разработки (IDE), самый лучший вариант это VSCode. Бесплатно и есть плагины для всего. Отлично подойдет, чтоб редактировать файлы, писать код и запускать окошко с командной строкой.

- Git система. Самая популярная и бесплатная это GitHub. Создайте себе аккаунт и каждый день делайте туда commit, через branch, чтобы потом сделать Pull Request. А еще вы можете бесплатно запостить свой сайт про себя, использую GitHub Pages.

- Markdown - очень просто текстовый язык. Используйте его, чтобы создавать в каждой папке в вашем репозитории GitHub файлик readme.md и там описывайте шаги, храните код. Намного полезней, чем Google Doc. Конечно не так удобно как Notion, но пользы лучше. И в конце-концов ваш GitHub профайл, это ваш актив.

- Контейнеры, используйте Docker File, потренируйтесь создавать к `DockerFile и потом к нему подключаться.

Как правило все эти навыки не обязательны для аналитиков и BI разработчиков. Но это будет ваше преимущество и откроет вам много возможностей в будущем. А так же вы сможете быстро “въехать” в существующие проекты и понять, что где хранится и для чего делает, но и разговаривать на одном языке с инженерами. Да и быстрей станете сами инженером, ведь им платят больше!

PS Обо всем этом я рассказывал в 0м модуле Surfalytics (на английском) с упражнениями и примерами. В 1м модуле я рассказывал про роли и roadmap. А сейчас уже записываю 2й модуль и во 2м уроке мы использовали SQLite, Postgres на локальной машине, а потом тоже самое но в Docker контейнере.

Возможно вам будет сложно на английском, но мой английский с русским акцентом вам должен быть понятен, и сам навык английского очень важен, я еще в 2010 году читал Kimbal на английском и различные блоги и документацию. Поэтому Surfalytics для вас как бесплатный сериальчик на английском с субтитрами. А если прям хотите каждый день практиковаться, приходите в Surfalytics сообщество.

PPS еще есть замечательная книга Missing Readme, которая на пальцах рассказывает, что зачем для junior software engineer.

Подписывайтесь на YouTube, это мне поможет, я верю, что материал хороший, но сложно сейчас пробиться с 0, поэтому like, follow очень помогает!
Forwarded from Data Analysis / Big Data
Как подготовиться к собеседованию на инженера данных

Подготовка к интервью на позицию инженера данных может быть сложной задачей. Этот пост поможет вам изучить ключевые структуры данных и алгоритмы, а также типичные вопросы на собеседованиях. Узнайте, как улучшить свои знания и уверенно пройти собеседование. Эффективные Методы Поиска и Алгоритмы для Инженеров Данных

В статье рассматриваются популярные алгоритмы поиска, такие как глубинный и ширинный поиск (DFS и BFS), а также бинарный поиск. Описаны их итеративные и рекурсивные версии. Статья полезна для подготовки к интервью по данным профессиям.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Unified Data Architecture - еще один термин, обозначающий примерно то же самое - консолидация данных для принятия бизнес решений и с недавних пор для использования данных в машинном обучении. Другими словами синоним слова “хранилище данных”. Но в данном контексте это уже может быть что угодно - реляционная база данных, озеро данных на Hadoop или микс хранилища и озера данных, как например Snowflake или Redshift + Redshift Spectrum. Очень хорошая диаграмма, на которой по слоям все расписано от источника до отчета.
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Кроме fancy инструментов, я люблю еще другую категорию - “Было-Стало”, как раз картинка про это. Конечно инструментов тут показали совсем чуть-чуть, но идею передали.
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
А тут более подробно рассмотрена диаграмма для DS&ML
Forwarded from NOdata Миша (Миша Павлюк)
Мониторинг DWH

Мониторинг в DWH - это большая тема, но я расскажу с чем сталкиваюсь конкретно я:

- Алертинг в ДАГах Airflow. В наших ДАГах используется функция, которая, в случаи падения ДАГа, посылает сообщения в корпоративный мессенджер и тэгает владельца ДАГа. Это достаточно удобно, ведь нет необходимости самостоятельно проверять отработку ДАГов

- Мониторнг в Grafana. Grafana — система визуализации данных, ориентированная на данные систем ИТ-мониторинга. Тут можно мониторить все, а не только ДАГи, ведь часто поступление данных в DWH может быть происходить без участия airflow (например из kafka сразу в clickhouse)


Ютуб | OnlyFans
Forwarded from NOdata Миша (Миша Павлюк)
Бег лучшая вещь для айтишника на удаленке

Я не так давно начал бегать. И это оказалось прям круто. Не буду тут говорить о пользе для здоровья и о том, что стал лучше себя чувствовать, а хотел бы сказать о чуть менее очевидной, но весьма важной штуке - отвлечение от работы

Многим знакома ситуация, когда заканчиваешь рабочий день, но продолжаешь думать о задаче, а если работаешь на удаленке, то рабочий день в какой-то степени, вообще может не заканчиваться, ведь ты в любой момент можешь открыть ноутбук, чтобы еще что-нибудь поделать. В итоге вечерний отдых от работы, не совсем является отдыхам. (Да иногда есть супер срочные или интересные задачи на которые готовы потратить силы, но, наверное, это должна быть редкая история)

Вечерняя пробежка стала отличным решением этой проблемы. 18:00 я закрываю ноутбук и бегу. Телефон при этом остается дома, и я смогу увидеть написали ли там что-то важное в рабочем чатике только через час.
Мне это очень сильно помогает отвлечься от работы, и даже если во время рабочего дня было слишком много мыслей которые грузили меня о том, что работы много, не получается или другие подобные, то вечером их совсем нет

Если тема интересна и хотите узнать как я продолжаю бегать регулярно, то поставьте 🔥


Ютуб | OnlyFans
Forwarded from NOdata Миша (Миша Павлюк)
Для чего вообще DWH?

Понятно, что ДВХ это про данные, но для чего эти данные, где они используются?

Самое частое это, конечно, различные отчеты, чаще всего в виде дашбордов в какой-нибудь Bi штуке (например в superset). Информация на этих дашбордах может быть различной, для разных потребителей:
- Маркетинговые команды могут смотреть на отчеты для анализа эффективности рекламных кампаний и повышения ROI
- Отелы продаж для оценки динамики продаж, анализа поведения клиентов и прогнозирования спроса
- Руководители для принятия каких-то важных стратегических решений

Помимо отчетов на самих дашбордах, часто кому-то необходимо просто получить какую-то небольшую инфу по нашим данным, хватает небольшого sql кода

Также данные из ДВХ нужны и дата сайентистам, которые с их помощью строят всякие модельки и ИИ, который всех нас убьет= сделает мир лучше


Ютуб | Дата уроки
Forwarded from NOdata Миша (Миша Павлюк)
Беги, Миша, беги

Тут рассказал о том как круто бегать, а сейчас хочу рассказать о том как у меня получается делать это регулярно:

- Я почти всю жизнь не любил бегать. Это ведь сложно. Капец как устаешь. Я лучше пройду 20 километром, чем пробегу 2. И это правда так. Для организма, который более 2 лет вообще не чувствовал, что такое бег, пробежать хотя бы пару км. является больший стрессом, а если делать это регулярно, то ваще капец не круто. Зачем так сильно напрягаться? И первый совет в том, что напрягаться сильно не стоит. Оказывается совсем не обязательно (и даже вредно) быстро бежать и становиться капец каким устаревшим. Можно просто совершать легкую пробежку, бежать медленно. Что значит медленно? С той скоростью при которой ты можешь без особых трудностей разговорить во время бега. Когда только начинаешь бегать, то ты бежишь не сильно быстрее чем люди просто идут. Тебя будут обгонять 60-летние дедушки (потом убегут вперед, там где-то развернуться, побегут тебе навстречу и помашут рукой, но рано или поздно я его сделаю)

- Второй пункт вытекает из первого. Тут тоже про то, что это не тренировочные забеги ради результатов, а вечерняя пробежка, которая преследует совершенно другие вещи. А значит если например на улице сегодня идет дождь, то вообще ничего страшного нет, если пробежки сегодня не будет. Также и регулярность пробежек, я для себя понял, что мне норм бегать 3 раза в неделю, но ничего страшного нет, если получится побегать всего 2 раза, а если захочу пробежать 4 раз, то скорее всего откажусь от этой идеи, так во время этой 4 пробежки устану и не получу удовольствие

- А что делать если не хочется? В первую очередь ответить на вопрос «Почему тебе не хочется?», и если ответ будет «Бегаю уже 2 месяца и мне это вообще не нравится», то бросать. Бег это не что-то идеальное, что подойдет абсолютна всем, и возможно вам следует поискать другие занятия. Но когда я не хотел делать вечернюю пробежку и задавал вопрос «Почему?», то ответом было «Я сегодня как-то устал во время рабочего дня, а тут еще и бежать куда-то», то есть главная причина из-за которой я бегаю в некоторых случаях пытается работать в другую сторону, но меня так просто не проведешь, я все равно бегу

Это были 3 главне вещи, которые лично мне помогают бегать. Для кого-то скорее всего поможет что-то другое, например записаться на марафон через несколько месяцев и тогда просто становится необходимо бегать постоянно. Но лично для меня вещи, которые про делать что-то (бежать) ради чего-то (условного марафона) не работают, поэтому я стараюсь концентрироваться на процессе)


Ютуб | Дата уроки
Forwarded from NOdata Миша (Миша Павлюк)
Уже много уроков

7 дней бесплатного доступа к урокам, которые я выпускаю по data. Сейчас пока там по Airflow и не много clickhouse, но уроки постоянно пополняются

Вот список уроков которые там есть

Вот бесплатный доступ на 7 дней, чтобы вы посмотрели, поняли, что я ваще не шарю и отписались от канала
Forwarded from NOdata Миша
Больше не нужно искать тематические каналы и по отдельности на них подписываться - мы сделали это за Вас 🤝

Вам остается только сохранить папку себе и регулярно получать полезные ресурсы из сферы «IT и Технологий» 🔥

https://t.iss.one/addlist/VMuK8A3-KfM5NzM6

Хотите в подборку?
Forwarded from 5 minutes of data
Грокаем конкурентнось

Вот и дождался перевода замечательной книги от Кирилла Боброва.

Читал на английском, взял еще на русском в бумаге, очень рекомендую.

И канал Кирилла
Forwarded from Data jobs feed (KrivdaTheTriewe)
AnalyticsEngineer в m2.ru

Расширяем команду и ищем Системного Аналитика или AnalyticsEngineer которые готовы принять участие в построении платформы данных. Нужно будет общаться с аналитиками и де, формировать требования , погружаться в доменную область, писать на sql и python, заниматься моделированием данных
- Spark
- Trino
- dbt
- Iceberg
- Clickhouse


Писать можно сразу мне @krivdathetriewe
Forwarded from Курсы NovaData.
Всем привет!

Ровно через 3 недели будет открыт наш курс.

Расскажем, что ждет Вас на курсе:

📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор

Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
apache-iceberg-TDG_ER1.pdf
3.3 MB
Apache Iceberg 2024
The Definitive Guide Data

Lakehouse Functionality, Performance, and Scalability on the Data Lake
O_Reilly_Конвейеры_данных_2024.pdf
40.8 MB
Конвейеры данных. Карманный справочник 2024

Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом
Data Engineer: учебное пособие для прохождения собеседования
https://tproger.ru/curriculum/data-engineer-interview-guide

📖 In Russian: cписок русскоязычных публикаций matyushkin и блокноты Jupyter для различных образовательных ресурсов.
https://github.com/matyushkin/lessons

A complete computer science study plan to become a software engineer.
https://github.com/matyushkin/lessons

Как проходит интервью по SRE T-Bank (aka Tinkoff)
https://www.tbank.ru/career/it/interview/sre/