Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from Data Analysis / Big Data
Как подготовиться к собеседованию на инженера данных

Подготовка к интервью на позицию инженера данных может быть сложной задачей. Этот пост поможет вам изучить ключевые структуры данных и алгоритмы, а также типичные вопросы на собеседованиях. Узнайте, как улучшить свои знания и уверенно пройти собеседование. Эффективные Методы Поиска и Алгоритмы для Инженеров Данных

В статье рассматриваются популярные алгоритмы поиска, такие как глубинный и ширинный поиск (DFS и BFS), а также бинарный поиск. Описаны их итеративные и рекурсивные версии. Статья полезна для подготовки к интервью по данным профессиям.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Unified Data Architecture - еще один термин, обозначающий примерно то же самое - консолидация данных для принятия бизнес решений и с недавних пор для использования данных в машинном обучении. Другими словами синоним слова “хранилище данных”. Но в данном контексте это уже может быть что угодно - реляционная база данных, озеро данных на Hadoop или микс хранилища и озера данных, как например Snowflake или Redshift + Redshift Spectrum. Очень хорошая диаграмма, на которой по слоям все расписано от источника до отчета.
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Кроме fancy инструментов, я люблю еще другую категорию - “Было-Стало”, как раз картинка про это. Конечно инструментов тут показали совсем чуть-чуть, но идею передали.
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
А тут более подробно рассмотрена диаграмма для DS&ML
Forwarded from NOdata Миша (Миша Павлюк)
Мониторинг DWH

Мониторинг в DWH - это большая тема, но я расскажу с чем сталкиваюсь конкретно я:

- Алертинг в ДАГах Airflow. В наших ДАГах используется функция, которая, в случаи падения ДАГа, посылает сообщения в корпоративный мессенджер и тэгает владельца ДАГа. Это достаточно удобно, ведь нет необходимости самостоятельно проверять отработку ДАГов

- Мониторнг в Grafana. Grafana — система визуализации данных, ориентированная на данные систем ИТ-мониторинга. Тут можно мониторить все, а не только ДАГи, ведь часто поступление данных в DWH может быть происходить без участия airflow (например из kafka сразу в clickhouse)


Ютуб | OnlyFans
Forwarded from NOdata Миша (Миша Павлюк)
Бег лучшая вещь для айтишника на удаленке

Я не так давно начал бегать. И это оказалось прям круто. Не буду тут говорить о пользе для здоровья и о том, что стал лучше себя чувствовать, а хотел бы сказать о чуть менее очевидной, но весьма важной штуке - отвлечение от работы

Многим знакома ситуация, когда заканчиваешь рабочий день, но продолжаешь думать о задаче, а если работаешь на удаленке, то рабочий день в какой-то степени, вообще может не заканчиваться, ведь ты в любой момент можешь открыть ноутбук, чтобы еще что-нибудь поделать. В итоге вечерний отдых от работы, не совсем является отдыхам. (Да иногда есть супер срочные или интересные задачи на которые готовы потратить силы, но, наверное, это должна быть редкая история)

Вечерняя пробежка стала отличным решением этой проблемы. 18:00 я закрываю ноутбук и бегу. Телефон при этом остается дома, и я смогу увидеть написали ли там что-то важное в рабочем чатике только через час.
Мне это очень сильно помогает отвлечься от работы, и даже если во время рабочего дня было слишком много мыслей которые грузили меня о том, что работы много, не получается или другие подобные, то вечером их совсем нет

Если тема интересна и хотите узнать как я продолжаю бегать регулярно, то поставьте 🔥


Ютуб | OnlyFans
Forwarded from NOdata Миша (Миша Павлюк)
Для чего вообще DWH?

Понятно, что ДВХ это про данные, но для чего эти данные, где они используются?

Самое частое это, конечно, различные отчеты, чаще всего в виде дашбордов в какой-нибудь Bi штуке (например в superset). Информация на этих дашбордах может быть различной, для разных потребителей:
- Маркетинговые команды могут смотреть на отчеты для анализа эффективности рекламных кампаний и повышения ROI
- Отелы продаж для оценки динамики продаж, анализа поведения клиентов и прогнозирования спроса
- Руководители для принятия каких-то важных стратегических решений

Помимо отчетов на самих дашбордах, часто кому-то необходимо просто получить какую-то небольшую инфу по нашим данным, хватает небольшого sql кода

Также данные из ДВХ нужны и дата сайентистам, которые с их помощью строят всякие модельки и ИИ, который всех нас убьет= сделает мир лучше


Ютуб | Дата уроки
Forwarded from NOdata Миша (Миша Павлюк)
Беги, Миша, беги

Тут рассказал о том как круто бегать, а сейчас хочу рассказать о том как у меня получается делать это регулярно:

- Я почти всю жизнь не любил бегать. Это ведь сложно. Капец как устаешь. Я лучше пройду 20 километром, чем пробегу 2. И это правда так. Для организма, который более 2 лет вообще не чувствовал, что такое бег, пробежать хотя бы пару км. является больший стрессом, а если делать это регулярно, то ваще капец не круто. Зачем так сильно напрягаться? И первый совет в том, что напрягаться сильно не стоит. Оказывается совсем не обязательно (и даже вредно) быстро бежать и становиться капец каким устаревшим. Можно просто совершать легкую пробежку, бежать медленно. Что значит медленно? С той скоростью при которой ты можешь без особых трудностей разговорить во время бега. Когда только начинаешь бегать, то ты бежишь не сильно быстрее чем люди просто идут. Тебя будут обгонять 60-летние дедушки (потом убегут вперед, там где-то развернуться, побегут тебе навстречу и помашут рукой, но рано или поздно я его сделаю)

- Второй пункт вытекает из первого. Тут тоже про то, что это не тренировочные забеги ради результатов, а вечерняя пробежка, которая преследует совершенно другие вещи. А значит если например на улице сегодня идет дождь, то вообще ничего страшного нет, если пробежки сегодня не будет. Также и регулярность пробежек, я для себя понял, что мне норм бегать 3 раза в неделю, но ничего страшного нет, если получится побегать всего 2 раза, а если захочу пробежать 4 раз, то скорее всего откажусь от этой идеи, так во время этой 4 пробежки устану и не получу удовольствие

- А что делать если не хочется? В первую очередь ответить на вопрос «Почему тебе не хочется?», и если ответ будет «Бегаю уже 2 месяца и мне это вообще не нравится», то бросать. Бег это не что-то идеальное, что подойдет абсолютна всем, и возможно вам следует поискать другие занятия. Но когда я не хотел делать вечернюю пробежку и задавал вопрос «Почему?», то ответом было «Я сегодня как-то устал во время рабочего дня, а тут еще и бежать куда-то», то есть главная причина из-за которой я бегаю в некоторых случаях пытается работать в другую сторону, но меня так просто не проведешь, я все равно бегу

Это были 3 главне вещи, которые лично мне помогают бегать. Для кого-то скорее всего поможет что-то другое, например записаться на марафон через несколько месяцев и тогда просто становится необходимо бегать постоянно. Но лично для меня вещи, которые про делать что-то (бежать) ради чего-то (условного марафона) не работают, поэтому я стараюсь концентрироваться на процессе)


Ютуб | Дата уроки
Forwarded from NOdata Миша (Миша Павлюк)
Уже много уроков

7 дней бесплатного доступа к урокам, которые я выпускаю по data. Сейчас пока там по Airflow и не много clickhouse, но уроки постоянно пополняются

Вот список уроков которые там есть

Вот бесплатный доступ на 7 дней, чтобы вы посмотрели, поняли, что я ваще не шарю и отписались от канала
Forwarded from NOdata Миша
Больше не нужно искать тематические каналы и по отдельности на них подписываться - мы сделали это за Вас 🤝

Вам остается только сохранить папку себе и регулярно получать полезные ресурсы из сферы «IT и Технологий» 🔥

https://t.iss.one/addlist/VMuK8A3-KfM5NzM6

Хотите в подборку?
Forwarded from 5 minutes of data
Грокаем конкурентнось

Вот и дождался перевода замечательной книги от Кирилла Боброва.

Читал на английском, взял еще на русском в бумаге, очень рекомендую.

И канал Кирилла
Forwarded from Data jobs feed (KrivdaTheTriewe)
AnalyticsEngineer в m2.ru

Расширяем команду и ищем Системного Аналитика или AnalyticsEngineer которые готовы принять участие в построении платформы данных. Нужно будет общаться с аналитиками и де, формировать требования , погружаться в доменную область, писать на sql и python, заниматься моделированием данных
- Spark
- Trino
- dbt
- Iceberg
- Clickhouse


Писать можно сразу мне @krivdathetriewe
Forwarded from Курсы NovaData.
Всем привет!

Ровно через 3 недели будет открыт наш курс.

Расскажем, что ждет Вас на курсе:

📚 25 разделов (начиная с 1 июля будет открываться 2 раздела каждую неделю)
Более 300 тестов
📝 7 заданий с индивидуальной проверкой преподавателей
💻 Более 40 заданий на написание кода
🎥 Более 500 минут видео лекций
🏆 И, наконец, 12 финальных заданий на выбор

Подпишись на наши новости - Data Engineer
Поступи на наш курс - курс на Stepik
Напоминаем, что регистрация бесплатная! 🙏🤝
apache-iceberg-TDG_ER1.pdf
3.3 MB
Apache Iceberg 2024
The Definitive Guide Data

Lakehouse Functionality, Performance, and Scalability on the Data Lake
O_Reilly_Конвейеры_данных_2024.pdf
40.8 MB
Конвейеры данных. Карманный справочник 2024

Книга посвящена передовым методам построения конвейеров данных, сбору данных из множества разнообразных источников и преобразованию их для аналитики. Дано введение в конвейеры данных, раскрыта их работа в современном стеке данных. Описаны стандартные шаблоны конвейеров данных. Показан процесс сбора данных от их извлечения до загрузки в хранилище. Затронуты вопросы преобразования и проверки данных, оркестровки конвейеров, методов их обслуживания и мониторинга производительности. Примеры программ написаны на Python и SQL и задействуют множество библиотек с открытым исходным кодом
Data Engineer: учебное пособие для прохождения собеседования
https://tproger.ru/curriculum/data-engineer-interview-guide

📖 In Russian: cписок русскоязычных публикаций matyushkin и блокноты Jupyter для различных образовательных ресурсов.
https://github.com/matyushkin/lessons

A complete computer science study plan to become a software engineer.
https://github.com/matyushkin/lessons

Как проходит интервью по SRE T-Bank (aka Tinkoff)
https://www.tbank.ru/career/it/interview/sre/
Forwarded from 🔋 Труба данных (Simon Osipov)
https://xuanwo.io/2024/07-rewrite-bigdata-in-rust

Тред "Rust все заменит в DE" продолжает существовать и если ну уж очень интересно, вот небольшая подборка DE-related тулзов и библиотек, написанных на Rust.
Из самого интересного это Apache DataFusion и daft

@ohmydataengineer