Data Engineering / reposts & drafts
35 subscribers
227 photos
22 videos
40 files
557 links
Download Telegram
Forwarded from AI with Parissan 🤖🦾 (Pariss)
Dimension Tables Notes.pdf
247.1 KB
Dimension Table notes
🚀🚀🚀🧨🧨🧨

#datascience #ai #terms

AIwithParissan | AI Tutorials
Docker-15.pdf
337.1 KB
Docker 🧨🧨🧨🧨
🐳🐳🐳🐳🐳🐳🐳🐳

داکر زیبا 🐳🧨🐳🧨

#docker #cloudcomputing #cloud #kubernetes #containers #clusters

AIwithParissan | AI Tutorials
Think Python.pdf
857.8 KB
Python book 💥

آموزش پایتون 💥💥

#python #programming #projecs #datascience

AIwithParissan | AI Tutorials
Machine Learning-1.pdf
2.8 MB
Machine Learning for absolutely Beginners 🕊️🕊️🕊️

ماشین لرنینگ براي فوق مبتدیان به زبان بسیار ساده 💥💥💥


#machinelearning #statisticallearning #datascience #artificialinteligence #datacleaning

AIwithParissan | AI Tutorials
Large Language Models Use Cases-3.pdf
845.3 KB
LLM models usecases 💥💥

کاربردهای مدل های LLM در دنیای واقعی 💥💥

#llm #artificialinteligence #machinelearning #deeplearning


AIwithParissan | AI Tutorials
Forwarded from Инжиниринг Данных (Dmitry)
Уже пару месяцев как закончил книгу "Freakonomics" (в русском переводе "Фрикономика"), написанная Стивеном Левиттом и Стивеном Дабнером, которая исследует экономические принципы в нестандартных ситуациях и предлагает неожиданные объяснения повседневных явлений.

Основные идеи книги включают анализ экономических и социальных проблем с применением нетрадиционных подходов и методов.

Основные идеи книги:

Экономика всего вокруг: Левитт и Дабнер показывают, что экономические принципы можно применить к любым аспектам жизни, от преступности до образования.

Влияние стимулов (incentives): Главная идея книги — поведение людей сильно зависит от стимулов, которые они получают.

Неожиданные связи: Выявляют неожиданные связи между, казалось бы, несвязанными явлениями, такими как снижение уровня преступности и легализация абортов.

Использование данных: Важность анализа данных и использования статистики для получения достоверных выводов.

Для меня книга особенно запомнилась примерами стимулов (incentives).

- Экономические стимулы: Это финансовые или материальные выгоды, которые мотивируют людей к определенным действиям.
- Социальные стимулы: Это общественные и культурные факторы, которые влияют на поведение.
- Моральные стимулы: Это внутренние убеждения и ценности, которые мотивируют людей к действиям, основанным на их этических принципах.

Стимулы очень хорошо ложатся на нашу работу.
Почему новые инженеры работают лучше, чем старые?(кто уже 1-2 года в команде, вот сегодня например уволили такого человека, хотя я сам был таким человеком в прошлом году и скоро расшарю свой PIP документ).

Почему одни инженеры работают хорошо, а другие плохо? (Ведь часто дело не в зарплате)

Почему одни активно учатся и развиваются, а другие нет?

Почему одни пишут хорошие комментарии, а другие пишут плохие?

У меня теперь на любой вопрос 1й ответ это incentive. Вообще вся движуха рабочая это про incentives. Либо они есть, либо нет.

Мне кажется менеджеры особенно тщательно стараются придумать “стимулы” для своих команд🚣
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Инжиниринг Данных (Dmitry)
Media is too big
VIEW IN TELEGRAM
Презентация sqlwagon новой книги Azure Data Factory Cookbook 2nd edition. (На английском, это вообще то будет для Linkedin)
Forwarded from Инжиниринг Данных (Dmitry)
Сегодня посмотрим на компоненты хранилища данных.

Хранилище данных это у нас просто большая база данных, часто это может быть распределенная (кластер из нескольких машин, чтобы они вместе все параллельно обрабатывали данные, ведь так быстрей и можно больше данных обработать - ну или просто Massive Parallel Processing)

Хранилище данных объединяет все технические компоненты в одной системе.

Все данные хранятся в собственных форматах файлов и таблиц на его собственном хранилище. Эти данные управляются исключительно движком хранения хранилища данных, регистрируются в его каталоге и могут быть доступны только пользователю или аналитическим движкам через его вычислительный движок.


До примерно 2015 года большинство хранилищ данных имели компоненты хранения и вычислений, жестко связанные на тех же узлах, так как они были разработаны и использовались в основном на местах.

Это приводило к множеству проблем. Масштабирование становилось большой проблемой, так как объемы данных быстро росли, а количество и интенсивность нагрузок росло.

Не было возможности независимо увеличивать ресурсы хранения и вычислений в зависимости от задач. Если ваши потребности в хранении данных росли быстрее, чем потребности в вычислительных ресурсах, вам все равно приходилось платить за дополнительные вычислительные мощности, даже если они вам не были нужны.

Это привело к созданию следующего поколения хранилищ данных с акцентом на облачные технологии. Эти хранилища данных начали набирать популярность примерно в 2015 году, когда облачные вычисления стали более распространенными, позволяя разделять компоненты хранения и вычислений и масштабировать эти ресурсы в соответствии с задачами. Они даже позволяли отключать вычислительные ресурсы, когда они не использовались, и не терять при этом данные.

Хранилище данных до сих пор является отличным решением для построения аналитического решения.

Минису все известны:
- Поддержка только SQL
- Вы платите за compute и storage вместе (Snowflake и тп это lakehouse и о нем будет позже)
- Сложно использовать для ML, так как данные нужно выгружать
- У вас schema on write (то есть у вас таблица создана и вы в нее уже пишите как есть)
- Не очень удобно для streaming/real time аналитики, обычно это batch - раз в час, раз в сутки
- Это Vendor Lock

В след посте рассмотрим озеро данных.

Источник: https://www.oreilly.com/library/view/apache-iceberg-the/9781098148614/ch01.html

PS Судя по прошлым комментариям, я рад что ребята в Авито Тех тоже прочитали книгу и поделились знаниями со своей аудиторией🙃

В Surfalytics я попросил всех прочитать 1ю главу и понять, так как очень важно понимать разницу между DW/Data Lake/Lake House и знать их особенности.
Forwarded from Инжиниринг Данных (Dmitry)
Ребята из DevCrowd впервые проводят большое исследование специалистов, работающих в направлениях DS/ML/AI:

- что входит в обязанности той или иной профессии
- какие навыки наиболее важны и каких знаний не хватает
- сколько зарабатывать специалисты в зависимости от опыта и грейда
- а так же полезные для развития каналы, курсы и книги

Проходите опрос, рассказывайте про ваш опыт и помогите сделать исследование максимально охватным. Его результаты появятся в открытом доступе в конце сентября, и помогут вам сравнить свои ожидания с рыночными, построить план своего развития, и просто понять, что происходит с индустрией!

👉Пройти опрос

Посмотреть другие исследования проекта

PS не реклама, просто дружеский пост.
Forwarded from Инжиниринг Данных (Dmitry)
По моему мнению, сейчас для всех людей кто начинает работать с данными в контексте аналитики важно с первого дня обучения или работы по профессии знать следующие вещи:

- Командная строка (CLI), та самая, которая у вас могла быть в школе на информатик в CMD. Сейчас если у вас MacOS, то Zsh с приятными плагинами Oh My Zsh, если Windows, то сразу ставьте Ubuntu WSL.

- Среда разработки (IDE), самый лучший вариант это VSCode. Бесплатно и есть плагины для всего. Отлично подойдет, чтоб редактировать файлы, писать код и запускать окошко с командной строкой.

- Git система. Самая популярная и бесплатная это GitHub. Создайте себе аккаунт и каждый день делайте туда commit, через branch, чтобы потом сделать Pull Request. А еще вы можете бесплатно запостить свой сайт про себя, использую GitHub Pages.

- Markdown - очень просто текстовый язык. Используйте его, чтобы создавать в каждой папке в вашем репозитории GitHub файлик readme.md и там описывайте шаги, храните код. Намного полезней, чем Google Doc. Конечно не так удобно как Notion, но пользы лучше. И в конце-концов ваш GitHub профайл, это ваш актив.

- Контейнеры, используйте Docker File, потренируйтесь создавать к `DockerFile и потом к нему подключаться.

Как правило все эти навыки не обязательны для аналитиков и BI разработчиков. Но это будет ваше преимущество и откроет вам много возможностей в будущем. А так же вы сможете быстро “въехать” в существующие проекты и понять, что где хранится и для чего делает, но и разговаривать на одном языке с инженерами. Да и быстрей станете сами инженером, ведь им платят больше!

PS Обо всем этом я рассказывал в 0м модуле Surfalytics (на английском) с упражнениями и примерами. В 1м модуле я рассказывал про роли и roadmap. А сейчас уже записываю 2й модуль и во 2м уроке мы использовали SQLite, Postgres на локальной машине, а потом тоже самое но в Docker контейнере.

Возможно вам будет сложно на английском, но мой английский с русским акцентом вам должен быть понятен, и сам навык английского очень важен, я еще в 2010 году читал Kimbal на английском и различные блоги и документацию. Поэтому Surfalytics для вас как бесплатный сериальчик на английском с субтитрами. А если прям хотите каждый день практиковаться, приходите в Surfalytics сообщество.

PPS еще есть замечательная книга Missing Readme, которая на пальцах рассказывает, что зачем для junior software engineer.

Подписывайтесь на YouTube, это мне поможет, я верю, что материал хороший, но сложно сейчас пробиться с 0, поэтому like, follow очень помогает!
Forwarded from Data Analysis / Big Data
Как подготовиться к собеседованию на инженера данных

Подготовка к интервью на позицию инженера данных может быть сложной задачей. Этот пост поможет вам изучить ключевые структуры данных и алгоритмы, а также типичные вопросы на собеседованиях. Узнайте, как улучшить свои знания и уверенно пройти собеседование. Эффективные Методы Поиска и Алгоритмы для Инженеров Данных

В статье рассматриваются популярные алгоритмы поиска, такие как глубинный и ширинный поиск (DFS и BFS), а также бинарный поиск. Описаны их итеративные и рекурсивные версии. Статья полезна для подготовки к интервью по данным профессиям.

Читать подробнее

#en

@big_data_analysis | Другие наши каналы
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Unified Data Architecture - еще один термин, обозначающий примерно то же самое - консолидация данных для принятия бизнес решений и с недавних пор для использования данных в машинном обучении. Другими словами синоним слова “хранилище данных”. Но в данном контексте это уже может быть что угодно - реляционная база данных, озеро данных на Hadoop или микс хранилища и озера данных, как например Snowflake или Redshift + Redshift Spectrum. Очень хорошая диаграмма, на которой по слоям все расписано от источника до отчета.
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
Кроме fancy инструментов, я люблю еще другую категорию - “Было-Стало”, как раз картинка про это. Конечно инструментов тут показали совсем чуть-чуть, но идею передали.
Forwarded from Инжиниринг Данных (Dmitry Anoshin)
А тут более подробно рассмотрена диаграмма для DS&ML
Forwarded from NOdata Миша (Миша Павлюк)
Мониторинг DWH

Мониторинг в DWH - это большая тема, но я расскажу с чем сталкиваюсь конкретно я:

- Алертинг в ДАГах Airflow. В наших ДАГах используется функция, которая, в случаи падения ДАГа, посылает сообщения в корпоративный мессенджер и тэгает владельца ДАГа. Это достаточно удобно, ведь нет необходимости самостоятельно проверять отработку ДАГов

- Мониторнг в Grafana. Grafana — система визуализации данных, ориентированная на данные систем ИТ-мониторинга. Тут можно мониторить все, а не только ДАГи, ведь часто поступление данных в DWH может быть происходить без участия airflow (например из kafka сразу в clickhouse)


Ютуб | OnlyFans
Forwarded from NOdata Миша (Миша Павлюк)
Бег лучшая вещь для айтишника на удаленке

Я не так давно начал бегать. И это оказалось прям круто. Не буду тут говорить о пользе для здоровья и о том, что стал лучше себя чувствовать, а хотел бы сказать о чуть менее очевидной, но весьма важной штуке - отвлечение от работы

Многим знакома ситуация, когда заканчиваешь рабочий день, но продолжаешь думать о задаче, а если работаешь на удаленке, то рабочий день в какой-то степени, вообще может не заканчиваться, ведь ты в любой момент можешь открыть ноутбук, чтобы еще что-нибудь поделать. В итоге вечерний отдых от работы, не совсем является отдыхам. (Да иногда есть супер срочные или интересные задачи на которые готовы потратить силы, но, наверное, это должна быть редкая история)

Вечерняя пробежка стала отличным решением этой проблемы. 18:00 я закрываю ноутбук и бегу. Телефон при этом остается дома, и я смогу увидеть написали ли там что-то важное в рабочем чатике только через час.
Мне это очень сильно помогает отвлечься от работы, и даже если во время рабочего дня было слишком много мыслей которые грузили меня о том, что работы много, не получается или другие подобные, то вечером их совсем нет

Если тема интересна и хотите узнать как я продолжаю бегать регулярно, то поставьте 🔥


Ютуб | OnlyFans
Forwarded from NOdata Миша (Миша Павлюк)
Для чего вообще DWH?

Понятно, что ДВХ это про данные, но для чего эти данные, где они используются?

Самое частое это, конечно, различные отчеты, чаще всего в виде дашбордов в какой-нибудь Bi штуке (например в superset). Информация на этих дашбордах может быть различной, для разных потребителей:
- Маркетинговые команды могут смотреть на отчеты для анализа эффективности рекламных кампаний и повышения ROI
- Отелы продаж для оценки динамики продаж, анализа поведения клиентов и прогнозирования спроса
- Руководители для принятия каких-то важных стратегических решений

Помимо отчетов на самих дашбордах, часто кому-то необходимо просто получить какую-то небольшую инфу по нашим данным, хватает небольшого sql кода

Также данные из ДВХ нужны и дата сайентистам, которые с их помощью строят всякие модельки и ИИ, который всех нас убьет= сделает мир лучше


Ютуб | Дата уроки
Forwarded from NOdata Миша (Миша Павлюк)
Беги, Миша, беги

Тут рассказал о том как круто бегать, а сейчас хочу рассказать о том как у меня получается делать это регулярно:

- Я почти всю жизнь не любил бегать. Это ведь сложно. Капец как устаешь. Я лучше пройду 20 километром, чем пробегу 2. И это правда так. Для организма, который более 2 лет вообще не чувствовал, что такое бег, пробежать хотя бы пару км. является больший стрессом, а если делать это регулярно, то ваще капец не круто. Зачем так сильно напрягаться? И первый совет в том, что напрягаться сильно не стоит. Оказывается совсем не обязательно (и даже вредно) быстро бежать и становиться капец каким устаревшим. Можно просто совершать легкую пробежку, бежать медленно. Что значит медленно? С той скоростью при которой ты можешь без особых трудностей разговорить во время бега. Когда только начинаешь бегать, то ты бежишь не сильно быстрее чем люди просто идут. Тебя будут обгонять 60-летние дедушки (потом убегут вперед, там где-то развернуться, побегут тебе навстречу и помашут рукой, но рано или поздно я его сделаю)

- Второй пункт вытекает из первого. Тут тоже про то, что это не тренировочные забеги ради результатов, а вечерняя пробежка, которая преследует совершенно другие вещи. А значит если например на улице сегодня идет дождь, то вообще ничего страшного нет, если пробежки сегодня не будет. Также и регулярность пробежек, я для себя понял, что мне норм бегать 3 раза в неделю, но ничего страшного нет, если получится побегать всего 2 раза, а если захочу пробежать 4 раз, то скорее всего откажусь от этой идеи, так во время этой 4 пробежки устану и не получу удовольствие

- А что делать если не хочется? В первую очередь ответить на вопрос «Почему тебе не хочется?», и если ответ будет «Бегаю уже 2 месяца и мне это вообще не нравится», то бросать. Бег это не что-то идеальное, что подойдет абсолютна всем, и возможно вам следует поискать другие занятия. Но когда я не хотел делать вечернюю пробежку и задавал вопрос «Почему?», то ответом было «Я сегодня как-то устал во время рабочего дня, а тут еще и бежать куда-то», то есть главная причина из-за которой я бегаю в некоторых случаях пытается работать в другую сторону, но меня так просто не проведешь, я все равно бегу

Это были 3 главне вещи, которые лично мне помогают бегать. Для кого-то скорее всего поможет что-то другое, например записаться на марафон через несколько месяцев и тогда просто становится необходимо бегать постоянно. Но лично для меня вещи, которые про делать что-то (бежать) ради чего-то (условного марафона) не работают, поэтому я стараюсь концентрироваться на процессе)


Ютуб | Дата уроки