Релиз Apache Airflow 2.10
Сегодня вышел релиз новой версии Apache Airflow — 2.10. Не успел я ещё перейти на 2.9, а нам подогнали 2.10. Что нового?
—
— появилась возможность задавать разный Executor для tasks в рамках одного DAG
— Датасеты отныне не триггерят DAGs, находящиеся в состоянии paused
— Важно! Начиная с версии 2.10 Airflow по-умолчанию собирает телеметрию в рамках Open Source Marketing, все данные передаются в систему аналитики Scarf. Чтобы отключить, необходимо задать в конфиге
С полным списком изменений можно ознакомиться по ссылке.
Сегодня вышел релиз новой версии Apache Airflow — 2.10. Не успел я ещё перейти на 2.9, а нам подогнали 2.10. Что нового?
—
@skip_if и @run_if декораторы, позволяющие задавать условия при которых следует запускать или пропускать`task` — появилась возможность задавать разный Executor для tasks в рамках одного DAG
— Датасеты отныне не триггерят DAGs, находящиеся в состоянии paused
— Важно! Начиная с версии 2.10 Airflow по-умолчанию собирает телеметрию в рамках Open Source Marketing, все данные передаются в систему аналитики Scarf. Чтобы отключить, необходимо задать в конфиге
[usage_data_collection]enabled=False либо через переменную окружения SCARF_ANALYTICS=falseС полным списком изменений можно ознакомиться по ссылке.
GitHub
Release Apache Airflow 2.10.0 · apache/airflow
Significant Changes
Datasets no longer trigger inactive DAGs (#38891)
Previously, when a DAG is paused or removed, incoming dataset events would still
trigger it, and the DAG would run when it is u...
Datasets no longer trigger inactive DAGs (#38891)
Previously, when a DAG is paused or removed, incoming dataset events would still
trigger it, and the DAG would run when it is u...
🔥22👍14💯6
Мудрые слова!
А что думаете вы? Я на практике также стараюсь максимально избегать распределенных транзакций, т.к. это сразу значительно усложняет систему.
Наиболее популярные паттерны распределенных транзакций:
— Saga Pattern
— 2-Phase Commit
А что думаете вы? Я на практике также стараюсь максимально избегать распределенных транзакций, т.к. это сразу значительно усложняет систему.
Наиболее популярные паттерны распределенных транзакций:
— Saga Pattern
— 2-Phase Commit
🔥8👍7💯3
Недавно я постил доклад про GIL и его отключение в будущих версиях Python. Вчера же на канал PyCon US загрузили доклад от Юры Селиванова про сабинтерпретаторы: Overcoming GIL with subinterpreters and immutability. Это один из вариантов улучшения производительности Python без отключения GIL. Я сам не сторонник удаления GIL, т.к. параллельное выполнение потоков потребует от программиста следить за их синхронизацией, чем собственно сейчас занимается GIL (он же mutex), поэтому интересно было послушать его доклад.
Для тех, кто в танке, PEP 734 описывает работу сабинтерпретаторов, релиз этой библиотеки планировался в составе Python 3.13, но, к сожалению, Steering Council в апреле этого года решил не включать модуль
Для тех, кто в танке, PEP 734 описывает работу сабинтерпретаторов, релиз этой библиотеки планировался в составе Python 3.13, но, к сожалению, Steering Council в апреле этого года решил не включать модуль
interpreters в stdlib, мотивировав тем, что модулю надо "настояться" в качестве отдельного PyPI пакета. Решение не осуждаю, поэтому пробуйте его на вкус через pip, правда работает только с 3.13+.Telegram
DataEng
GIL и Python
Python, пожалуй, самый популярный язык программирования в дата инжиниринге несмотря на то, что его постоянно ругают за производительность и обжорство. Свои позиции он не сдал чего не скажешь, например, о Scala ☠️
Python своей "тормознутостью"…
Python, пожалуй, самый популярный язык программирования в дата инжиниринге несмотря на то, что его постоянно ругают за производительность и обжорство. Свои позиции он не сдал чего не скажешь, например, о Scala ☠️
Python своей "тормознутостью"…
🔥9👍4💯3
В сети появился интересный проект — SlateDB. Это встроенное хранилище на базе LSM Tree, но все данные хранятся на Object Storage сервисах (Amazon S3, Google Cloud Storage, minIO и т.д.). Проект написан на Rust, и пока не существует биндингов на другие языки. SlateDB активно разрабатывается и пока не рекомендуется к использованию в продакшене.
Судя по всему, проект появился в результате прохождения мини-курса Mini-LSM.
Судя по всему, проект появился в результате прохождения мини-курса Mini-LSM.
slatedb.io
SlateDB | Embedded DB Built on Object Storage
An Embedded DB Built on Object Storage
🔥9👍4💯2
Бот-помощник для дата инженера 🤖
Частенько возникает необходимость расшифровать расписание crontab-выражения на человеческий язык, поэтому запили телеграм-бота: CrontabDescriptionBot
Отправьте ему cron-строку и он вернёт вам расписание. Пользуйтесь!
Под капотом он работает на лямбдах, поэтому оплачивать хостинг мне не надо, и поэтому всегда будет работать.
Частенько возникает необходимость расшифровать расписание crontab-выражения на человеческий язык, поэтому запили телеграм-бота: CrontabDescriptionBot
Отправьте ему cron-строку и он вернёт вам расписание. Пользуйтесь!
Под капотом он работает на лямбдах, поэтому оплачивать хостинг мне не надо, и поэтому всегда будет работать.
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥28👍7
3-х часовой мастер-класс про LLM от Sebastian Raschka: Building LLMs from the Ground Up: A 3-hour Coding Workshop
YouTube
Building LLMs from the Ground Up: A 3-hour Coding Workshop
REFERENCES:
1. Build an LLM from Scratch book: https://amzn.to/4fqvn0D
2. Build an LLM from Scratch repo: https://github.com/rasbt/LLMs-from-scratch
3. GitHub repository with workshop code: https://github.com/rasbt/LLM-workshop-2024
4. Lightning Studio for…
1. Build an LLM from Scratch book: https://amzn.to/4fqvn0D
2. Build an LLM from Scratch repo: https://github.com/rasbt/LLMs-from-scratch
3. GitHub repository with workshop code: https://github.com/rasbt/LLM-workshop-2024
4. Lightning Studio for…
🔥14👍2💯1
DuckCon #5
Плейлист с докладами из прошедшей конференции DuckCon #5:
— DuckDB – Overview and latest developments
— MotherDuck: Taking flight with interactive analytics
— Outliers are all you need
— Quack attack: Bringing DuckDB to the dart side
— A duck for your dashboard: Performant data apps in the browser with DuckDB
— Delighting users with RESTful APIs and DuckDB
— Aerodynamic data models: Flying fast at scale with DuckDB
— Double glazing: Two years of windowing improvements
— dbverse: Composable database libraries for larger-than-memory scientific analytics
— A quack at building scalable data pipelines with DuckDB
Плейлист с докладами из прошедшей конференции DuckCon #5:
— DuckDB – Overview and latest developments
— MotherDuck: Taking flight with interactive analytics
— Outliers are all you need
— Quack attack: Bringing DuckDB to the dart side
— A duck for your dashboard: Performant data apps in the browser with DuckDB
— Delighting users with RESTful APIs and DuckDB
— Aerodynamic data models: Flying fast at scale with DuckDB
— Double glazing: Two years of windowing improvements
— dbverse: Composable database libraries for larger-than-memory scientific analytics
— A quack at building scalable data pipelines with DuckDB
YouTube
DuckDB – Overview and latest developments (DuckCon #5, Seattle, 2024)
Speakers: Hannes Mühleisen, Mark Raasveldt (DuckDB Labs)
Slides: https://blobs.duckdb.org/events/duckcon5/hannes-muhleisen-mark-raasveldt-introduction-and-state-of-project.pdf
Slides: https://blobs.duckdb.org/events/duckcon5/hannes-muhleisen-mark-raasveldt-introduction-and-state-of-project.pdf
👍5
Гайд по промпт-инжинирингу от ребят из Anthropic: AI prompt engineering: A deep dive
Также в описании видео есть ссылка на их же мануал: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
Также в описании видео есть ссылка на их же мануал: https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/overview
YouTube
AI prompt engineering: A deep dive
Some of Anthropic's prompt engineering experts—Amanda Askell (Alignment Finetuning), Alex Albert (Developer Relations), David Hershey (Applied AI), and Zack Witten (Prompt Engineering)—reflect on how prompt engineering has evolved, practical tips, and thoughts…
👍8
Нашел в сети пост мини-книгу от небезызвестной Chip Huyen: Building A Generative AI Platform
Пожалуй, это одно из самых подробных руководств про построение Generative AI платформ своими руками, или как сейчас говорят RAG in Production.
Пожалуй, это одно из самых подробных руководств про построение Generative AI платформ своими руками, или как сейчас говорят RAG in Production.
Chip Huyen
Building A Generative AI Platform
After studying how companies deploy generative AI applications, I noticed many similarities in their platforms. This post outlines the common components of a generative AI platform, what they do, and how they are implemented. I try my best to keep the architecture…
2👍11🔥3
Нашел в Ютубе двухчасовой доклад про индексы в PostgreSQL: Индексы в PostgreSQL. Как понять, что создавать
YouTube
Андрей Сальников — Индексы в PostgreSQL. Как понять, что создавать
Подробнее о Java-конференциях:
— весной — JPoint: https://jrg.su/gTrwHx
— осенью — Joker: https://jrg.su/h7yvG4
— —
Любой разработчик знает, что индексы — это мощный инструмент, который может улучшить работу запросов в базе данных и, как следствие, сократить…
— весной — JPoint: https://jrg.su/gTrwHx
— осенью — Joker: https://jrg.su/h7yvG4
— —
Любой разработчик знает, что индексы — это мощный инструмент, который может улучшить работу запросов в базе данных и, как следствие, сократить…
👍15🔥5
В блоге базы данных ClickHouse вышел интересный пост, направленный на PostgreSQL юзеров, в нём показаны ключевые различия между моделированием данных в ClickHouse и PostgreSQL: https://clickhouse.com/blog/postgres-to-clickhouse-data-modeling-tips
ClickHouse
Postgres to ClickHouse: Data Modeling Tips
Learn data modeling tips while transitioning from Postgres to ClickHouse. Discover how to leverage ClickHouse’s ReplacingMergeTree engine, handle duplicates, and optimize performance using the right Ordering Key and PRIMARY KEY strategies. This guide offe
👍24🔥7
Building and scaling Notion’s data lake
В июле этого года в блоге Notion вышла подробная статья об их опыте построении data lake: https://www.notion.so/blog/building-and-scaling-notions-data-lake
В июле этого года в блоге Notion вышла подробная статья об их опыте построении data lake: https://www.notion.so/blog/building-and-scaling-notions-data-lake
Notion
How Notion build and grew our data lake to keep up with rapid growth
👍12
Релиз PostgreSQL 17
Уже и доклад есть на Ютубе о новшествах: https://www.youtube.com/watch?v=peLXtGorl8A
Уже и доклад есть на Ютубе о новшествах: https://www.youtube.com/watch?v=peLXtGorl8A
YouTube
Обзор PostgreSQL 17 — Павел Лузанов, PGConf.Russia 2024
На конференции по PostgreSQL в Москве руководитель отдела образовательных программ Postgres Professional представил детальный обзор фич новой 17-версии открытой СУБД PostgreSQL. На PGConf.Russia 2024 Павел рассказал про часть фич системы, о которых было известно…
👍13🔥3💯3
Postgres Hacking 101 by Andrey Borodin
Серия из 5 видео о том как написать патч для PostgreSQL. Контент годный, но просмотров очень мало.
— Walk-through of implementing simple Postgres patch. From sources to CI
— Postgres Hacking 101: Benchmarking a Patch
— Postgres Hacking 101: Buffer Page and its API
— Postgres Hacking 101: drop of caches (flushing shared buffers)
— Postgres Hacking 101: detailed buffers statistics in EXPLAIN BUFFERS
Серия из 5 видео о том как написать патч для PostgreSQL. Контент годный, но просмотров очень мало.
— Walk-through of implementing simple Postgres patch. From sources to CI
— Postgres Hacking 101: Benchmarking a Patch
— Postgres Hacking 101: Buffer Page and its API
— Postgres Hacking 101: drop of caches (flushing shared buffers)
— Postgres Hacking 101: detailed buffers statistics in EXPLAIN BUFFERS
YouTube
Walk-through of implementing simple Postgres patch. From sources to CI.
In this video I'm doing "magic" binary search. This search fallbacks to linear search when the number of tuples is small. Typically this is done to reduce number of branch mispredictions, but it's rather toy feature here. It's taken only for example.
Resulting…
Resulting…
👍12
Видео Airflow Summit 2024
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
— Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
— Airflow Datasets and Pub/Sub for Dynamic DAG Triggering
— Optimize Your DAGs: Embrace Dag Params for Efficiency and Simplicity
— Event-driven Data Pipelines with Apache Airflow
— LLMs for Software Development & Apache Airflow
— The road ahead: What’s coming in Airflow 3 and beyond?
— 10 years of Airflow: history, insights, and looking forward
Остальные доклады можно найти на официальном Ютуб-канале Apache Airflow
YouTube
Optimizing Airflow Performance: Strategies, Techniques, and Best Practices
Presented by Astronomer at Airflow Summit 2024.
Airflow is widely adopted for its flexibility and scalability. However, as workflows grow in complexity and scale, optimizing Airflow performance becomes crucial for efficient execution and resource utilization.…
Airflow is widely adopted for its flexibility and scalability. However, as workflows grow in complexity and scale, optimizing Airflow performance becomes crucial for efficient execution and resource utilization.…
🔥15👍8💯4
Организовали с ребятами подборку ламповых каналов про дата инжиниринг 💡
https://t.iss.one/addlist/a1B07iwrPxUxNWIy
Подписывайтесь 😎
https://t.iss.one/addlist/a1B07iwrPxUxNWIy
Подписывайтесь 😎
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
data party
Айлин invites you to add the folder “data party”, which includes 8 chats.
1🔥11👍3
The Ultimate Guide to Apache Airflow DAGs.pdf
4.5 MB
The Ultimate Guide to Apache Airflow® DAGs
E-book от ребят из Astronomer про Apache Airflow. 135 страниц концентрированной информации "без воды". Рекомендую! Заходит как справочник в самый раз 👍🏻
E-book от ребят из Astronomer про Apache Airflow. 135 страниц концентрированной информации "без воды". Рекомендую! Заходит как справочник в самый раз 👍🏻
2🔥34👍16💯5
AI Agent Course
На следующей неделе (10 февраля) стартует бесплатный курс Hugging Face Agents. Курс рассчитан на обучение в течение 6 недель, новый материал будет публиковаться раз в две недели. Цель курса научить вас создавать и деплоить ИИ Агентов в продакшен.
На следующей неделе (10 февраля) стартует бесплатный курс Hugging Face Agents. Курс рассчитан на обучение в течение 6 недель, новый материал будет публиковаться раз в две недели. Цель курса научить вас создавать и деплоить ИИ Агентов в продакшен.
huggingface.co
agents-course (Hugging Face Agents Course)
Org profile for Hugging Face Agents Course on Hugging Face, the AI community building the future.
🔥11👍5💯1
Deep Dive into LLMs like ChatGPT
На канале Andrej Karpathy вышло 3-х часовое видео с разбором как работают LLM модели на примере ChatGPT. Более того, чуть больше года назад он уже выпускал часовой ролик Intro to Large Language Models, который уже набрал более 2.5 миллионов просмотров!
На канале Andrej Karpathy вышло 3-х часовое видео с разбором как работают LLM модели на примере ChatGPT. Более того, чуть больше года назад он уже выпускал часовой ролик Intro to Large Language Models, который уже набрал более 2.5 миллионов просмотров!
YouTube
Deep Dive into LLMs like ChatGPT
This is a general audience deep dive into the Large Language Model (LLM) AI technology that powers ChatGPT and related products. It is covers the full training stack of how the models are developed, along with mental models of how to think about their "psychology"…
1👍8🔥2
Please open Telegram to view this post
VIEW IN TELEGRAM
👍30💯12🔥2