Сейчас много шума вокруг DuckDB. Это компактная OLAP база данных на стероидах. На днях наткнулся на статью в рассылке про DuckDB и почему на неё стоит обратить внимание: What is DuckDB?
Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
Также возможно вас заинтересует сравнение polars (убийца pandas) и DuckDB: DuckDB vs Polars for Data Engineering
DuckDB
An in-process SQL OLAP database management system
DuckDB is an in-process SQL OLAP database management system. Simple, feature-rich, fast & open source.
❤🔥3
Airbyte - это открытая платформа интеграции данных, призванная упростить процесс сбора, преобразования и передачи данных (ETL). Она призвана помочь компаниям легко обмениваться данными между различными источниками и целями.
Airbyte предоставляет открытый исходный код, который позволяет пользователям изменять и настраивать платформу в соответствии со своими требованиями.
Интерфейс Airbyte удобен и интуитивно понятен. Пользователи могут создавать и управлять коннекторами для различных источников данных, не требуя при этом обширных технических знаний.
Платформа имеет масштабируемую архитектуру, что делает её пригодной для обработки больших объемов данных.
Airbyte поставляется с большим количеством встроенных коннекторов для популярных источников данных, таких как базы данных, API, облачные сервисы и другие.
Визуальные инструменты и версионирование облегчают создание, отслеживание и управление конфигурациями интеграции.
Несмотря на широкий спектр поддерживаемых источников данных, могут возникнуть ситуации, когда необходимый коннектор отсутствует.
В настоящее время Airbyte не обеспечивает полную поддержку реального времени для всех источников данных.
В целом Airbyte - это перспективный инструмент интеграции данных, который может быть полезен в тех случаях, когда важны простота использования, открытость и масштабируемость.
Please open Telegram to view this post
VIEW IN TELEGRAM
Airbyte
Airbyte | Open-Source Data Integration Platform | ELT Tool
Explore Airbyte, your go-to data integration platform and ELT tool. Seamlessly integrate, transform, and load data with our powerful, user-friendly solution.
❤🔥3
Статья об использовании Airflow в Kubernetes: What we learned after running Airflow on Kubernetes for 2 years. Автор рассказывает о развёрнутом Airflow с 300 DAG's и примерно 5 000 task's. Запускаются в основном лёгкие задачи, такие как dbt-трансформации, поэтому при использовании
Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.
#airflow
KubernetesExecutor автор столкнулся с тем, что инициализация Kubernetes Pod занимает больше времени чем выполнение самой задачи. В итоге автор заменил исполнителя на CeleryExecutor. Статья не только о нюансах работы Airflow в Kubernetes-кластере но и об опыте эксплуатации инструмента в целом.
#airflow
Medium
What we learned after running Airflow on Kubernetes for 2 years
Apache Airflow is one of the most important components in our Data Platform, used by different teams inside the business. It powers all of…
❤🔥3🆒2
This media is not supported in your browser
VIEW IN TELEGRAM
import warnings
warnings.filterwarnings('ignore')
😁8
Хранилища данных и озёра данных - это два разных подхода к управлению и хранению данных. Давай рассмотрим основные аспекты каждого из них.
Хранилища данных обычно предназначены для хранения структурированных данных, что упрощает их анализ и обработку.
Хранилища данных используют оптимизированные структуры для быстрого доступа к данным, что приводит к высокой производительности запросов.
Данные в хранилище предварительно обработаны и упорядочены, что делает их готовыми к использованию для бизнес-аналитики и отчётности.
Хранилища данных могут быть менее гибкими при работе с различными типами данных, такими как неструктурированные или полуструктурированные данные.
По мере увеличения объёма данных их хранение и обработка в хранилище могут усложняться и требовать дополнительных ресурсов.
Data Lake предоставляет возможность хранить неструктурированные и полуструктурированные данные, что делает его пригодным для различных данных.
Data Lake легко масштабируется с ростом объёма данных, обеспечивая повышенную производительность и хранение больших объёмов информации.
Возможность анализировать данные в режиме реального времени позволяет быстро использовать информацию для принятия решений.
Управление озером данных может потребовать более сложных процессов и стратегий, позволяющих избежать беспорядка и поддерживать качество данных.
Поскольку данные в хранилище данных хранятся в исходном виде, доступ к ним может потребовать дополнительных усилий по оптимизации запросов.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥6
Ребята, которые сделали
Также они взяли на себя дальнейшую поддержку
Выглядит круто.
Анонс: https://astral.sh/blog/uv
Репозиторий проекта: https://github.com/astral-sh/uv
ruff, выпустили свой тул для работы с зависимостями для python - uv. Они позиционируют его как замену pip, pip-tools и virtualenv. Написан на расте, поэтому работает быстро.Также они взяли на себя дальнейшую поддержку
rye (который изначально сделал Армин Ронахер, автор flask) и судя по всем планируют постепенно эти проекты объединить в один.Выглядит круто.
Анонс: https://astral.sh/blog/uv
Репозиторий проекта: https://github.com/astral-sh/uv
astral.sh
uv: Python packaging in Rust
uv is an extremely fast Python package installer and resolver, designed as a drop-in alternative to pip and pip-tools.
🆒4
Luigi это компактный инструмент для построения зависимых между собой задач на базе нескольких сущностей: Task, Target. Он идеально подойдёт там, где Airflow кажется избыточным инструментом. В далёком 2017 автор курса писал небольшой обзорный пост на Luigi в блоге: Строим Data Pipeline на Python и Luigi. С тех пор мало что изменилось в концепции инструмента, он по прежнему компактный и простой, именно в этом вся его прелесть.
Please open Telegram to view this post
VIEW IN TELEGRAM
Adil Khashtamov
Строим Data Pipeline на Python и Luigi
ВведениеВ эпоху data-intensive приложений рядовым разработчикам всё чаще приходится сталкиваться с задачами по обработке и анализу данных. Ещё десять лет назад данные большинства проектов могли у…
🆒3❤🔥2
Apache Airflow 2.2: практический курс
За то время что существует курс, Apache Airflow успел обрасти множеством новых фич, которые автор планирует покрыть в будущем, возможно в виде отдельных роликов на Ютуб или в виде статей у себя в блоге.
В любом случае курс не потерял своей актуальности и может послужить неплохим введением для новичков и более опытных пользователей. Например, в курсе автор подробно разбирает как развернуть у себя на сервере production-ready Airflow, а также настроить автодеплой дагов через GitHub Actions.
#airflow
Please open Telegram to view this post
VIEW IN TELEGRAM
Startdatajourney
Apache Airflow 2.2: практический курс
Практический курс по основам Apache Airflow версии 2.2 и выше
🆒8
https://developers.google.com/idx
А вы знали, что Google разрабатывает облачную IDE - IDX?
Напичкана всем подряд: кросс-платформа, iOS и Android эмуляторы, интерпретаторы и компиляторы, облачная среда и терминал и конечно же аналог Copilot.
Проект в публичной бете, можно встать в лист ожидания и получить приглашение.
А вы знали, что Google разрабатывает облачную IDE - IDX?
Напичкана всем подряд: кросс-платформа, iOS и Android эмуляторы, интерпретаторы и компиляторы, облачная среда и терминал и конечно же аналог Copilot.
Проект в публичной бете, можно встать в лист ожидания и получить приглашение.
Firebase
Project IDX is now part of Firebase Studio
An announcement that Project IDX is now part of Firebase Studio, with details on the transition for existing users and new features.
😁2🆒1
This media is not supported in your browser
VIEW IN TELEGRAM
Steampipe — это zero ETL решение для получения данных непосредственно из API и сервисов.
Твоё облако — это живая база данных, которая быстро меняется. Не жди синхронизации ETL и не полагайся на старые данные. Забирай данные там, где они появились, создавая новые варианты использования и быстрые решения.
Используй native Postgres Foreign Data Wrappers для подключения к api через Postgres.
Твоё облако — это живая база данных, которая быстро меняется. Не жди синхронизации ETL и не полагайся на старые данные. Забирай данные там, где они появились, создавая новые варианты использования и быстрые решения.
Используй native Postgres Foreign Data Wrappers для подключения к api через Postgres.
🆒3❤🔥1
Please open Telegram to view this post
VIEW IN TELEGRAM
highon.coffee
SQLMap Cheat Sheet: Flags & Commands for SQL Injection
SQLMap cheat sheet - Learn SQLMap with this Tutorial containing Flags, & SQLMap Command Examples.
❤🔥2
GQL — язык запросов с синтаксисом, который похож на SQL, с минималистичным движком для выполнения запросов к файлам .git вместо файлов базы данных.
Движок выполняет запрос на лету без необходимости создавать файлы базы данных или конвертировать файлы .git в любой другой формат.
Please open Telegram to view this post
VIEW IN TELEGRAM
GitHub
GitHub - AmrDeveloper/GQL: GitQL is a extensible SQL-like query language and SDK to perform queries on various data sources such…
GitQL is a extensible SQL-like query language and SDK to perform queries on various data sources such .git files with supports of most of SQL features such as grouping, ordering and aggregation and...
❤🔥2