544 subscribers
347 photos
87 videos
15 files
426 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt, LLM agentic systems, AI, robots, drones etc.

Boost channel - https://t.iss.one/boost/data_engi
Download Telegram
11
😮 Turso представили Limbo — переписанный на Rust вариант SQLite, обещают +20% к скорости, векторный поиск, асинхронность и сборку в WebAssembly.

1️⃣ Почему интересно: Rust даёт безопасность и асинхронность, векторные индексы полезны для ML/AI, а WASM-версия запускается прямо в браузере.

2️⃣ Главные фишки:
🟢+20% производительности
🟢Векторные индексы для поиска
🟢Асинхронная обработка запросов
🟢Сборка в WebAssembly

3️⃣ Где пригодится: Локальные проекты (edge computing, микросервисы), задачи ML (embeddings), лёгкие веб-приложения без серверов.

4️⃣ Итог: Limbo — свежий взгляд на SQLite с упором на скорость, лёгкость и современные сценарии (ML, браузеры, edge).

#turso #limbo #sqlite #dev #de #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
6😁3❤‍🔥11
🐝Hive против Spark🚀

Apache Hive и Apache Spark — мощные инструменты для работы с большими данными, но они по-разному выполняют распределённую обработку.

🔜 Hive: SQL-интерфейс для Hadoop

Плюсы:
✔️ Хорошо масштабируется для больших наборов данных (хранящихся в HDFS)
✔️ SQL-like язык (HiveQL) делает его удобным для пользователя
✔️ Отлично подходит для пакетной обработки

Минусы:
▶️ Высокая задержка запросов (использует MapReduce/Tez)
▶️ Медленнее по сравнению со Spark
▶️ Ограниченные возможности потоковой обработки в реальном времени

➡️ Spark: быстрая распределённая обработка

Плюсы:
✔️ Вычисления в памяти 🔜 высокая производительность
✔️ Поддержка обработки данных в реальном времени (структурированная потоковая передача)
✔️ Гибкость: работает с HDFS, S3, Cassandra, JDBC и другими

Минусы:
▶️ Требует больше оперативной памяти
▶️ Более сложное управление
▶️ Менее эффективен для пакетной обработки архивированных больших данных

💡 Выводы:
Используй Hive для сложных SQL-запросов и пакетной обработки.
Используйте Spark для аналитики в реальном времени и быстрой обработки данных.

#data #bigdata #hive #spark #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5👏2😁1
😁17
😁13
📊 Продвинутый SQL: Моделирование и эффективный доступ к данным

Если ты сталкивался с требованиями «знания продвинутого SQL» в вакансиях, но не понимал, что именно под этим подразумевается, эта статья для тебя.

🐱 В ней рассматриваются:
- Оконные функции и CTEs
- Различные типы JOIN и MERGE INTO
- Оптимизация запросов: партиционирование, кластеризация, избегание data skew
- Моделирование данных: Dimension, Fact, Bridge, OBT и агрегированные таблицы

📖 Подробнее: https://www.startdataengineering.com/post/advanced-sql/

#DE #DataEngineering #SQL #BigData #ETL #Analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8
SQLZoo — живой онлайн-тренажёр с задачами от простых SELECT до продвинутых оконных функций. Если хочешь свободно «разговаривать» с базами данных, тебе это нужно и будет полезным изучить каждый интерактивный урок.

1️⃣ Почему именно SQLZoo?
Платформа комбинирует теорию и практику в одном окне. Ты сразу видишь результат запроса, исправляешь ошибки на месте и не тратишь время на настройку окружения.

2️⃣ Как учиться быстрее?
🟡 Проходи уроки подряд: Basics 🔜 Joins 🔜 Aggregates 🔜 Windows.
🟡 Фиксируй новые приёмы в конспект: GROUP BY, HAVING, WITH RECURSIVE.
🟡 Старайся решить каждое задание без подсказок, а затем сравни свой запрос с эталоном.

3️⃣ Что получишь на выходе?
За пару вечеров наберёшься практики, которой хватает, чтобы читать чужие SQL-скрипты без боли и писать свои, не заглядывая в подсказки.

Чтобы SQL больше не был тёмным лесом - залетай сюда ➡️ sqlzoo.net

#sql #de #postgres
Please open Telegram to view this post
VIEW IN TELEGRAM
4
DB Quacks

Бесплатный интерактивный курс по SQL и DuckDB, где вместо сухой теории ты вводишь запросы и сразу получаешь результат. Всё в стиле аркадной игры: удобно, весело и полезно.

Идеально для первых шагов в аналитике и работе с данными.

#sql #de #duckdb
❤‍🔥6👏21
🖼️ PostgreSQL 18 релизнули в конце сентября.

Свежий релиз принёс серьёзные улучшения:

⚙️ Асинхронный ввод-вывод (AIO) — теперь чтение данных может идти параллельно, ускоряя seq-scan и VACUUM.
🔍 Skip-scan в B-tree — индекс по нескольким полям теперь работает даже без фильтра по первому.
🔄 pg_upgrade без "холодного старта" — статистика сохраняется при апгрейде.
🔐 OAuth 2.0 аутентификация, плюс прощание с MD5.
🧮 Мелкие радости: uuidv7(), виртуальные столбцы, подробная статистика в EXPLAIN и включённые по умолчанию checksums.

💡 Если твои базёнки упираются в диск - самое время затестить.

#postgres #db #de #dev #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
9👏4💯2
😁12
Когда-то DuckDB был просто идеален.
Быстрый. Удобный. Всё летает.
Но каждый раз одно и то же:

«Блин, а как дать доступ коллеге?»
«А BI как подключить?»
«А auth? А TLS?»
«Может просто Postgres поднять?..»
И вот тут начинается оверхед.

GizmoSQL делает простую вещь:
берёт DuckDB (или SQLite)
и делает из него нормальный SQL-сервер.

Запустил процесс —
подключился по сети —
пишешь SQL.
Без магии. Без зоопарка.

Что приятно:
🔘Arrow Flight SQL
🔘Python / JDBC / BI клиенты
🔘JWT + TLS
🔘Docker, k8s, бинарник
🔘читает Parquet / CSV / S3

По ощущениям —
«DuckDB, но для людей, а не только для локального ноутбука».
Самый кайф — это мысль:

а зачем нам тяжёлый DWH, если нужен просто быстрый SQL?


Иногда ответ — GizmoSQL.

#sql #dwh #gizmosql #de
Please open Telegram to view this post
VIEW IN TELEGRAM
84