Database Labdon

🔵 عنوان مقاله
Apache DataFusion 50.0.0 Released (6 minute read)

🟢 خلاصه مقاله:
Apache DataFusion نسخه 50.0.0 با تمرکز بر بهبود کارایی و تجربه تحلیلی منتشر شد. مهم‌ترین بهبودها شامل dynamic filter pushdown برای inner hash joins است که با انتقال فیلترهای حاصل از join به مرحله اسکن، در بسیاری از سناریوها باعث جهش قابل‌توجه در کارایی اسکن می‌شود. همچنین عملگر nested loop join بازنویسی شده و اکنون تا ۵ برابر سریع‌تر اجرا می‌شود و تا ۹۹٪ حافظه کمتری مصرف می‌کند. در کنار این‌ها، قابلیت automatic Parquet metadata caching در پرس‌وجوهای نقطه‌ای (point queries) تا ۱۲ برابر سرعت بیشتر فراهم می‌کند.

از نظر قابلیت‌ها، پشتیبانی از disk-spilling sorts پایداری پردازش مرتب‌سازی را در داده‌های بزرگ با امکان استفاده از دیسک تضمین می‌کند. افزوده شدن عبارات QUALIFY و FILTER نیز نگارش پرس‌وجوهای تحلیلی پیشرفته—از جمله فیلترگذاری پس از window functions و فیلتر روی تجمیع‌ها—را ساده‌تر می‌سازد. علاوه بر این، سازگاری گسترده‌تر با Apache Spark انتقال و اجرای بارهای کاری موجود را با تغییرات کمتر ممکن می‌کند. مجموع این تغییرات، DataFusion 50.0.0 را برای تحلیل تعاملی، ETL و محیط‌های ابری حساس به هزینه به گزینه‌ای ارتقایافته و کارآمد تبدیل می‌کند.

#ApacheDataFusion #DataFusion #BigData #DataEngineering #QueryEngine #Parquet #SQL #ApacheSpark

🟣لینک مقاله:
https://datafusion.apache.org/blog/2025/09/29/datafusion-50.0.0?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

152 views05:30

Database Labdon

🔵 عنوان مقاله
Uber's Strategy to Upgrading 2M+ Spark Jobs (10 minute read)

🟢 خلاصه مقاله:
ارتقای گسترده Uber از Spark 2.4 به Spark 3.3 در مقیاس بزرگ انجام شد و طی شش ماه بیش از ۴۰هزار برنامه Spark و ۲۱۰۰ برنامه دیگر مهاجرت یافت. برای پرهیز از تغییرات دستی زمان‌بر و پرخطا، Uber فرآیند را خودکار کرد و از ابزار متن‌باز Polyglot Piranha استفاده نمود؛ ابزاری که کد را تجزیه کرده و به Abstract Syntax Tree (AST) تبدیل می‌کند تا با اعمال «قوانین تبدیل»، بازنویسی‌های برنامه‌ریزی‌شده و یکدست در سطح انبوه انجام شود. این رویکرد، تغییرات گسترده را با ثبات و سرعت بیشتر ممکن کرد، ریسک خطا را کاهش داد و مسیر بهره‌گیری یکپارچه از قابلیت‌های Spark 3.3 را در زیرساخت داده Uber هموار ساخت.

#Uber #ApacheSpark #PolyglotPiranha #AST #CodeRefactoring #BigData #Migration #Automation

🟣لینک مقاله:
https://www.uber.com/blog/ubers-strategy-to-upgrading-2m-spark-jobs/?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

130 views05:31

Database Labdon

🔵 عنوان مقاله
How We Scaled Raw GROUP BY to 100 B+ Rows In Under A Second (30 minute read)

🟢 خلاصه مقاله:
کلیک‌هاوس با معرفی قابلیت Parallel Replicas نشان می‌دهد چگونه می‌توان اجرای پرس‌وجوهای GROUP BY را به‌صورت افقی و بدون تغییر در چیدمان داده‌ها مقیاس داد؛ به‌گونه‌ای که تجمیع بیش از ۱۰۰ میلیارد ردیف در کمتر از یک ثانیه ممکن شود. در این روش، کار یک پرس‌وجوی واحد میان همه‌ی Replicaهای یک Shard تقسیم می‌شود، هر Replica بخشی از داده را می‌خواند و تجمیع‌های جزئی را می‌سازد، و در پایان نتایج به‌صورت قطعی با هم ادغام می‌شوند.

این رویکرد، بدون نیاز به Re-sharding، از Replicaها برای موازی‌سازی Query استفاده می‌کند، با SQL استاندارد سازگار است، و تأخیر انتهایی را برای داشبوردها و تحلیل‌های تعاملی کاهش می‌دهد. به‌دلیل سهم بالای GROUP BY در پرس‌وجوهای BI و رشد بارهای observability و AI analytics، Parallel Replicas راهی عملی برای مقیاس‌پذیری تقریباً نامحدود فراهم می‌کند و نمونه‌ی ۱۰۰B+ ردیف در <۱ ثانیه نشان می‌دهد که استفاده از Replicaها به‌عنوان ظرفیت محاسباتی موازی چه جهشی در کارایی ایجاد می‌کند.

#ClickHouse #ParallelReplicas #GROUPBY #Scalability #BigData #Analytics #OLAP #RealTime

🟣لینک مقاله:
https://clickhouse.com/blog/clickhouse-parallel-replicas?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

ClickHouse

How we scaled raw GROUP BY to 100 B+ rows in under a second

ClickHouse Cloud now scales analytical queries with parallel replicas, fanning a single query across thousands of cores for terabyte-per-second throughput. This post dives into the internals and lets you see and feel the speed.

👍1🔥1

207 views05:30

Database Labdon

🔵 عنوان مقاله
Why You Should Prefer MERGE INTO Over INSERT OVERWRITE in Apache Iceberg (7 minute read)

🟢 خلاصه مقاله:
MERGE INTO همراه با استراتژی Merge-on-Read (MOR) در Apache Iceberg برای به‌روزرسانی داده‌ها معمولاً بهتر از INSERT OVERWRITE است، زیرا به‌جای بازنویسی پارتیشن‌ها، تغییرات را به‌صورت دلتا در سطح فایل اضافه می‌کند؛ نتیجه این کار کاهش I/O، زمان اجرای کوتاه‌تر و صرفه‌جویی در هزینه ذخیره‌سازی است. در مقابل، INSERT OVERWRITE با هر تغییر کوچک مجبور به بازنویسی کامل پارتیشن می‌شود و در مواجهه با Partition Evolution آسیب‌پذیرتر است. رویکرد MOR با تکیه بر تکامل پارتیشن مبتنی بر متادیتا، بدون بازنویسی داده‌های تاریخی، با الگوهای افزایشی مثل CDC و رویدادهای دیررس سازگار است. نقطه ضعف MOR نیاز به فشرده‌سازی و خانه‌تکانی دوره‌ای و اندکی سربار در خواندن برای اعمال دلتاهاست؛ با این حال، برای اغلب بارهای کاری افزایشی، انتخاب پیش‌فرض بهتر MERGE INTO (MOR) است و INSERT OVERWRITE فقط زمانی توصیه می‌شود که قصد بازسازی کامل یا اصلاح گسترده و مشخص داده را دارید.

#ApacheIceberg #MERGEINTO #MergeOnRead #DataEngineering #DataLakehouse #PartitionEvolution #BigData #ETL

🟣لینک مقاله:
https://medium.com/expedia-group-tech/why-you-should-prefer-merge-into-over-insert-overwrite-in-apache-iceberg-b6b130cc27d2?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

Medium

Why You Should Prefer MERGE INTO Over INSERT OVERWRITE in Apache Iceberg

Stop overwriting —start merging: a smarter approach to updating Iceberg tables

85 views05:31

About

Blog

Apps

Platform