Database Labdon

🔵 عنوان مقاله
Apache DataFusion 50.0.0 Released (6 minute read)

🟢 خلاصه مقاله:
Apache DataFusion نسخه 50.0.0 با تمرکز بر بهبود کارایی و تجربه تحلیلی منتشر شد. مهم‌ترین بهبودها شامل dynamic filter pushdown برای inner hash joins است که با انتقال فیلترهای حاصل از join به مرحله اسکن، در بسیاری از سناریوها باعث جهش قابل‌توجه در کارایی اسکن می‌شود. همچنین عملگر nested loop join بازنویسی شده و اکنون تا ۵ برابر سریع‌تر اجرا می‌شود و تا ۹۹٪ حافظه کمتری مصرف می‌کند. در کنار این‌ها، قابلیت automatic Parquet metadata caching در پرس‌وجوهای نقطه‌ای (point queries) تا ۱۲ برابر سرعت بیشتر فراهم می‌کند.

از نظر قابلیت‌ها، پشتیبانی از disk-spilling sorts پایداری پردازش مرتب‌سازی را در داده‌های بزرگ با امکان استفاده از دیسک تضمین می‌کند. افزوده شدن عبارات QUALIFY و FILTER نیز نگارش پرس‌وجوهای تحلیلی پیشرفته—از جمله فیلترگذاری پس از window functions و فیلتر روی تجمیع‌ها—را ساده‌تر می‌سازد. علاوه بر این، سازگاری گسترده‌تر با Apache Spark انتقال و اجرای بارهای کاری موجود را با تغییرات کمتر ممکن می‌کند. مجموع این تغییرات، DataFusion 50.0.0 را برای تحلیل تعاملی، ETL و محیط‌های ابری حساس به هزینه به گزینه‌ای ارتقایافته و کارآمد تبدیل می‌کند.

#ApacheDataFusion #DataFusion #BigData #DataEngineering #QueryEngine #Parquet #SQL #ApacheSpark

🟣لینک مقاله:
https://datafusion.apache.org/blog/2025/09/29/datafusion-50.0.0?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

152 views05:30

Database Labdon

🔵 عنوان مقاله
Uber's Strategy to Upgrading 2M+ Spark Jobs (10 minute read)

🟢 خلاصه مقاله:
ارتقای گسترده Uber از Spark 2.4 به Spark 3.3 در مقیاس بزرگ انجام شد و طی شش ماه بیش از ۴۰هزار برنامه Spark و ۲۱۰۰ برنامه دیگر مهاجرت یافت. برای پرهیز از تغییرات دستی زمان‌بر و پرخطا، Uber فرآیند را خودکار کرد و از ابزار متن‌باز Polyglot Piranha استفاده نمود؛ ابزاری که کد را تجزیه کرده و به Abstract Syntax Tree (AST) تبدیل می‌کند تا با اعمال «قوانین تبدیل»، بازنویسی‌های برنامه‌ریزی‌شده و یکدست در سطح انبوه انجام شود. این رویکرد، تغییرات گسترده را با ثبات و سرعت بیشتر ممکن کرد، ریسک خطا را کاهش داد و مسیر بهره‌گیری یکپارچه از قابلیت‌های Spark 3.3 را در زیرساخت داده Uber هموار ساخت.

#Uber #ApacheSpark #PolyglotPiranha #AST #CodeRefactoring #BigData #Migration #Automation

🟣لینک مقاله:
https://www.uber.com/blog/ubers-strategy-to-upgrading-2m-spark-jobs/?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

130 views05:31

Database Labdon

🔵 عنوان مقاله
Spark Config Madness (3 minute read)

🟢 خلاصه مقاله:
اجرای Spark روی جدول‌های Iceberg که توسط AWS Glue مدیریت می‌شوند، با استفاده از پکیج‌های رسمی AWS Iceberg Glue، تمام عملیات‌های متداول مانند CTAS، MERGE، UPDATE، DELETE و INSERT را پشتیبانی می‌کند و قابلیت‌هایی مثل snapshot isolation و تکامل اسکیمای Iceberg را روی داده‌های مبتنی بر S3 به ارمغان می‌آورد. با چند تنظیم ساده برای Spark—از جمله فعال‌سازی افزونه‌های Iceberg، تعریف Glue به‌عنوان کاتالوگ، و استفاده از Default AWS Credential Chain—می‌توان هم امنیت و هم انطباق با محیط تولید را حفظ کرد و از سخت‌کد کردن رازها پرهیز نمود. با این رویکرد، ساخت جدول‌های جدید با CTAS، انجام upsertها با MERGE و پاک‌سازی هدفمند داده‌ها ممکن می‌شود و Iceberg مدیریت متادیتا و هم‌زمانی را بر عهده می‌گیرد. با این حال، پیچیدگی تنظیمات، سازگاری نسخه‌ها و ظرایف کار با S3 یادآور می‌شود که استفاده از سرویس‌های مدیریت‌شده‌ی Spark یا پایگاه‌داده‌ها می‌تواند هزینه و سربار مهندسی را به‌طور معناداری کاهش دهد.

#ApacheSpark #AWS #AWSGlue #ApacheIceberg #S3 #DataEngineering #Lakehouse #ETL

🟣لینک مقاله:
https://performancede.substack.com/p/spark-config-madness?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

Substack

Spark Config Madness

Will it Ever Stop?

122 views11:31

About

Blog

Apps

Platform