🔵 عنوان مقاله
Apache DataFusion 50.0.0 Released (6 minute read)
🟢 خلاصه مقاله:
Apache DataFusion نسخه 50.0.0 با تمرکز بر بهبود کارایی و تجربه تحلیلی منتشر شد. مهمترین بهبودها شامل dynamic filter pushdown برای inner hash joins است که با انتقال فیلترهای حاصل از join به مرحله اسکن، در بسیاری از سناریوها باعث جهش قابلتوجه در کارایی اسکن میشود. همچنین عملگر nested loop join بازنویسی شده و اکنون تا ۵ برابر سریعتر اجرا میشود و تا ۹۹٪ حافظه کمتری مصرف میکند. در کنار اینها، قابلیت automatic Parquet metadata caching در پرسوجوهای نقطهای (point queries) تا ۱۲ برابر سرعت بیشتر فراهم میکند.
از نظر قابلیتها، پشتیبانی از disk-spilling sorts پایداری پردازش مرتبسازی را در دادههای بزرگ با امکان استفاده از دیسک تضمین میکند. افزوده شدن عبارات QUALIFY و FILTER نیز نگارش پرسوجوهای تحلیلی پیشرفته—از جمله فیلترگذاری پس از window functions و فیلتر روی تجمیعها—را سادهتر میسازد. علاوه بر این، سازگاری گستردهتر با Apache Spark انتقال و اجرای بارهای کاری موجود را با تغییرات کمتر ممکن میکند. مجموع این تغییرات، DataFusion 50.0.0 را برای تحلیل تعاملی، ETL و محیطهای ابری حساس به هزینه به گزینهای ارتقایافته و کارآمد تبدیل میکند.
#ApacheDataFusion #DataFusion #BigData #DataEngineering #QueryEngine #Parquet #SQL #ApacheSpark
🟣لینک مقاله:
https://datafusion.apache.org/blog/2025/09/29/datafusion-50.0.0?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Apache DataFusion 50.0.0 Released (6 minute read)
🟢 خلاصه مقاله:
Apache DataFusion نسخه 50.0.0 با تمرکز بر بهبود کارایی و تجربه تحلیلی منتشر شد. مهمترین بهبودها شامل dynamic filter pushdown برای inner hash joins است که با انتقال فیلترهای حاصل از join به مرحله اسکن، در بسیاری از سناریوها باعث جهش قابلتوجه در کارایی اسکن میشود. همچنین عملگر nested loop join بازنویسی شده و اکنون تا ۵ برابر سریعتر اجرا میشود و تا ۹۹٪ حافظه کمتری مصرف میکند. در کنار اینها، قابلیت automatic Parquet metadata caching در پرسوجوهای نقطهای (point queries) تا ۱۲ برابر سرعت بیشتر فراهم میکند.
از نظر قابلیتها، پشتیبانی از disk-spilling sorts پایداری پردازش مرتبسازی را در دادههای بزرگ با امکان استفاده از دیسک تضمین میکند. افزوده شدن عبارات QUALIFY و FILTER نیز نگارش پرسوجوهای تحلیلی پیشرفته—از جمله فیلترگذاری پس از window functions و فیلتر روی تجمیعها—را سادهتر میسازد. علاوه بر این، سازگاری گستردهتر با Apache Spark انتقال و اجرای بارهای کاری موجود را با تغییرات کمتر ممکن میکند. مجموع این تغییرات، DataFusion 50.0.0 را برای تحلیل تعاملی، ETL و محیطهای ابری حساس به هزینه به گزینهای ارتقایافته و کارآمد تبدیل میکند.
#ApacheDataFusion #DataFusion #BigData #DataEngineering #QueryEngine #Parquet #SQL #ApacheSpark
🟣لینک مقاله:
https://datafusion.apache.org/blog/2025/09/29/datafusion-50.0.0?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
🔵 عنوان مقاله
Uber's Strategy to Upgrading 2M+ Spark Jobs (10 minute read)
🟢 خلاصه مقاله:
ارتقای گسترده Uber از Spark 2.4 به Spark 3.3 در مقیاس بزرگ انجام شد و طی شش ماه بیش از ۴۰هزار برنامه Spark و ۲۱۰۰ برنامه دیگر مهاجرت یافت. برای پرهیز از تغییرات دستی زمانبر و پرخطا، Uber فرآیند را خودکار کرد و از ابزار متنباز Polyglot Piranha استفاده نمود؛ ابزاری که کد را تجزیه کرده و به Abstract Syntax Tree (AST) تبدیل میکند تا با اعمال «قوانین تبدیل»، بازنویسیهای برنامهریزیشده و یکدست در سطح انبوه انجام شود. این رویکرد، تغییرات گسترده را با ثبات و سرعت بیشتر ممکن کرد، ریسک خطا را کاهش داد و مسیر بهرهگیری یکپارچه از قابلیتهای Spark 3.3 را در زیرساخت داده Uber هموار ساخت.
#Uber #ApacheSpark #PolyglotPiranha #AST #CodeRefactoring #BigData #Migration #Automation
🟣لینک مقاله:
https://www.uber.com/blog/ubers-strategy-to-upgrading-2m-spark-jobs/?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Uber's Strategy to Upgrading 2M+ Spark Jobs (10 minute read)
🟢 خلاصه مقاله:
ارتقای گسترده Uber از Spark 2.4 به Spark 3.3 در مقیاس بزرگ انجام شد و طی شش ماه بیش از ۴۰هزار برنامه Spark و ۲۱۰۰ برنامه دیگر مهاجرت یافت. برای پرهیز از تغییرات دستی زمانبر و پرخطا، Uber فرآیند را خودکار کرد و از ابزار متنباز Polyglot Piranha استفاده نمود؛ ابزاری که کد را تجزیه کرده و به Abstract Syntax Tree (AST) تبدیل میکند تا با اعمال «قوانین تبدیل»، بازنویسیهای برنامهریزیشده و یکدست در سطح انبوه انجام شود. این رویکرد، تغییرات گسترده را با ثبات و سرعت بیشتر ممکن کرد، ریسک خطا را کاهش داد و مسیر بهرهگیری یکپارچه از قابلیتهای Spark 3.3 را در زیرساخت داده Uber هموار ساخت.
#Uber #ApacheSpark #PolyglotPiranha #AST #CodeRefactoring #BigData #Migration #Automation
🟣لینک مقاله:
https://www.uber.com/blog/ubers-strategy-to-upgrading-2m-spark-jobs/?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
🔵 عنوان مقاله
Spark Config Madness (3 minute read)
🟢 خلاصه مقاله:
اجرای Spark روی جدولهای Iceberg که توسط AWS Glue مدیریت میشوند، با استفاده از پکیجهای رسمی AWS Iceberg Glue، تمام عملیاتهای متداول مانند CTAS، MERGE، UPDATE، DELETE و INSERT را پشتیبانی میکند و قابلیتهایی مثل snapshot isolation و تکامل اسکیمای Iceberg را روی دادههای مبتنی بر S3 به ارمغان میآورد. با چند تنظیم ساده برای Spark—از جمله فعالسازی افزونههای Iceberg، تعریف Glue بهعنوان کاتالوگ، و استفاده از Default AWS Credential Chain—میتوان هم امنیت و هم انطباق با محیط تولید را حفظ کرد و از سختکد کردن رازها پرهیز نمود. با این رویکرد، ساخت جدولهای جدید با CTAS، انجام upsertها با MERGE و پاکسازی هدفمند دادهها ممکن میشود و Iceberg مدیریت متادیتا و همزمانی را بر عهده میگیرد. با این حال، پیچیدگی تنظیمات، سازگاری نسخهها و ظرایف کار با S3 یادآور میشود که استفاده از سرویسهای مدیریتشدهی Spark یا پایگاهدادهها میتواند هزینه و سربار مهندسی را بهطور معناداری کاهش دهد.
#ApacheSpark #AWS #AWSGlue #ApacheIceberg #S3 #DataEngineering #Lakehouse #ETL
🟣لینک مقاله:
https://performancede.substack.com/p/spark-config-madness?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Spark Config Madness (3 minute read)
🟢 خلاصه مقاله:
اجرای Spark روی جدولهای Iceberg که توسط AWS Glue مدیریت میشوند، با استفاده از پکیجهای رسمی AWS Iceberg Glue، تمام عملیاتهای متداول مانند CTAS، MERGE، UPDATE، DELETE و INSERT را پشتیبانی میکند و قابلیتهایی مثل snapshot isolation و تکامل اسکیمای Iceberg را روی دادههای مبتنی بر S3 به ارمغان میآورد. با چند تنظیم ساده برای Spark—از جمله فعالسازی افزونههای Iceberg، تعریف Glue بهعنوان کاتالوگ، و استفاده از Default AWS Credential Chain—میتوان هم امنیت و هم انطباق با محیط تولید را حفظ کرد و از سختکد کردن رازها پرهیز نمود. با این رویکرد، ساخت جدولهای جدید با CTAS، انجام upsertها با MERGE و پاکسازی هدفمند دادهها ممکن میشود و Iceberg مدیریت متادیتا و همزمانی را بر عهده میگیرد. با این حال، پیچیدگی تنظیمات، سازگاری نسخهها و ظرایف کار با S3 یادآور میشود که استفاده از سرویسهای مدیریتشدهی Spark یا پایگاهدادهها میتواند هزینه و سربار مهندسی را بهطور معناداری کاهش دهد.
#ApacheSpark #AWS #AWSGlue #ApacheIceberg #S3 #DataEngineering #Lakehouse #ETL
🟣لینک مقاله:
https://performancede.substack.com/p/spark-config-madness?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Substack
Spark Config Madness
Will it Ever Stop?