🔵 عنوان مقاله
Apache DataFusion 50.0.0 Released (6 minute read)
🟢 خلاصه مقاله:
Apache DataFusion نسخه 50.0.0 با تمرکز بر بهبود کارایی و تجربه تحلیلی منتشر شد. مهمترین بهبودها شامل dynamic filter pushdown برای inner hash joins است که با انتقال فیلترهای حاصل از join به مرحله اسکن، در بسیاری از سناریوها باعث جهش قابلتوجه در کارایی اسکن میشود. همچنین عملگر nested loop join بازنویسی شده و اکنون تا ۵ برابر سریعتر اجرا میشود و تا ۹۹٪ حافظه کمتری مصرف میکند. در کنار اینها، قابلیت automatic Parquet metadata caching در پرسوجوهای نقطهای (point queries) تا ۱۲ برابر سرعت بیشتر فراهم میکند.
از نظر قابلیتها، پشتیبانی از disk-spilling sorts پایداری پردازش مرتبسازی را در دادههای بزرگ با امکان استفاده از دیسک تضمین میکند. افزوده شدن عبارات QUALIFY و FILTER نیز نگارش پرسوجوهای تحلیلی پیشرفته—از جمله فیلترگذاری پس از window functions و فیلتر روی تجمیعها—را سادهتر میسازد. علاوه بر این، سازگاری گستردهتر با Apache Spark انتقال و اجرای بارهای کاری موجود را با تغییرات کمتر ممکن میکند. مجموع این تغییرات، DataFusion 50.0.0 را برای تحلیل تعاملی، ETL و محیطهای ابری حساس به هزینه به گزینهای ارتقایافته و کارآمد تبدیل میکند.
#ApacheDataFusion #DataFusion #BigData #DataEngineering #QueryEngine #Parquet #SQL #ApacheSpark
🟣لینک مقاله:
https://datafusion.apache.org/blog/2025/09/29/datafusion-50.0.0?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Apache DataFusion 50.0.0 Released (6 minute read)
🟢 خلاصه مقاله:
Apache DataFusion نسخه 50.0.0 با تمرکز بر بهبود کارایی و تجربه تحلیلی منتشر شد. مهمترین بهبودها شامل dynamic filter pushdown برای inner hash joins است که با انتقال فیلترهای حاصل از join به مرحله اسکن، در بسیاری از سناریوها باعث جهش قابلتوجه در کارایی اسکن میشود. همچنین عملگر nested loop join بازنویسی شده و اکنون تا ۵ برابر سریعتر اجرا میشود و تا ۹۹٪ حافظه کمتری مصرف میکند. در کنار اینها، قابلیت automatic Parquet metadata caching در پرسوجوهای نقطهای (point queries) تا ۱۲ برابر سرعت بیشتر فراهم میکند.
از نظر قابلیتها، پشتیبانی از disk-spilling sorts پایداری پردازش مرتبسازی را در دادههای بزرگ با امکان استفاده از دیسک تضمین میکند. افزوده شدن عبارات QUALIFY و FILTER نیز نگارش پرسوجوهای تحلیلی پیشرفته—از جمله فیلترگذاری پس از window functions و فیلتر روی تجمیعها—را سادهتر میسازد. علاوه بر این، سازگاری گستردهتر با Apache Spark انتقال و اجرای بارهای کاری موجود را با تغییرات کمتر ممکن میکند. مجموع این تغییرات، DataFusion 50.0.0 را برای تحلیل تعاملی، ETL و محیطهای ابری حساس به هزینه به گزینهای ارتقایافته و کارآمد تبدیل میکند.
#ApacheDataFusion #DataFusion #BigData #DataEngineering #QueryEngine #Parquet #SQL #ApacheSpark
🟣لینک مقاله:
https://datafusion.apache.org/blog/2025/09/29/datafusion-50.0.0?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
🔵 عنوان مقاله
Inside Husky's query engine: Real-time access to 100 trillion events (10 minute read)
🟢 خلاصه مقاله:
Husky از Datadog با جداسازی سه بخش Planner، Router و Executor، اجرای پرسوجوها را در مقیاس بسیار بزرگ و بهصورت بیدرنگ ممکن میکند. Planner پرسوجو را به گراف منطقی از stageها تبدیل میکند، آن را به segmentهای قابل اجرا تقسیم کرده و برنامهٔ اجرا تولید میکند. Router براساس قواعد و شرایط زمان اجرا، هر segment را به backend مناسب مسیردهی میکند تا همزمانی بالا، توازن بار و انعطاف در انتخاب مسیر تضمین شود. Executor کارها را به موتورهای تخصصی مانند SQL engine و custom operators میفرستد و نتایج موازی را ترکیب میکند. این تفکیک ماژولار باعث مقیاسپذیری، امکان اتصال backendهای جدید و بهینهسازی پویا برای هر پرسوجو میشود و دسترسی بیدرنگ به حجم عظیمی از رویدادها را فراهم میکند.
#Datadog #Husky #QueryEngine #RealTimeAnalytics #DistributedSystems #Scalability #DataInfrastructure
🟣لینک مقاله:
https://www.datadoghq.com/blog/engineering/husky-query-architecture/?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Inside Husky's query engine: Real-time access to 100 trillion events (10 minute read)
🟢 خلاصه مقاله:
Husky از Datadog با جداسازی سه بخش Planner، Router و Executor، اجرای پرسوجوها را در مقیاس بسیار بزرگ و بهصورت بیدرنگ ممکن میکند. Planner پرسوجو را به گراف منطقی از stageها تبدیل میکند، آن را به segmentهای قابل اجرا تقسیم کرده و برنامهٔ اجرا تولید میکند. Router براساس قواعد و شرایط زمان اجرا، هر segment را به backend مناسب مسیردهی میکند تا همزمانی بالا، توازن بار و انعطاف در انتخاب مسیر تضمین شود. Executor کارها را به موتورهای تخصصی مانند SQL engine و custom operators میفرستد و نتایج موازی را ترکیب میکند. این تفکیک ماژولار باعث مقیاسپذیری، امکان اتصال backendهای جدید و بهینهسازی پویا برای هر پرسوجو میشود و دسترسی بیدرنگ به حجم عظیمی از رویدادها را فراهم میکند.
#Datadog #Husky #QueryEngine #RealTimeAnalytics #DistributedSystems #Scalability #DataInfrastructure
🟣لینک مقاله:
https://www.datadoghq.com/blog/engineering/husky-query-architecture/?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Datadog
Inside Husky’s query engine: Real-time access to 100 trillion events | Datadog
See how Husky enables interactive querying across 100 trillion events daily by combining caching, smart indexing, and query pruning.
❤1