Database Labdon

🔵 عنوان مقاله
Apache DataFusion 50.0.0 Released (6 minute read)

🟢 خلاصه مقاله:
Apache DataFusion نسخه 50.0.0 با تمرکز بر بهبود کارایی و تجربه تحلیلی منتشر شد. مهم‌ترین بهبودها شامل dynamic filter pushdown برای inner hash joins است که با انتقال فیلترهای حاصل از join به مرحله اسکن، در بسیاری از سناریوها باعث جهش قابل‌توجه در کارایی اسکن می‌شود. همچنین عملگر nested loop join بازنویسی شده و اکنون تا ۵ برابر سریع‌تر اجرا می‌شود و تا ۹۹٪ حافظه کمتری مصرف می‌کند. در کنار این‌ها، قابلیت automatic Parquet metadata caching در پرس‌وجوهای نقطه‌ای (point queries) تا ۱۲ برابر سرعت بیشتر فراهم می‌کند.

از نظر قابلیت‌ها، پشتیبانی از disk-spilling sorts پایداری پردازش مرتب‌سازی را در داده‌های بزرگ با امکان استفاده از دیسک تضمین می‌کند. افزوده شدن عبارات QUALIFY و FILTER نیز نگارش پرس‌وجوهای تحلیلی پیشرفته—از جمله فیلترگذاری پس از window functions و فیلتر روی تجمیع‌ها—را ساده‌تر می‌سازد. علاوه بر این، سازگاری گسترده‌تر با Apache Spark انتقال و اجرای بارهای کاری موجود را با تغییرات کمتر ممکن می‌کند. مجموع این تغییرات، DataFusion 50.0.0 را برای تحلیل تعاملی، ETL و محیط‌های ابری حساس به هزینه به گزینه‌ای ارتقایافته و کارآمد تبدیل می‌کند.

#ApacheDataFusion #DataFusion #BigData #DataEngineering #QueryEngine #Parquet #SQL #ApacheSpark

🟣لینک مقاله:
https://datafusion.apache.org/blog/2025/09/29/datafusion-50.0.0?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

152 views05:30

Database Labdon

🔵 عنوان مقاله
Inside Husky's query engine: Real-time access to 100 trillion events (10 minute read)

🟢 خلاصه مقاله:
Husky از Datadog با جداسازی سه بخش Planner، Router و Executor، اجرای پرس‌وجوها را در مقیاس بسیار بزرگ و به‌صورت بی‌درنگ ممکن می‌کند. Planner پرس‌وجو را به گراف منطقی از stageها تبدیل می‌کند، آن را به segmentهای قابل اجرا تقسیم کرده و برنامهٔ اجرا تولید می‌کند. Router براساس قواعد و شرایط زمان اجرا، هر segment را به backend مناسب مسیردهی می‌کند تا هم‌زمانی بالا، توازن بار و انعطاف در انتخاب مسیر تضمین شود. Executor کارها را به موتورهای تخصصی مانند SQL engine و custom operators می‌فرستد و نتایج موازی را ترکیب می‌کند. این تفکیک ماژولار باعث مقیاس‌پذیری، امکان اتصال backendهای جدید و بهینه‌سازی پویا برای هر پرس‌وجو می‌شود و دسترسی بی‌درنگ به حجم عظیمی از رویدادها را فراهم می‌کند.

#Datadog #Husky #QueryEngine #RealTimeAnalytics #DistributedSystems #Scalability #DataInfrastructure

🟣لینک مقاله:
https://www.datadoghq.com/blog/engineering/husky-query-architecture/?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

Datadog

Inside Husky’s query engine: Real-time access to 100 trillion events | Datadog

See how Husky enables interactive querying across 100 trillion events daily by combining caching, smart indexing, and query pruning.

❤1

117 views11:30

About

Blog

Apps

Platform