مهندسی داده

👆👆👆

🔥1

453 views18:04

‍ داستان Apache Gluten: بازنویسی سرعت در دنیای کلان‌داده

اگر از اسپارک و بخصوص Spark SQL در حجم کلان استفاده می‌کنید، گلوتن یک هدیه به شماست!

بنیاد Apache، به‌عنوان یکی از پیشگامان توسعه پروژه‌های متن‌باز در دنیای مهندسی داده، در سال‌های اخیر پروژه‌های متعددی را به اکوسیستم خود اضافه کرده است. این پروژه‌ها اغلب با هدف بهبود عملکرد، ارتقاء مقیاس‌پذیری، و ساده‌سازی زیرساخت‌های موجود طراحی می‌شوند.

🔍 در مجموعه‌ای از پست‌ها قصد دارم به معرفی این پروژه‌ها بپردازم و بررسی کنم که هر کدام چگونه به حل مسائل رایج دنیای داده کمک می‌کنند.
برای شروع، سراغ یکی از پروژه‌های جذاب این اکوسیستم می‌رویم: Apache Gluten.

💡 چرا Apache Gluten مهم است؟

درست است که امروز ابزارهای گوناگونی برای پردازش داده‌ها در دسترس داریم، اما واقعیت این است که نمی‌توان به‌راحتی زیرساخت‌هایی را که سال‌ها در سازمان‌ها پیاده‌سازی، بهینه‌سازی و توسعه داده شده‌اند، کنار گذاشت. به‌ویژه Apache Spark، که در طول بیش از یک دهه به یکی از ستون‌های اصلی تحلیل داده در شرکت‌های بزرگ تبدیل شده است، همچنان بخش مهمی از معماری داده بسیاری از سازمان‌ها را تشکیل می‌دهد. اما Spark نیز محدودیت‌هایی دارد؛ از جمله سربارهای JVM و مصرف بالای حافظه و پردازنده.

اینجاست که پروژه‌هایی مانند Apache Gluten شکل می‌گیرند: پروژه‌هایی که به‌جای جایگزینی، به بهینه‌سازی و بازنویسی موتورهای موجود برای بهره‌وری بالاتر کمک می‌کنند.

⚙️ آپاچی Gluten دقیقاً چه می‌کند؟
آپاچی Gluten یک پلاگین شفاف برای Apache Spark است که هدف آن افزایش سرعت و کاهش مصرف منابع در اجرای کوئری‌های SQL است — بدون اینکه نیاز به تغییر در کوئری‌های فعلی یا اپلیکیشن‌ها باشد.

گلوتن این کار را با انتقال اجرای کوئری‌ها از JVM به موتورهای native مانند Velox (توسعه‌یافته توسط Meta) و ClickHouse انجام می‌دهد.

🚀 چگونه Gluten این شتاب را ایجاد می‌کند؟
🔧 گلوتن Pipeline اجرای Spark را بازنویسی می‌کند:

🛠 تبدیل Query Plan به فرمت Substrait

⚙️ اجرای native از طریق JNI

🌱 مصرف حافظه کمتر (تا ۱۰٪ کمتر نسبت به Spark استاندارد)

🔄 استفاده از Columnar Shuffle برای بهبود سرعت انتقال داده

🛡 بازگشت هوشمند به JVM در صورت عدم پشتیبانی Native

📊 نتایج عملکرد

طبق بنچمارک‌های رسمی:

✅ تا ۳.۳ برابر افزایش سرعت در TPC-H

✅ تا ۲ برابر بهبود در TPC-DS

✅ کاهش محسوس در مصرف CPU و RAM

✅ حفظ کامل مانیتورینگ در UI اسپارک

🔌 موتورهایی که توسط Gluten پشتیبانی می‌شوند:
- موتور پردازشی Velox: کتابخانه C++ برای پردازش برداری، با عملکرد بسیار بالا

- کلیک هوس : دیتابیس columnar سریع با پشتیبانی خوب از queryهای تحلیلی

🚀 پشتیبانی در حال توسعه از GPU و FPGA برای پردازش‌های خاص

🌍 چه شرکت‌هایی از آن استفاده می‌کنند؟
آپاچی Gluten به‌سرعت در حال پذیرش توسط شرکت‌های بزرگی است:

علی‌بابا Cloud: پردازش داده در زیرساخت‌های ابری

مایکروسافت Fabric: پلتفرم یکپارچه داده

شرکت IBM: بهینه‌سازی مبتنی بر Velox

و غول‌هایی مانند Google، Baidu، Meituan و NetEase در تحلیل‌های real-time

🌟 مزایای کلیدی برای تیم‌های مهندسی داده
⚡️ عملکرد بالا: تا ۳.۳ برابر سریع‌تر

💾 کاهش مصرف منابع: حافظه و پردازنده

📊 سازگاری کامل با UI اسپارک

🌐 پشتیبانی از شتاب‌دهنده‌های سخت‌افزاری (GPU/FPGA)

🧩 بدون نیاز به بازنویسی کدهای SQL موجود

🔜 برنامه توسعه تا ۲۰۲۵ شامل:

پشتیبانی از معماری ARM

پشتیبانی از Apache Flink

آمادگی برای Apache Spark 4.0

👍4

450 viewsedited 20:33