مهندسی داده

‍ راهنمای حرفه‌ای ساخت پایپ‌لاین‌های ETL/ELT با Apache Airflow

📘 نگاهی خلاصه به ایبوک ۴۴ صفحه‌ای Astronomer

در سال‌های اخیر، Apache Airflow به استانداردی در حوزه‌ی مدیریت وظایف زمان‌بندی‌شده و ارکستراسیون داده‌ها تبدیل شده است. نسخه‌ی ۳ این ابزار، با ویژگی‌های حرفه‌ای‌تری همچون:

✅ پشتیبانی از Multi-DAG Deployment

✅ اجرای مبتنی بر event از طریق Triggerer

✅ قابلیت DAG Versioning

✅ مصرف مستقیم از Kafka

✅ امکان XCom backendهای سفارشی

✅ امکان Dynamic Task Mapping و Data-driven Scheduling

آن را به انتخابی قدرتمند برای محیط‌های پیچیده داده‌ای و تولیدی تبدیل کرده است.

یکی از رایج‌ترین کاربردهای Airflow، ساخت پایپ‌لاین‌های ETL/ELT است. اما در دنیای امروز با حجم بالای داده، معماری‌های پیچیده و نیاز به مقیاس‌پذیری بالا، پیاده‌سازی این پایپ‌لاین‌ها به‌گونه‌ای که قابل‌اعتماد، مانیتورپذیر و توسعه‌پذیر باشند، چالش‌برانگیز شده است.

🔍 اخیراً شرکت Astronomer که خدمات Airflow در فضای ابری را ارائه می‌دهد، یک راهنمای جامع ۴۴ صفحه‌ای با عنوان Best Practices for ETL and ELT Pipelines with Apache Airflow منتشر کرده است که شامل نکات کاربردی و به‌روز برای ساخت پایپ‌لاین‌های حرفه‌ای است.

🗂 خلاصه فهرست مطالب ایبوک:

📌 مفاهیم پایه‌ای

تعریف ETL و ELT، بررسی تفاوت‌ها و سناریوهای ترکیبی (ETLT)

📌 تصمیمات مهم معماری

انتخاب بین XCom یا storage خارجی، اجرای محاسبات درون Airflow یا بیرون، انتخاب اپراتورها، بررسی کیفیت داده

📌 بهترین شیوه‌های نوشتن DAG

ساختار اتمی، idempotent و ماژولار — جلوگیری از top-level code — تنظیم Retry — پیاده‌سازی CI/CD و تست

📌 مقیاس‌پذیری و محیط اجرا

تنظیمات مقیاس در سطح DAG، تسک و محیط — توصیه‌های زیرساختی برای استقرار تولیدی

📌 ویژگی‌های حرفه‌ای Airflow

• امکان Dynamic Task Mapping

• تولید DAGها به‌صورت برنامه‌نویسی‌شده

• امکان Task Group ماژولار

• زمان‌بندی مبتنی بر Dataset

• مدیریت فضای ذخیره سازی - Airflow Object Storage

• استفاده از Kafka و قابلیت DAG Versioning

📌 اتصالات و Providerهای مهم

مروری بر AWS, GCP, Azure, Snowflake, dbt, Spark, Ray, PostgreSQL و Cosmos برای dbt

📌 چک‌لیست نهایی + معرفی Astronomer

چک‌لیستی کامل برای ارزیابی پایپ‌لاین‌ها و مرور امکانات پلتفرم Astronomer

📥 دانلود فایل PDF در پست بعدی 👇

#ApacheAirflow #Kafka #ETL #ELT #DataEngineering #OpenSource #Python #مهندسی_داده #پایپ‌لاین_داده #Airflow3

👍2❤1

354 viewsedited 13:55

مهندسی داده

V4_Best_practices_for_ETL_and_ELT_pipelines_with_Apache_Airflow.pdf

14 MB

فایل راهنمای حرفه‌ای ساخت پایپ‌لاین‌های ETL/ELT با Apache Airflow - 👆👆

👍4

317 viewsedited 13:56

مهندسی داده

‍ الگوریتم توصیه گر توییتر؛ هنوز هم منبع الهام است—even if you’re not Elon 😄

درست است که بیش از دو سال از متن‌باز شدن الگوریتم توصیه گر توئیتر یا همان بخش «For You» توییتر گذشته، اما این پروژه هنوز هم از آن نمونه‌هایی‌ست که می‌توان بارها و بارها به آن برگشت و نکات تازه‌ای از دلش بیرون کشید. چرا؟ چون وقتی قلب الگوریتمی که روزانه برای میلیاردها نفر محتوا پیشنهاد می‌دهد را ببینید، فقط بحث کد نیست—بلکه با یک زیست‌بوم پیچیده از تصمیم‌گیری، مدل‌سازی و حتی طنز مواجه می‌شوید. بیایید این مخزن کد را خیلی سریع و بدون وارد شدن در جزییات فنی آن مرور کنیم.

https://github.com/FareedKhan-dev/KG-Pipeline.git

🔍 چه خبر در دل الگوریتم؟

الگوریتم توصیه‌گر توییتر از چند مرحله اصلی تشکیل شده:

✅ انتخاب توئیت‌های اولیه - Candidate Sources

ابتدا توییتر از بین صدها میلیون توییت، حدود ۱۵۰۰ توییت «نامزد» را انتخاب می‌کند—هم از کسانی که دنبالشان می‌کنید (In-Network) و هم غریبه‌ها (Out-of-Network).

✅ بخش Ranking

این توییت‌ها سپس توسط یک مدل عصبی با بیش از ۴۸ میلیون پارامتر رتبه‌بندی می‌شوند. هدف؟ پیش‌بینی احتمال تعامل مثبت شما با هر توییت.

✅ فیلتر و اعمال الگوریتم‌های مکاشفه‌ای - Heuristics and Filters

حالا نوبت انواع و اقسام فیلترهاست؛ از فیلتر کردن محتوای تکراری و حساب‌های بلاک‌شده گرفته تا یک فیلتر خاص به‌نام author_is_elon 😅 که اگر نویسنده توییت ایلان ماسک باشد، شرایط متفاوتی اعمال می‌شود!

🎯 و این تازه اول ماجراست... توئیت‌های اولیه را چگونه پیدا کنیم ؟

📌 یکی از بخش‌های جالب الگوریتم، بررسی گرایش‌های سیاسی است. فیلترهایی وجود دارد که حتی در سطوح مختلف بررسی می‌کند آیا یک توییت به گرایش‌های دموکرات یا جمهوری‌خواه نزدیک است یا خیر. (بله! الگوریتم هم سیاست‌زده شده 😄) و شما به کدام گرایش سیاسی نزدیک‌تر هستید!

📌 بخش «Embedding Spaces» الگوریتم، کاربران و توییت‌ها را وارد فضای برداری‌ای می‌کند که بر اساس شباهت علایق و محتوا عمل می‌کند و یافتن سریع توئیت‌های کاندید اولیه را ممکن می‌کند. یکی از مشهورترین این فضاها، SimClusters است.

📌 این کامیونیتی‌ها (Communities) در SimClusters، از گروه‌های کوچک دوستانه گرفته تا کل جمعیت علاقه‌مند به سیاست یا موسیقی پاپ را در بر می‌گیرند—و جالب‌تر اینجاست که هر سه هفته یک‌بار دوباره آموزش داده می‌شوند و جایگاه ما در این جامعه‌ها مدام به‌روزرسانی می‌شود. نتیجه؟ توییت‌هایی که می‌بینیم کاملاً وابسته است به اینکه در آن لحظه، ما در کدام کامیونیتی قرار داریم.

🤖 داستان الگوریتم توییتر چیزی فراتر از مهندسی است

این سیستم نه‌تنها با داده‌های تعاملات انسانی تغذیه می‌شود، بلکه خودش هم بازتابی از ساختارهای اجتماعی و فکری کاربرانش است. شفاف‌سازی توییتر با متن‌باز کردن چنین سیستمی، فارغ از انگیزه‌های تجاری، یک حرکت جسورانه در تاریخ الگوریتم‌های شخصی‌سازی بود.

📁 پروژه در GitHub هنوز پابرجاست. و اگر تا حالا نرفتید نگاهش بندازید، مطمئن باشید چیزهایی خواهید دید که فقط در مستندهای نتفلیکس انتظارش را دارید!

🧠 آیا ما نیاز به ساخت الگوریتمی مشابه داریم؟ شاید.

📊 آیا می‌توان از ایده‌های آن در سیستم‌های توصیه‌گر فروشگاهی، شبکه‌های اجتماعی یا پلتفرم‌های محتوایی استفاده کرد؟ قطعاً.

#الگوریتم_توصیه‌گر #مهندسی_داده #توییتر #توسعه_دهنده #یادگیری_ماشین #توسعه_متن_باز #SimClusters #GraphJet #ML #Scala #ForYou

433 views21:11

مهندسی داده

اگر رهبر یک تیم دیتا هستید (یا قصد دارید باشید)، این ریپازیتوری را از دست ندهید:

🔗 Data Team Handbook
https://github.com/sdg-1/data-team-handbook/

راهنمایی جامع برای مدیریت مؤثر تیم‌های داده، با ده‌ها منبع دست‌چین‌شده برای چالش‌های واقعی:
✅ گذار از IC به مدیر
✅ رشد مهارت اعضای تیم
✅ مدیریت پروژه‌های دیتا
✅ بهینه‌سازی زیرساخت، هزینه و ابزارها
✅ تمپلیت‌ها و چک‌لیست‌های قابل استفاده

📚 منابع شامل:

بهترین کتاب‌ها در مدیریت فنی و مهندسی داده

مقالات دقیق درباره DataOps، Data Culture و Team Structure

ویدیوهای آموزشی از لیدهای فنی در Amazon، Google و Stripe

چرا این منبع برای شما ضروری‌ست؟

🛠 دسته‌بندی بر اساس چالش‌های واقعی

انتقال از مهندس اختصاصی (IC) به نقش مدیریت

مقیاس‌بندی زیرساخت (ETL/ELT، CDC، Data Warehouse)

طراحی پایداری و مانیتورینگ خطوط داده

بهینه‌سازی هزینه و انتخابِ سرویس‌های ابری

📈 افزایش بهره‌وری تیم

الگوهای پروژه و تمپلیت‌های CI/CD برای دیتاپایپ‌لاین

چک‌لیست ۳۰-۶۰-۹۰ روز اول برای آنبوردینگ سریع

چگونه دستورات SQL حرفه ای بنویسیم و بهترین رویه‌های کوئری‌نویسی

🤝 رشد و نگهداشت استعداد

الگوهای مصاحبه و ارزیابی مهارت‌های داده

استراتژی‌های حفظ نیروی کلیدی در مقابل ترک پروژه

🎓 منابع آموزشی برتر

کتاب‌های کلیدی (An Elegant Puzzle, Data Teams Model)

مقالات عمیق در معماری داده، فرهنگ مهندسی و مدیریت فنی

ویدیوهای عملی از مهندسین ارشد گوگل، آمازون و Netflix

🧩 همه چیز دسته‌بندی‌شده بر اساس چالش‌های رایج، نه صرفاً نوع محتوا.

🌍 متن‌باز و مشارکت‌پذیر – می‌توانید منابع خود را هم اضافه کنید!

hashtag#DataEngineering hashtag#DataTeams hashtag#DataLeadership hashtag#ETL hashtag#DataInfra hashtag#TeamManagement hashtag#SeattleDataGuy hashtag#دیتا hashtag#مهندسی_داده hashtag#مدیریت_تیم

GitHub

GitHub - sdg-1/data-team-handbook

Contribute to sdg-1/data-team-handbook development by creating an account on GitHub.

👍2

467 viewsedited 21:20

مهندسی داده

👇👇👇

482 views16:33

مهندسی داده

MCP Server.pdf

16.7 MB

کتابی ساده و روان برای یادگیری مفهوم MCP که امروزه همه جا در مورد آن می شنویم. (در حوزه هوش مصنوعی البته )‌

👍3

517 views16:36

مهندسی داده

شروعی حرفه‌ای برای ورود به دنیای مهندسی داده – رایگان و بین‌المللی🎓

در دنیای امروز، یادگیری مهارت‌های عملی و نزدیک به پروژه‌های واقعی، مهم‌ترین مزیت رقابتی برای ورود به بازار کار حوزه داده است.

اگر شما هم به دنبال فرصتی برای یادگیری ساخت‌یافته، کاربردی، و تحت نظر یک تیم متخصص بین‌المللی هستید، این بوت‌کمپ رایگان مهندسی داده یک فرصت بی‌نظیر است.

👨‍🏫 برگزارکننده: Zach Wilson

مؤسس DataExpert.io و از شناخته‌شده‌ترین چهره‌های حوزه داده با بیش از ۱ میلیون دنبال‌کننده در شبکه‌های اجتماعی.

او به‌واسطه تجربه بالا، سادگی در بیان مفاهیم پیچیده، و طراحی مسیرهای یادگیری عملی، توانسته اعتماد هزاران نفر در سراسر دنیا را جلب کند.

🏫 درباره بوت‌کمپ:

بوت‌کمپ ۶ هفته‌ای "Community Edition" با هدف توانمندسازی علاقه‌مندان به مهندسی داده، به صورت رایگان و با تمرکز بر مهارت‌های کاربردی برگزار می‌شود.

این برنامه آموزشی، ترکیبی از ویدیوهای آموزشی، تمرین‌های هفتگی با ارزیابی خودکار، پروژه‌های واقعی، و در نهایت صدور مدرک پایان دوره است.

🧠 سرفصل‌های آموزشی:

📚 مدل‌سازی داده‌های بعدی و واقعی – طراحی ساختارهای تحلیلی پیشرفته

📚 پردازش داده‌های کلان با سرعت بالا - Apache Spark و PySpark

📚 ساخت پایپ‌لاین‌های بلادرنگ و مدیریت جریان داده - Apache Flink و Kafka

📚 الگوهای تحلیلی و طراحی شاخص‌های کلیدی عملکرد (KPI)

📚 کیفیت داده و مستندسازی حرفه‌ای مانند Airbnb

📚 مصورسازی داده با Tableau و ارائه اثرگذار یافته‌ها

📚نگهداری و بهبود پایپ‌لاین‌های داده‌ای در محیط واقعی

🎯 چرا این بوت‌کمپ ارزشمند است؟

🔹 نگاه عملیاتی و واقعی به مسائل مهندسی داده

🔹 طراحی شده توسط تیمی با تجربه بین‌المللی و پروژه‌های کلان

🔹 یادگیری مبتنی بر سناریوهای واقعی شغلی

🔹 مناسب برای افرادی که به‌دنبال مهاجرت شغلی، ارتقای جایگاه کاری یا ورود به بازارهای جهانی هستند

🔹 امکان تعامل با جامعه جهانی مهندسان داده در Discord

🔹 دریافت مدرک پایان دوره به‌صورت رسمی

📥 مراحل ثبت‌نام:

ثبت‌نام رایگان در سایت: learn.dataexpert.io

دریافت هندبوک و تمرین‌ها: https://github.com/DataExpert-io/data-engineer-handbook

عضویت در کامیونیتی و گروه پشتیبانی در دیسکورد: لینک عضویت

ارسال تمرین‌های هفتگی – برای حفظ نظم و یادگیری تدریجی

📌 تا امروز بیش از ۵۰ هزار نفر از سراسر دنیا ثبت‌نام کرده‌اند

🎯 زک ویلسون پیش‌بینی کرده تنها حدود ۵۰۰ نفر به پایان مسیر و دریافت گواهی می‌رسند

اگر دنبال تعهد، رشد حرفه‌ای و یادگیری واقعی هستی، تو هم یکی از آن‌ها باش.

جزو ۱٪ افراد مصمم باش!

#بوتکمپ_داده #مهندسی_داده #DataEngineering #ApacheSpark #Flink #Kafka #SQL #Python #DataQuality #Tableau #آموزش_کاربردی #مدرک_بین‌المللی #ZackWilson #DataExpert #دوره_رایگان #DataCareer

GitHub

GitHub - DataExpert-io/data-engineer-handbook: This is a repo with links to everything you'd ever want to learn about data engineering

This is a repo with links to everything you'd ever want to learn about data engineering - DataExpert-io/data-engineer-handbook

❤1

610 views08:37

مهندسی داده

👆👆👆

❤2

538 views08:38

مهندسی داده

2:24

This media is not supported in your browser

VIEW IN TELEGRAM

نحوه ثبت نام توی بوت کمپ شش هفته ای مهندسی داده . 👆👆

👍3❤1

459 views12:49

مهندسی داده

عاشقان دیتا لیک‌هوس، این ریپو گنج واقعی مهندسی داده است! 💻

اگر در حوزه دیتا لیک‌هوس فعالیت می‌کنید یا تازه به این دنیای پرهیجان و آینده‌دار مهندسی داده علاقه‌مند شدید، مخزن کد awesome-lakehouse-guide یه منبع بی‌نظیره که نباید از دستش بدید! 🌟

اینجا یه مجموعه کامل و به‌روز برای تسلط بر فرمت‌های جدولی باز (Apache Hudi، Apache Iceberg، Delta Lake) و معماری لیک‌هوس پیدا می‌کنید:

🔍 مقالات تحقیقاتی: از BtrBlocks و Apache Arrow تا AWS Glue و Apache Flink، با تحلیل‌های عمیق درباره بهینه‌سازی ذخیره‌سازی، عملکرد کوئری‌ها و قابلیت‌های ACID.

📝 بلاگ‌های کاربردی: آموزش‌های عملی برای حل چالش‌هایی مثل metadata bloat، بهینه‌سازی با Z-ordering و مدیریت داده‌های نزدیک به real-time.

💻 کد و نوت‌بوک: مثال‌های آماده برای ایجاد جدول‌های Hudi و Iceberg روی Amazon S3، اجرای کلاستریگ و پیاده‌سازی CDC (Change Data Capture).

📣 پست‌های لینکدین: نکات سریع و به‌روز درباره موضوعاتی مثل پردازش برداری و Apache Arrow.

🗂 فعالیت اخیر: به‌روزرسانی‌های دو هفته پیش (تا ۱۵ تیر ۱۴۰۴) شامل README و پست‌های لینکدین، نشون‌دهنده نگهداری فعال این ریپوئه. یه تصویر معماری (lkh_res.png) هم برای درک بهتر لیک‌هوس موجوده!

این ریپو یه نقشه راه کامل برای حرفه‌ای شدن در لیک‌هوسه، چه بخواید تئوری یاد بگیرید، چه دست به کد بشید! 🚀

🔗 مشاهده ریپو : https://github.com/dipankarmazumdar/awesome-lakehouse-guide

#DataEngineering #Lakehouse #BigData #OpenSource #DataLakehouse

GitHub

GitHub - dipankarmazumdar/awesome-lakehouse-guide: Repo for everything open table formats (Iceberg, Hudi, Delta Lake) and the overall…

Repo for everything open table formats (Iceberg, Hudi, Delta Lake) and the overall Lakehouse architecture - dipankarmazumdar/awesome-lakehouse-guide

❤2👍2

512 views16:19

مهندسی داده

‍ نقشه راه Data 3.0 در عصر Lakehouse

خلاصه‌ای از گزارش Bessemer Venture Partners که معماری لیک‌هوس را در دوران مدرن، بسیار آینده‌دار دانسته است. بیایید آنرا با هم مرور کنیم.

📌 https://www.bvp.com/atlas/roadmap-data-3-0-in-the-lakehouse-era

شرکت سرمایه‌گذاری Bessemer Venture Partners (BVP) که سابقه‌ای بیش از یک قرن در حمایت از شرکت‌های نوآور در حوزه‌های ابری، فین‌تک، 🤖 هوش مصنوعی و 🛡 امنیت سایبری دارد، اخیراً گزارشی با عنوان «نقشه راه: Data 3.0 در عصر #Lakehouse» منتشر کرده است. این گزارش با تکیه بر تجربه BVP در سرمایه‌گذاری بر برندهایی مانند Shopify، LinkedIn، Pinterest و Databricks، چشم‌اندازی دقیق از نسل سوم زیرساخت‌های داده ارائه می‌دهد.

🔍 چرا Data 3.0 اهمیت دارد؟

مدیریت داده‌ها طی سه نسل دستخوش تحولات عظیمی شده است:

📦 نسخه اول - Data 1.0 (۱۹۷۰–۲۰۰۰):

✅ تمرکز بر پایگاه‌های داده رابطه‌ای (Oracle، MySQL)

✅ استفاده از انبارهای داده‌ای

❌ محدودیت در مقیاس‌پذیری

❌ ناتوان در پردازش داده‌های غیرساختاریافته

🌊 نسخه دوم - Data 2.0 (از ۲۰۱۰ به بعد):

✅ ظهور Hadoop و Spark برای پردازش داده‌های متنوع و حجیم

✅ انعطاف‌پذیری بیشتر

❌ باتلاق داده‌ای (Data Swamp) به‌دلیل ضعف در کیفیت و حاکمیت

🚀 نسخه سوم - Data 3.0 (از ۲۰۲۰ به بعد):

✅ یکپارچگی

✅ پردازش لحظه‌ای

✅ استفاده از هوش مصنوعی

📌 ابزارهای کلیدی: Lakehouse، Delta Lake، Iceberg، Hudi، خطوط لوله AI-driven

💡 معماری Lakehouse چیست و چرا انقلابی است؟

لیک‌هوس ترکیبی از قدرت Data Warehouse و انعطاف Data Lake است.

ویژگی‌های کلیدی:

📌 پشتیبانی از داده‌های ساختاریافته و غیرساختاریافته

📌 فرمت‌های باز با قابلیت‌های ACID، Time Travel، پردازش لحظه‌ای

📌 کاهش افزونگی داده و وابستگی به Vendorها

این معماری پایه‌ای برای توسعه ابزارهای تحلیلی و برنامه‌های AI در مقیاس بزرگ است.

🔮 چهار روند کلیدی در Data 3.0 به روایت BVP

1️⃣ خطوط لوله هوشمند و لحظه‌ای

🛠 ابزارهای جدید: Prefect، Windmill، dltHub

⚙️ فناوری‌های جریانی: Apache Flink، Kafka

⚡️ پلتفرم‌های بلادرنگ مانند Chalk برای تصمیم‌گیری سریع

2️⃣ متادیتا به‌عنوان منبع حقیقت

🛠 ابزارهایی مانند Datastrato، Acryl Data

💡 بهینه‌سازهایی مثل Flarion.io و Greybeam

3️⃣ تحول در موتورهای محاسباتی:

🛠 موتورهای سبک و سریع: DuckDB، ClickHouse، Daft

🌕 بسترهای Iceberg-native مثل Mooncake و Bauplan و RisingWave

4️⃣ ادغام مهندسی داده و نرم‌افزار:

🧩 ابزارهایی مانند dbt و Gable

🔄 یکپارچه‌سازی با CI/CD، نسخه‌سازی، تست خودکار

💸 فرصت‌های سرمایه‌گذاری و نوآوری

BVP باور دارد که Data 3.0 فرصت بی‌سابقه‌ای برای بنیان‌گذاران ایجاد کرده تا:

🔧 ابزارهای منبع‌باز و ابری جدید بسازند

🚀 موتورهای بهینه‌شده برای AI ارائه دهند

📊 راه‌حل‌های هوشمند برای متادیتا خلق کنند

📌 جمع‌بندی : معماری Lakehouse نماد تحول در مدیریت داده‌هاست:

✔️ عملکرد بالا

✔️ تحلیل لحظه‌ای

✔️ پشتیبانی از AI

✔️ مقیاس‌پذیری بالا

آینده از آن تیم‌هایی است که به جای مدیریت زیرساخت‌های پیچیده، بر خلق ارزش از داده‌ها تمرکز می‌کنند.

🏷 #Data3 #Lakehouse #AI #Metadata #StreamingData #DuckDB #Iceberg #DeltaLake #BVP #DataEngineering #ModernDataStack #RealTimeAnalytics #OpenSource #DataInfra #Startup #DataPlatform #VentureCapital #FutureOfData

👍2

498 views18:05

مهندسی داده

‍ از استانداردسازی تا ساده‌سازی: آینده‌ی Iceberg در مهندسی داده

🔍تحلیلی بر دو تحول مهم: DuckLake و مقاله جدید MinIO

احتمالاً توی یک سال گذشته، بارها چشم‌تون به مقالات، ابزارها، یا گفتگوهایی افتاده که حول‌وحوش موضوعی به اسم #Iceberg می‌چرخن — یه استاندارد باز و ساخت‌یافته برای ذخیره داده‌ها به‌صورت خام، اما با قابلیت‌هایی شبیه پایگاه داده:

📌امکان اجرای کوئری‌های تحلیلی مستقیم روی فایل‌های Parquet

📌پشتیبانی از schema evolution و تراکنش‌های ACID

📌و جداسازی کامل ذخیره‌سازی از موتور پردازش

🧊 به‌جرات میشه گفت که #Iceberg یکی از ترندهای داغ این روزهای مهندسی داده‌ست — از Google BigQuery گرفته تا AWS S3، از Dremio تا Snowflake و پروژه Polaris، همگی در حال پشتیبانی مستقیم یا بومی از Iceberg هستن.

و البته این موضوع فقط جهانی نیست — همین چند هفته پیش، در یکی از جلسات مشاوره‌ که با یکی از شرکت‌های بزرگ فولادی کشور بود، موضوع جلسه بررسی بهترین راه برای طراحی، راه‌اندازی، و مدیریت یک Lakehouse مبتنی بر Iceberg بود. کاری که تیم فنی این شرکت، نسخه اولیه آنرا راه اندازی کرده بود. 🚀

🔄 اما دو اتفاق باعث شد که احساس کنم : آینده‌ی Iceberg بسیار ساده‌تر و سبک‌تر خواهد بود.

🌟 اولی معرفی DuckLake بود - https://ducklake.select.

در دنیایی که پر بود از سرویس‌های کاتالوگ مختلف (Hive Metastore، Glue، Project Nessie، JDBC Metastore و...)، #DuckLake اومد و گفت:

«همه‌ی اینا رو بذارید کنار! من با یه دیتابیس SQL ساده، همه کارهای مدیریت متادیتا و فایل‌های داده رو انجام می‌دم.»

📦 داده‌ها همون Parquet هستن روی object storage، اما متادیتا داخل یه دیتابیس ساده مثل #DuckDB یا #Postgres ذخیره می‌شن. همه چیز از طریق #SQL مدیریت می‌شه. بدون نیاز به سرویس‌های جانبی، بدون پیچیدگی. دقیقاً شبیه #SQLite برای دیتالیک‌ها.

🔥 و استقبال خوبی هم ازش شده. چون ساده‌تر از Iceberg معمولی راه می‌افته و سربار کمتری داره.

🧠 دومین اتفاق، مقاله‌ای بود که همین چند روز پیش از طرف MinIO منتشر شد.
https://blog.min.io/the-case-for-native-iceberg-catalog-apis-and-unified-governance-in-object-storage

این مقاله به یه نقطه‌ضعف مهم در معماری‌های فعلی دیتالیک اشاره می‌کرد:

«متادیتا و دسترسی به فایل‌های واقعی داده، در دو سیستم جداگانه کنترل می‌شن. همین باعث می‌شه امنیت و حاکمیت داده ناقص باقی بمونه.»

یعنی ممکنه کاربر به جدول Iceberg مجوز نداشته باشه، ولی هنوز بتونه مستقیم فایل‌های #Parquet رو از #S3 یا #MinIO بخونه! 😬

استوریج MinIO پیشنهاد داده که APIهای Iceberg Catalog به‌صورت بومی در خود پلتفرم ذخیره‌سازی تعبیه بشن، طوری که هم متادیتا و هم دسترسی به فایل‌ها، از یک‌جا و با یک مدل امنیتی مدیریت بشن. این یعنی سادگی بیشتر، امنیت بهتر، و مدیریت یکپارچه‌تر.

🔮 پیش‌بینی من؟
ما داریم به سمتی می‌ریم که: Iceberg دیگه یه «ابزار حرفه‌ای مخصوص متخصص‌ها» نیست — بلکه تبدیل می‌شه به یک استاندارد ساده، امن، و در دسترس برای همه تیم‌های داده

🌊 به‌زودی، ساخت یک دریاچه‌داده قدرتمند، به اندازه راه‌اندازی یک دیتابیس ساده خواهد بود. و Iceberg ستون اصلی این تحول باقی می‌مونه.

#ApacheIceberg #DuckLake #MinIO #DataLakehouse #MetadataGovernance #ObjectStorage #OpenTableFormats #SQL #دیتالیک #مهندسی_داده #Parquet #BigData

DuckLake

DuckLake is an integrated data lake and catalog format

DuckLake delivers advanced data lake features without traditional lakehouse complexity by using Parquet files and your SQL database. It's an open, standalone format from the DuckDB team.

👍3👌2

388 viewsedited 18:09

مهندسی داده

چطور تسلا با ClickHouse یک پلتفرم مشاهده‌پذیری در مقیاس نجومی ساخت؟

مشاهده‌پذیری در مقیاس کوادریلیون (هزار بیلیارد) با ClickHouse و پروژه‌ای به نام Comet

داستان تغییر زیرساخت observability تسلا از کجا شروع شد ؟

🔧 چند میلیون خودرو متصل، هزاران زیرسیستم توزیع‌شده، و گیگافکتوری‌هایی که شبانه‌روز داده می‌فرستند. تسلا در چنین مقیاسی نمی‌توانست روی Prometheus حساب باز کند...

👨‍💻 مهندس ارشد تسلا Alon Tal، می‌گوید:

«ما به سیستمی نیاز داشتیم که بتونه ده‌ها میلیون ردیف در ثانیه را ingest کنه، سال‌ها داده رو نگه داره، و همچنان real-time پاسخ بده.»

چرا Prometheus کافی نبود؟

🔸 مقیاس‌پذیری افقی محدود

🔸 وابستگی به یک سرور واحد (ریسک از دست دادن کل متریک‌ها)

🔸 مشکلات نگهداری بلندمدت و زبان کوئری محدود

✅ راه‌حل: ساخت یک سیستم جدید به نام Comet

💡 با استفاده از ClickHouse به عنوان هسته‌ی اصلی، تسلا یک پلتفرم metrics محور ساخت که:

📥 داده‌ها را از طریق OTLP و Kafka ingest می‌کند

⚙️ با ETLهای سفارشی داده‌ها را به شکل ساخت‌یافته وارد ClickHouse می‌کند

🔄 و مهم‌تر از همه:

کوئری‌های PromQL را به SQL معادل در ClickHouse ترجمه می‌کند بدون اینکه مهندسان متوجه تفاوت شوند!

🧠 یعنی داشبوردهای موجود (Grafana، Alertmanager، و...) بدون تغییر کار می‌کنند!

💥 مقیاس واقعی؟

یک میلیارد ردیف در ثانیه! به مدت ۱۱ روز پیاپی!

نتیجه؟

🔹 بدون یک خطا

🔹 مصرف ثابت RAM و CPU

🔹 بیش از ۱ کوادریلیون رکورد با موفقیت ingest شده!

📊 سیستم هنوز هم در حال scale شدن برای تیم‌های داخلی تسلاست!

✨ چرا ClickHouse؟

🔹 سرعت بی‌رقیب در پاسخ به کوئری‌های پیچیده

🔹 UDFهای اجرایی برای کوئری‌های غیر trivial

🔹 پشتیبانی از PromQL و TraceQL

🔹 نگهداری بلندمدت داده‌ها با حجم بالا

🔹 و مهم‌تر از همه: قابلیت اطمینان بالا در مقیاس تسلا!

🔭 آینده‌ی Comet؟

🔧 پشتیبانی از distributed tracing

🌍 احتمال open-source شدن

🎯 گسترش به دیگر واحدهای عملیاتی در تسلا

📎 جمع‌بندی

تسلا با پروژه‌ی Comet ثابت کرد که observability در مقیاس سیاره‌ای ممکن است—اگر ابزار مناسب انتخاب شود!

✅ حالا واقعا پرومتئوس حذف شد؟

تسلا Prometheus رو به‌طور مستقیم حذف نکرد، ولی:

🌟دیگه از خود Prometheus برای ذخیره‌سازی و کوئری استفاده نمی‌کنه.

🌟 به‌جاش، پلتفرمی به نام Comet ساخت که خودش می‌تونه PromQL (زبان کوئری Prometheus) رو اجرا کنه و پشت صحنه با کلیک‌هوس ارتباط بگیره و خروجی بده بدون اینکه واقعاً Prometheus وجود داشته باشه!

🔗 منبع اصلی:

https://clickhouse.com/blog/how-tesla-built-quadrillion-scale-observability-platform-on-clickhouse

#ClickHouse #Observability #Tesla #PromQL #DataEngineering #Scalability #TimeSeries #Kafka #DevOps #OpenTelemetry #Infrastructure

ClickHouse

How Tesla built a quadrillion-scale observability platform on ClickHouse

“Data in ClickHouse is better than data anywhere else. No other system lets you slice and dice your data, ask interesting questions, and get answers in an acceptable amount of time. There’s nothing out there that competes with ClickHouse.” Alon Tal, Senio

👍4❤1

484 views06:20

مهندسی داده

چطور تسلا با ClickHouse یک پلتفرم مشاهده‌پذیری در مقیاس نجومی ساخت؟ مشاهده‌پذیری در مقیاس کوادریلیون (هزار بیلیارد) با ClickHouse و پروژه‌ای به نام Comet داستان تغییر زیرساخت observability تسلا از کجا شروع شد ؟ 🔧 چند میلیون خودرو متصل، هزاران زیرسیستم…

https://www.youtube.com/embed/z5t3b3EAc84?si=yycyL6UBUQ-ztMLA

YouTube

Tesla-Scale Metrics with ClickHouse

Alon Tal, Senior Staff Software Engineer at Tesla, talks about Comet, Tesla's internal system built with ClickHouse for ingesting, storing and querying metrics at massive scale.

Session recording from Open House, the ClickHouse user conference.
https://…

👍3

461 views08:08

مهندسی داده

هوش_تجاری_به_کمک_SQlServer_جزوه_آموزشی.pdf

4.9 MB

جزوه آموزشی هوش تجاری در SQL Server - دکتر حداد

👍1🔥1

481 views18:04

مهندسی داده

👆👆👆

🔥1

452 views18:04

مهندسی داده

‍ داستان Apache Gluten: بازنویسی سرعت در دنیای کلان‌داده

اگر از اسپارک و بخصوص Spark SQL در حجم کلان استفاده می‌کنید، گلوتن یک هدیه به شماست!

بنیاد Apache، به‌عنوان یکی از پیشگامان توسعه پروژه‌های متن‌باز در دنیای مهندسی داده، در سال‌های اخیر پروژه‌های متعددی را به اکوسیستم خود اضافه کرده است. این پروژه‌ها اغلب با هدف بهبود عملکرد، ارتقاء مقیاس‌پذیری، و ساده‌سازی زیرساخت‌های موجود طراحی می‌شوند.

🔍 در مجموعه‌ای از پست‌ها قصد دارم به معرفی این پروژه‌ها بپردازم و بررسی کنم که هر کدام چگونه به حل مسائل رایج دنیای داده کمک می‌کنند.
برای شروع، سراغ یکی از پروژه‌های جذاب این اکوسیستم می‌رویم: Apache Gluten.

💡 چرا Apache Gluten مهم است؟

درست است که امروز ابزارهای گوناگونی برای پردازش داده‌ها در دسترس داریم، اما واقعیت این است که نمی‌توان به‌راحتی زیرساخت‌هایی را که سال‌ها در سازمان‌ها پیاده‌سازی، بهینه‌سازی و توسعه داده شده‌اند، کنار گذاشت. به‌ویژه Apache Spark، که در طول بیش از یک دهه به یکی از ستون‌های اصلی تحلیل داده در شرکت‌های بزرگ تبدیل شده است، همچنان بخش مهمی از معماری داده بسیاری از سازمان‌ها را تشکیل می‌دهد. اما Spark نیز محدودیت‌هایی دارد؛ از جمله سربارهای JVM و مصرف بالای حافظه و پردازنده.

اینجاست که پروژه‌هایی مانند Apache Gluten شکل می‌گیرند: پروژه‌هایی که به‌جای جایگزینی، به بهینه‌سازی و بازنویسی موتورهای موجود برای بهره‌وری بالاتر کمک می‌کنند.

⚙️ آپاچی Gluten دقیقاً چه می‌کند؟
آپاچی Gluten یک پلاگین شفاف برای Apache Spark است که هدف آن افزایش سرعت و کاهش مصرف منابع در اجرای کوئری‌های SQL است — بدون اینکه نیاز به تغییر در کوئری‌های فعلی یا اپلیکیشن‌ها باشد.

گلوتن این کار را با انتقال اجرای کوئری‌ها از JVM به موتورهای native مانند Velox (توسعه‌یافته توسط Meta) و ClickHouse انجام می‌دهد.

🚀 چگونه Gluten این شتاب را ایجاد می‌کند؟
🔧 گلوتن Pipeline اجرای Spark را بازنویسی می‌کند:

🛠 تبدیل Query Plan به فرمت Substrait

⚙️ اجرای native از طریق JNI

🌱 مصرف حافظه کمتر (تا ۱۰٪ کمتر نسبت به Spark استاندارد)

🔄 استفاده از Columnar Shuffle برای بهبود سرعت انتقال داده

🛡 بازگشت هوشمند به JVM در صورت عدم پشتیبانی Native

📊 نتایج عملکرد

طبق بنچمارک‌های رسمی:

✅ تا ۳.۳ برابر افزایش سرعت در TPC-H

✅ تا ۲ برابر بهبود در TPC-DS

✅ کاهش محسوس در مصرف CPU و RAM

✅ حفظ کامل مانیتورینگ در UI اسپارک

🔌 موتورهایی که توسط Gluten پشتیبانی می‌شوند:
- موتور پردازشی Velox: کتابخانه C++ برای پردازش برداری، با عملکرد بسیار بالا

- کلیک هوس : دیتابیس columnar سریع با پشتیبانی خوب از queryهای تحلیلی

🚀 پشتیبانی در حال توسعه از GPU و FPGA برای پردازش‌های خاص

🌍 چه شرکت‌هایی از آن استفاده می‌کنند؟
آپاچی Gluten به‌سرعت در حال پذیرش توسط شرکت‌های بزرگی است:

علی‌بابا Cloud: پردازش داده در زیرساخت‌های ابری

مایکروسافت Fabric: پلتفرم یکپارچه داده

شرکت IBM: بهینه‌سازی مبتنی بر Velox

و غول‌هایی مانند Google، Baidu، Meituan و NetEase در تحلیل‌های real-time

🌟 مزایای کلیدی برای تیم‌های مهندسی داده
⚡️ عملکرد بالا: تا ۳.۳ برابر سریع‌تر

💾 کاهش مصرف منابع: حافظه و پردازنده

📊 سازگاری کامل با UI اسپارک

🌐 پشتیبانی از شتاب‌دهنده‌های سخت‌افزاری (GPU/FPGA)

🧩 بدون نیاز به بازنویسی کدهای SQL موجود

🔜 برنامه توسعه تا ۲۰۲۵ شامل:

پشتیبانی از معماری ARM

پشتیبانی از Apache Flink

آمادگی برای Apache Spark 4.0

👍4

449 viewsedited 20:33

مهندسی داده

‍ آپاچی کافکا، ستون فقرات معماری‌های داده‌محور... اما نه همیشه!

برای بسیاری از ما، آپاچی کافکا #Kafka نماد مقیاس‌پذیری، پایداری و قدرت در طراحی معماری‌های real-time و event-driven است.

اما اگر نیاز ما صرفاً یک ورود ساده‌ی داده (ingestion) بدون نیاز به بازپخش (replay) یا چند مصرف‌کننده مستقل (consumer) باشد، آیا باز هم کافکا انتخاب درستی است؟

🧵 در یک مقاله دقیق از تیم ThreadSafe Diaries، همین سؤال مطرح شده و آن‌ها تلاش کردند برای بخشی از سیستم خود، راه‌حلی ساده‌تر و کارآمدتر پیدا کنند. این پست، چکیده‌ای از تجربه‌ی آن‌هاست:

🔗 لینک مقاله کامل

📉 چالش‌ها و مشکلات معماری مبتنی بر آپاچی کافکا:

🔸 استفاده از کافکا + ZooKeeper با خوشه‌ای ۳ نودی برای ingest داده‌های تحلیلی

🔸 تنها با ۱۸هزار رویداد در ثانیه، سیستم دچار مشکلات زیر شد:

⚠️ تأخیرهای مداوم در مصرف‌کننده‌ها (Consumer Lag)

⚠️ اختلالات در offset و هماهنگی (Coordination)

⚠️ فشار زیاد روی دیسک و هزینه بالای زیرساخت (EC2 + EBS)

⚠️ نیاز مداوم به پشتیبانی عملیاتی و تیم DevOps

در نهایت تیم متوجه شد که بسیاری از قابلیت‌های کافکا (مثل replayability، چند مصرف‌کننده، یا تحمل‌پذیری بالا) اصلاً در این سناریو مورد نیاز نبود.

✅ راه‌حل ساده‌تر و مؤثرتر چه بود؟

🔹 استفاده از ترکیب Redis Streams و یک مجموعه Go workerهای بدون‌حالت (stateless)

معماری پیشنهادی به شکل زیر پیاده‌سازی شد:

📨 ارسال دسته‌ای رویدادها از سمت فرانت‌اند (هر ۳ تا ۵ ثانیه)

🧩 یک API سبک برای دریافت و ذخیره در Redis Streams

⚙️ مجموعه‌ای از Go workerها که داده‌ها را از stream خوانده و به Postgres، S3 یا سرویس‌های ML می‌فرستند

📊 دستاوردهای معماری جدید با Redis Streams:

- افزایش نرخ پردازش: از ۱۸هزار به ۴۲هزار رویداد در ثانیه (۲.۳×)

- کاهش تأخیر: از ۲۵ms به ۳.۲ms (۷.۸× سریع‌تر)

- صرفه‌جویی در هزینه: از ۳,۲۰۰ دلار به ۱,۰۵۰ دلار در ماه (۶۷٪ کاهش)

- کاهش هشدارهای عملیاتی: از ۴–۵ بار در ماه به صفر تماس اضطراری

💡 آیا این یعنی آپاچی کافکا دیگر مفید نیست؟ قطعاً نه!

کافکا همچنان در معماری‌هایی که به قابلیت بازپخش، fan-out، تحمل خطا، یا مصرف‌کننده‌های موازی نیاز دارند، ابزاری بی‌رقیب است.

اما وقتی نیازها ساده‌ترند، این ابزار سنگین تبدیل به سربار می‌شود:

🔸 پیچیدگی عملیاتی، هزینه و زمان توسعه و نگهداری بیشتر

📚 درس‌هایی که تیم آموخت:

🔹 تا زمانی که واقعاً به ویژگی‌هایی مانند دوام بالا، بازپخش رویدادها و چند مصرف‌کننده همزمان نیاز ندارید، سراغ آپاچی کافکا نروید.

🔹 طراحی باید بر اساس جریان داده انجام شود، نه با فرض اینکه ابزار خاصی الزاماً باید در معماری وجود داشته باشد. در این پروژه، نیاز فقط دریافت، پردازش و ارسال ساده رویدادها بود.

🔹 بنچمارک واقعی همیشه بهتر از فرضیات است؛ Redis در تست‌های عملی، عملکرد بهتری از کافکا داشت — نه صرفاً روی کاغذ یا در مستندات.

🔹 هزینه زیرساخت بخشی از معماری است؛ قدرت کافکا "رایگان" نیست و در قالب منابع محاسباتی، عملیات پشتیبانی و زمان توسعه‌دهندگان خود را نشان می‌دهد.

🔹 پیچیدگی مهاجرت و نگهداری مهم است؛ گاهی فقط نیاز به ارتقاء (مثل مهاجرت از ZooKeeper به KRaft) می‌تواند دلیلی کافی برای بازطراحی معماری باشد.

✅ نتیجه‌گیری:

انتخاب ابزار مناسب، بیش از آنکه به «قدرت» آن مربوط باشد، به تناسبش با نیاز واقعی سیستم شما بستگی دارد. سادگی، وقتی به‌درستی انتخاب شود، می‌تواند بهترین ابزار مهندسی باشد.

👍7❤2

420 views20:37

مهندسی داده

‍ نگاهی به OpenFGA؛ سیستم مجوزدهی گراف‌محور الهام‌گرفته از Google Zanzibar

در یکی از پروژه‌های اخیر مشاوره، در حال راه‌اندازی و تست زیرساخت یک Lakehouse با استفاده از LakeKeeper بودم — یک کاتالوگ سرور سبک برای Iceberg.

برای احراز هویت و کنترل دسترسی، این سیستم از ترکیب Keycloak و OpenFGA استفاده می‌کند.

کتابخانه #Keycloak را قبلاً می‌شناختم، اما #OpenFGA برایم جدید بود و کنجکاوم کرد. این پست خلاصه‌ای از بررسی اولیه‌ام درباره‌ی این ابزار مدرن مجوزدهی است.

🧠 نقطه‌ی آغاز: Google Zanzibar

در سال ۲۰۱۹، گوگل مقاله‌ای منتشر کرد با عنوان:

“Zanzibar: Google’s Consistent, Global Authorization System”

این مقاله مدل جدیدی برای مدیریت مجوزهای دسترسی در سیستم‌های بزرگ معرفی کرد؛ مدلی که بر پایه‌ی روابط گرافی میان کاربران، گروه‌ها و منابع طراحی شده بود. این مدل، به نام #ReBAC (Relationship-Based Access Control) شناخته می‌شود.

کتابخانه OpenFGA یکی از معروف‌ترین پیاده‌سازی‌های متن‌باز بر اساس این مدل است.

🔄 مدل ReBAC در برابر RBAC و ABAC

در سیستم‌های سنتی، ما با دو مدل رایج کار می‌کردیم:

مدل #RBAC می‌پرسد: «چه کسی هستید؟» (مثلاً: مدیر / کاربر)

مدل #ABAC می‌پرسد: «چه ویژگی‌هایی - Attribute -دارید؟» (مثلاً: دپارتمان = منابع انسانی)

اما در دنیای واقعی، سناریوهای پیچیده‌تری وجود دارد:

«کاربری می‌تواند گزارش پروژه را ببیند، اگر عضو تیم فنی باشد، پروژه به او تخصیص داده شده باشد، و حساب او تعلیق نشده باشد.»

در این‌جا مدل ReBAC وارد می‌شود:

"چه رابطه‌ای با منبع دارید؟"

🔄کتابخانه OpenFGA چیست؟

پروژه OpenFGA یکی از پیاده‌سازی‌های متن‌باز، سریع و قابل‌اتکای مدل #ReBAC است که با زبان #Go توسعه یافته است.

این ابزار که توسط تیم Auth0 و Okta توسعه یافته، به شما امکان می‌دهد:

- دسترسی‌ها را در قالب گرافی از روابط بین کاربران، گروه‌ها و منابع مدل کنید

- منطق مجوزدهی را از کد جدا نگه دارید و از طریق API فراخوانی کنید

- با ابزارهای احراز هویت مانند Keycloak یا OIDC ادغام کنید

- شرط‌های پیچیده را اعمال کنید (مثلاً: دسترسی فقط اگر حساب کاربر فعال باشد)

✅ چه پروژه‌ها و شرکت‌هایی از این مدل استفاده می‌کنند؟

- نتفلیکس از پروژه‌ی مشابهی به نام SpiceDB (محصول AuthZed) استفاده کرده و آن را توسعه داده تا ویژگی‌های ABAC را نیز پشتیبانی کند.

- شرکت Airbnb سیستم داخلی خود به نام Himeji را بر پایه همین ایده ساخته است.

- پروژه OpenObserve یک کتابخانه مدیریت observability است که OpenFGA را مستقیماً به‌کار گرفته.

- پروژه Backstage (Spotify) امکان اتصال به OpenFGA از طریق پلاگین‌های متن‌باز را دارد.

- و ...

🔄 آیا فقط OpenFGA؟ نه الزاماً!

مقاله Google Zanzibar الهام‌بخش چندین پروژه متن‌باز دیگر نیز شده است که می‌توانید به‌جای OpenFGA از آن‌ها استفاده کنید.

مثلاً: Permify یک سیستم متن‌باز برای مجوزدهی ریزدانه (Fine-Grained Authorization) که کاملاً از مدل #Zanzibar پیروی می‌کند.

همچنین می‌توان به Ory Keto و SpiceDB نیز اشاره کرد که در زمینه مشابه فعال‌اند.

📌 جمع‌بندی

اگر در حال طراحی یک زیرساخت داده‌محور، داشبورد چندمستأجری، پلتفرم SaaS یا سامانه‌ی مشارکتی هستید، و مدل #RBAC دیگر جواب نیازهایتان را نمی‌دهد، حتماً نگاهی به #OpenFGA و سایر پروژه‌های مبتنی بر #ReBAC داشته باشید: به عنوان یک روش قابل اطمینان برای مدیریت دسترسی در مقیاس بالا و مناسب کاربردهای پیچیده مجوزدهی.

👍3

478 views18:23

مهندسی داده

‍ الگوی Outbox و داستان یک راهکار هوشمندانه در پستگرس

اخیراً مقاله‌ای از صادق دوستی در Dev.to خواندم که نشان داد با تجربه و تسلط، می‌توان برای چالش‌های بزرگ، راه‌حل‌هایی هوشمندانه و ساده پیدا کرد. یعنی در دنیای فنی، گاهی غرق پیچیدگی‌ها می‌شویم و راه‌حل‌های ساده اما عمیق را نادیده می‌گیریم. این پست ادای دینی است به صادق عزیز Sadeq Dousti و مقالات ارزشمندش، و مروری بر مشکل پیاده‌سازی الگوی Outbox با PostgreSQL در حجم بالای داده و راه‌حلی خلاقانه برای آن.

https://dev.to/msdousti/postgresql-outbox-pattern-revamped-part-1-3lai/

🎯 الگوی Outbox چیست؟

در یک فروشگاه آنلاین، ثبت سفارش باید چند کار را انجام دهد:

✅ذخیره در پایگاه داده

✅ارسال ایمیل تأیید

✅به‌روزرسانی موجودی

✅اطلاع به واحد ارسال

این اکشن‌ها به بروکرهایی مثل Kafka ارسال می‌شوند تا هر واحد کار خود را انجام دهد.

❓ اگر ارسال پیام به بروکر با خطا مواجه شود؟

Outbox وارد می‌شود! سفارش در پایگاه داده ذخیره شده و یک پیام در جدول Outbox ثبت می‌شود. یک سرویس جداگانه پیام‌ها را خوانده و به بروکر می‌فرستد. در صورت خطا، پیام در جدول باقی می‌ماند تا دوباره برای پردازش ارسال شود اما ...

🔍 چالش: حجم بالای داده‌ها

با افزایش پیام‌ها در Outbox:

⚠️کوئری‌های خواندن پیام‌های منتشرنشده کند می‌شوند.

⚠️ایندکس‌ها به دلیل آپدیت‌های مکرر غیربهینه می‌شوند.

⚠️مصرف منابع سیستم افزایش می‌یابد.

💡 راه‌حل: پارتیشن‌بندی هوشمند

صادق دوستی پیشنهاد می‌کند جدول Outbox را به دو پارتیشن تقسیم کنیم:

outbox_unpublished: پیام‌های منتشرنشده (published_at IS NULL)

outbox_published: پیام‌های منتشرشده (published_at NOT NULL)

با این کار، پیام‌های جدید به outbox_unpublished می‌روند و پس از انتشار، به‌صورت خودکار به outbox_published منتقل می‌شوند. بنابراین کوئری‌ها فقط روی پارتیشن سبک‌تر اجرا می‌شوند.

🎉 مزایا:

✅سرعت بالا: کوئری‌ها روی پارتیشن کوچک‌تر اجرا می‌شوند.

✅مدیریت آسان: حذف پیام‌های قدیمی با TRUNCATE سریع است.

✅بهینه‌سازی منابع: ایندکس‌ها کوچک و کارآمد می‌مانند.

🏁 جمع‌بندی

الگوی Outbox برای هماهنگی سیستم‌های توزیع‌شده عالی است، اما پیاده‌سازی نادرست آن مشکل‌ساز می‌شود. پارتیشن‌بندی هوشمند صادق دوستی این الگو را بهینه‌تر و سریع‌تر می‌کند.

🔗 برای جزئیات بیشتر، حتا مقاله صادق در Dev.to را بخوانید!

#outbox #postgres #performance #database #dataengineering

#مهندسی_داده

👍1

403 views21:06

مهندسی داده

‍ بررسی تغییرات پایگاه‌های داده در نظرسنجی Stack Overflow 2025📊

نظرسنجی سالانه Stack Overflow برای سال 2025 منتشر شده و یافته‌های قابل‌توجهی را در خصوص روند استفاده از پایگاه‌های داده در میان توسعه‌دهندگان حرفه‌ای ارائه می‌دهد.

آدرس نظر سنجی :

Technology | 2025 Stack Overflow Developer Survey

در این پست نگاهی خواهیم داشت به وضعیت پستگرس‌کیوال (PostgreSQL)، رشدهای چشمگیر و همچنین کاهش‌ها و غیبت‌های معنادار. 🚀

🏆 پستگرس PostgreSQL: ادامه‌ سلطه با رشد پایدار

پستگرس با ثبت رشد ۱۰٪ نسبت به سال گذشته و رسیدن به نرخ استفاده ۵۵.۶٪، جایگاه نخست خود را در میان پایگاه‌های داده محبوب حفظ کرده است. از سال ۲۰۲۳، این پایگاه داده به‌عنوان "مطلوب‌ترین" (۴۶.۵٪) و "تحسین‌شده‌ترین" (۶۵.۵٪) گزینه نزد توسعه‌دهندگان شناخته می‌شود. 😍

🔍 دلایل اصلی محبوبیت PostgreSQL:

✅انعطاف‌پذیری بالا: پشتیبانی از داده‌های رابطه‌ای و غیررابطه‌ای مانند JSON.

✅جامعه متن‌باز قدرتمند: توسعه مداوم و اسناد جامع.

✅عملکرد مناسب برای سناریوهای پیچیده: پاسخ‌گویی به بارهای کاری سنگین و ساختارهای داده پیشرفته.

📈 پایگاه‌های داده با رشد چشمگیر

🎯 ردیس: با رشد ۱۰٪ به ۲۸٪ رسید و با عبور از MongoDB به رتبه پنجم صعود کرد. ⚡️ همچنین Valkey نیز با ۲.۵٪ ورود قابل‌توجهی به صحنه داشت.

🎯 الستیک سرچ: با افزایش ۵٪، به نرخ استفاده ۱۶.۷٪ رسید؛ رشدی معنادار برای این موتور جستجوی داده.

🎯 دیتابیس DuckDB: با دو برابر شدن سهم خود به ۳.۲٪، توجه‌ها را به سمت خود جلب کرده است.

🎯 خدمات ابری Supabase: از ۴.۱٪ به ۶٪ رسید و برای نخستین‌بار وارد جمع ۱۲ پایگاه داده برتر شد. 🎉

این رشد نشان‌دهنده‌ی پذیرش سریع این گزینه‌ی نوظهور به‌عنوان یک راهکار جایگزین و سبک برای پروژه‌های مدرن است.

📉 پایگاه‌های داده با کاهش استفاده

⚠️ مای اسکیوال MySQL: با کاهش جزئی به ۴۰.۵٪، روندی آهسته اما قابل مشاهده را تجربه کرده است.

⚠️مانگودی بی MongoDB: با رسیدن به ۲۴٪، افتی کمتر از پیش‌بینی‌ها داشته، اما جایگاه خود را در رقابت از دست داده است.

❌ غایب بزرگ

کلیک هوس: غیبت کامل این پایگاه داده تحلیلی از لیست نهایی، جای تعجب دارد. آیا این نتیجه‌ خطایی در داده‌هاست یا نشانه‌ای از کاهش استفاده که بعید به نظر می رسد؟ 🤔

🌟 تمایل توسعه‌دهندگان به یادگیری PostgreSQL

یکی از نکات جالب این گزارش، تمایل بالای کاربران Redis و MongoDB به یادگیری PostgreSQL است. این روند نشان می‌دهد مهارت در پایگاه‌های داده رابطه‌ای همچنان یکی از مزیت‌های کلیدی در مسیر حرفه‌ای توسعه‌دهندگان است. 📈

💡 چرا این موضوع تمایل به استفاده از پستگرس اهمیت دارد؟

انتخاب پایگاه داده مناسب، مستقیماً بر عملکرد، مقیاس‌پذیری و آینده‌پژوهی پروژه‌ها تأثیر می‌گذارد. PostgreSQL با ترکیبی از عملکرد قدرتمند، انعطاف‌پذیری بالا و جامعه پشتیبان گسترده، همچنان انتخاب نخست بسیاری از تیم‌های توسعه است.

#StackOverflow2025 #PostgreSQL #Database #توسعه_نرم‌افزار #فناوری #دیتابیس #تحلیل_داده

👍2

325 viewsedited 09:01

About

Blog

Apps

Platform