مهندسی داده
878 subscribers
113 photos
8 videos
25 files
340 links
BigData.ir کانال رسمی وب سایت
مطالبی راجع به مهندسی داده و طراحی زیرساخت‌های پردازش دیتا و ابزارهای مدرن دیتا
ارتباط با ادمین: @smbanaei
گروه تخصصی مهندسی داده 👇
https://t.iss.one/bigdata_ir_discussions2
کانال یوتیوب 👇
https://www.youtube.com/@irbigdata
Download Telegram
Forwarded from عکس نگار
تحولی بزرگ در Apache Airflow: نسخه ۳ در راه است! 🚀

بعد از سال‌ها تجربه با نسخه‌های ۱ و ۲، حالا نسخه ۳ با بازطراحی گسترده و حل چالش‌های قدیمی در دسترس توسعه‌دهندگان قرار گرفته — فعلاً به‌صورت نسخه‌ کاندید انتشار (Release Candidate).
در ادامه نگاهی داریم به مهم‌ترین تغییرات:


🔁 نسخه‌بندی DAGها و تاریخچه اجراها

در گذشته بررسی تغییرات در DAGها کاری زمان‌بر و دشوار بود.

حالا در نسخه ۳، تاریخچه‌ی کامل DAGها از طریق UI (در Grid و Graph View) در دسترس است — حتی حذف یا اضافه شدن Taskها بین نسخه‌ها قابل ردیابی شده است.


🧠 Backfill هوشمند و یکپارچه

Backfillها قبلاً مشکلاتی در عملکرد و مقیاس‌پذیری داشتند.

اکنون توسط Scheduler مدیریت می‌شوند و از طریق UI هم قابل اجرا هستند. مناسب برای ML و ETL.


🌐 اجرای وظایف در هر زبان و محیطی

تا قبل از این، فقط Python در دسترس بود.

با Task Execution API، Airflow به معماری Client/Server رسیده.

می‌توانید Taskها را از Python، Go (و بزودی زبان‌های دیگر) اجرا کنید — حتی در Edge یا Multi-cloud.


📩 زمان‌بندی بر اساس رویدادها (Event-Driven Scheduling)

در نسخه‌های قبلی، اجرای DAGها تنها براساس زمان یا وابستگی‌های داخلی ممکن بود.

حالا Airflow 3 با معرفی مفهوم «دارایی‌های داده‌ای» (Data Assets) و «ناظران» (Watchers) امکان اجرای DAG بر اساس رویدادهای خارجی را فراهم کرده است.

به‌صورت پیش‌فرض، اتصال به AWS SQS فراهم شده است — مثلاً با رسیدن یک پیام به SQS، یک DAG می‌تواند اجرا شود.

اما نکته مهم‌تر:

🔄 این ساختار ماژولار است و می‌توانید Apache Kafka یا سایر سیستم‌های پیام‌رسان را نیز جایگزین کنید. کافی است یک Watcher مخصوص Kafka بنویسید که روی Topic مشخصی گوش دهد و پیام‌های جدید را به Airflow منتقل کند.
این امکان، Airflow را برای سناریوهای real-time در مقیاس بالا، بسیار انعطاف‌پذیر می‌کند.



🤖 اجرای بلادرنگ برای هوش مصنوعی

تاکنون وابستگی به execution_date مانع اجرای DAGهای Realtime بود.

اکنون می‌توانید DAGهایی بدون وابستگی زمانی اجرا کنید — عالی برای Inference و API-based Workflows.


🖥 رابط کاربری کاملاً جدید

UI قدیمی سنگین و محدود بود.

Airflow 3 با React و FastAPI بازنویسی شده. سریع، سبک و قابل توسعه.

همچنین Flask AppBuilder از Core جدا شده و به یک پکیج مستقل تبدیل شده.


🔐 ایزولاسیون وظایف و امنیت بالا

اجرای Taskها در یک محیط مشترک مشکل‌ساز بود.

حالا هر Task می‌تواند به‌صورت ایزوله اجرا شود. CLI هم با airflowctl برای دسترسی از راه دور مجهز شده.

🗳 این نسخه فعلاً در مرحله آزمایشی و بررسی جامعه توسعه‌دهندگان است. اگر تجربه Airflow دارید، فرصت خوبیه برای تست و ارسال بازخورد قبل از انتشار نهایی.

#مهندسی_داده #ApacheAirflow3 #DataEngineering #MLOps #Kafka #EventDriven #DataOps #Automation 🚀

منبع : https://www.linkedin.com/pulse/apache-airflow-3-release-candidate-apr-4-2025-vikram-koka-3lhmc/
👍3
خرید Confluent توسط IBM؛ نقطه عطفی برای آینده #Kafka و مهندسی داده

در پایان سال ۲۰۲۵، #IBM با خرید #Confluent، شرکت اصلی توسعه‌دهنده #Kafka و خدمات تجاری مرتبط با آن، عملاً مهم‌ترین بازیگر دنیای data streaming را وارد استراتژی کلان خود در #AI و Hybrid Cloud کرد. این اتفاق صرفاً یک معامله تجاری نیست؛ بلکه نقطهٔ عطفی در مسیر تحول Kafka و معماری داده‌های جریانی است و نشانه‌ای روشن از تغییر گرایش‌ها در زیرساخت‌های داده محسوب می‌شود.

⚡️ اما دقیقاً چه چیزی در راه است؟

شرکتIBM سابقه‌ای طولانی در حوزه هوش مصنوعی دارد؛ از Watson در دهه ۲۰۱۰ تا پلتفرم‌های جدید GenAI. با این حال، در نسل جدید هوش مصنوعی، دیگر تنها مدل‌ها تعیین‌کننده نیستند؛ داده زنده، پیوسته و real-time نقش کلیدی را بازی می‌کند. این دقیقاً همان جایی است که Confluent ارزش خود را نشان می‌دهد.


🔍 کانفلوئنت چه چیزی برای IBM به همراه دارد؟

کانفلوئنت طی سال‌ها Kafka را از یک ابزار خام به یک پلتفرم Enterprise-ready تبدیل کرده است؛ با تمرکز بر سادگی عملیات، امنیت، مانیتورینگ، rebalancing هوشمند و Tiered Storage. علاوه بر این، تنوع مدل‌های استقرار (On-prem، Hybrid و Cloud) برای IBM که مشتریانش عمدتاً سازمان‌های بزرگ هستند، یک مزیت کلیدی محسوب می‌شود. اکوسیستم غنی Kafka Connectors نیز امکان اتصال ساده به دیتابیس‌ها، SaaSها و سیستم‌های سازمانی را فراهم می‌کند.

چرا این خرید برای اکوسیستم Kafka یک نقطه عطف است؟

کافکا که تا امروز ستون فقرات معماری‌های real-time بود، با ورود IBM وارد لایه هوش مصنوعی می‌شود. نقش آن از یک ابزار استریمینگ و ETL لحظه‌ای فراتر می‌رود و به بستر تأمین داده و context زنده برای LLMها و Agentها تبدیل می‌شود.

شرکت IBM قصد دارد Watsonx را از یک AI مبتنی بر داده‌های batch به یک سیستم #EventDriven ارتقا دهد؛ سیستمی که مستقیماً به رویدادهای Kafka متصل است. در این مسیر، Kafka به هسته جریان داده در Data Fabric سازمانی و یکی از اجزای اصلی Smart Data Platform IBM بدل می‌شود.

موج بعدی مهندسی داده: Event-driven AI

«هر مسئله هوش مصنوعی، در اصل یک مسئله داده است.»

در نسل جدید AI، مدل‌ها ثابت نیستند، context دائماً تغییر می‌کند و ورودی مدل‌ها دیگر فقط prompt نیست؛ بلکه جریان پیوسته‌ای از eventهاست. Kafka بهترین بستر برای چنین workloadهایی است. 🔍

آینده Kafka و Confluent چه خواهد بود؟

کافکا احتمالاً enterpriseتر می‌شود: امنیت قوی‌تر، ابزارهای مدیریتی پیشرفته‌تر، observability بومی و governance سازمانی. از سوی دیگر، Kafka بیش از پیش با سرویس‌های هوش مصنوعی عجین خواهد شد و نقش فعالی در pipelineهای AI، Agentها و مدل‌های زبانی ایفا می‌کند. هم‌زمان، رقابت در بازار پلتفرم‌های استریمینگ شدیدتر می‌شود و برخی مشتریان کوچک‌تر ممکن است به گزینه‌هایی مانند Redpanda، AutoMQ یا Pulsar مهاجرت کنند.

این خرید فقط یک جابه‌جایی مالی نیست.

برای جامعه مهندسی داده، یک پیام شفاف دارد:

🤖 کافکا وارد عصر جدیدی می‌شود؛ عصر هوش مصنوعی رویدادمحور.


از این پس مهندسین داده باید خود را برای معماری‌های event-driven گسترده‌تر، جریان‌های context برای AI، ترکیب Kafka با Vector DB و LLM، ساخت Agentهای real-time و pipelineهایی آماده کنند که در هر لحظه تصمیم‌گیری انجام می‌دهند.


🕸کافکا دیگر صرفاً ابزار استریمینگ نیست؛ در حال تبدیل شدن به سیستم عصبی هوش مصنوعی سازمانی است.


لینک خبر و عکس : https://www.cxtoday.com/contact-center/ibm-acquires-confluent-at-11bn-to-boost-real-time-data-accessibility/