مهندسی داده – Telegram

مهندسی داده

792 subscribers

112 photos

7 videos

24 files

314 links

BigData.ir کانال رسمی وب سایت
مطالبی راجع به مهندسی داده و طراحی زیرساخت‌های پردازش دیتا و ابزارهای مدرن دیتا
ارتباط با ادمین: @smbanaei
گروه تخصصی مهندسی داده 👇
https://t.iss.one/bigdata_ir_discussions2
کانال یوتیوب 👇
https://www.youtube.com/@irbigdata

Download Telegram

About

Blog

Apps

Platform

مهندسی داده

792 subscribers

مهندسی داده

کافکا رفت و انقلاب شد! در ویدئو جدید درباره Kafka Raft صحبت میکنیم تا باهم ببینیم کافکا چطوری به این تحمل خطای بالا رسیده است.
اگر دوست دارین بدونید KRaft چطوری کار میکنه این ویدئو ببینید 💣

00:55 مروری بر Raft
11:50 نقش Zookeeper چیست؟
18:08 در کافکا Control Plan و Data Plan چیست؟
19:45 بررسی چند سناریو failover در zookeeper
26:38 بهبود های Raft در Kafka
32:30 ساختار متفاوت KRaft به نسبت Raft
36:30 سناریو failover در KRaft
46:10 رشد دیتا در کافکا بینهایت است؟

لینک ویدئو: https://lnkd.in/e_zcfRc5
پلی لیست: Kafka Like a Pro (https://lnkd.in/e9KghDuD)
مدت ویدئو: 48 دقیقه
https://www.youtube.com/watch?v=ZT2V4d4lxAo&ab_channel=CodeWithHSN

This link will take you to a page that’s not on LinkedIn

👍3❤1

349 views14:14

مهندسی داده

‍ آینده مهندسی داده از نگاه نتفلیکس، Airbnb و Databricks 🚀

📌 اوایل خرداد، نتفلیکس در رویداد سالانه‌ی خود یعنی Data Engineering Open Forum 2025، پنلی جذاب با عنوان «آینده مهندسی داده» برگزار کرد که در آن سه متخصص از غول‌های فناوری دیدگاه‌های‌شان را درباره آینده این حوزه به اشتراک گذاشتند.

🔸 Tikica (مدیر پنل – مهندس ارشد نتفلیکس)

🔸 Ryan Blue (هم‌بنیان‌گذار Databricks و سازنده Iceberg)

🔸 Jerry (مهندس ارشد Airbnb)

🔸 Ena (مهندس داده در نتفلیکس)

در این پنل، از مسیرهای شغلی تا چالش‌های امروز و مهارت‌های فردا صحبت شد. خلاصه‌ای از نکات مطرح‌شده را در ادامه می‌خوانید:

🎥 ویدئوی ۲۰ دقیقه‌ای این پنل: https://www.youtube.com/watch?v=VVWjdsuNrwE&ab_channel=NetflixEngineering

🔮 ۱. هوش‌مصنوعی؛ دستیار قدرتمند، نه تهدید

💬 برخلاف تصور رایج، #GenAI شغل مهندس داده را تهدید نمی‌کند، بلکه ابزار توانمندی برای کمک در کارهای پیچیده و تکراری‌ست:

✅ بازنویسی کوئری و کمک در مهاجرت

✅ بهبود مستندسازی و تسهیل پلتفرم

✅ تمرکز بیشتر بر حل مسائل کسب‌وکار

✅ ارتقاء کیفیت کد

🔍 اما این تحولات، نیاز به داده‌ی باکیفیت، مستند و شفاف را دوچندان می‌کند.

⚠️۲. چالش‌های فعلی در #مهندسی_داده

مهندسی داده دیگر فقط ساختن چند جدول و اجرای ETL نیست.

با رشد داده‌ها، ابزارها و انتظارات، چالش‌ها هم رشد کرده‌اند:

🚨 بررسی مشکلات کیفی در داده‌هایی که وارد مدل‌های LLM می‌شوند بسیار سخت‌تر است. برخلاف داشبورد یا A/B تست‌ها، این مدل‌ها شفاف نیستند.

🌐 اتصال بین انباره‌های داده آفلاین، آنلاین و اپلیکیشن‌های واقعی محصول‌محور، باعث شده دیتاپایپ‌لاین‌ها بسیار پیچیده‌تر شوند.

🛡 نگرانی‌های جدیدی درباره‌ی حریم خصوصی، لو رفتن اطلاعات حساس و نحوه‌ی کنترل داده‌های تولیدشده توسط LLMها شکل گرفته است.

🎥 مهاجرت به داده‌های چندرسانه‌ای (متن، تصویر، ویدیو) نیاز به مهارت و ابزارهایی دارد که خیلی از ما هنوز با آنها آشنا نیستیم.

🧠 ۳. مهارت‌های کلیدی برای آینده

پنلیست‌ها تاکید کردند که مسیر موفقیت همچنان از «پایه‌های مهندسی قوی» می‌گذرد:

📌 مدل‌سازی دقیق داده

📌 درک ساختارها

📌 تعهد به کیفیت

اما برای آینده، باید مهارت‌های زیر را نیز توسعه داد:

🔹 پردازش real-time و event-driven

🔹 آشنایی با جستجوی معنایی و vector DBها

🔹 توانایی پردازش داده‌های multimodal

🔹 یادگیری ابزارهای مدرن مانند #DBT، #DuckDB، #PyIceberg و...

🧭 ۴. تشخیص ابزار مفید از ترندهای هیجانی

چطور بین ابزارهای واقعی و ترندهای زودگذر فرق بگذاریم؟

پنل نکات خوبی درباره‌ی انتخاب تکنولوژی مناسب داشت:

✅ آیا این ابزار واقعاً کار ما را ساده‌تر می‌کند؟

✅ فقط نحوه‌ی استفاده‌اش را بلدم یا می‌دانم چرا و چطور کار می‌کند؟

✅ آیا جامعه‌ توسعه‌دهنده و کامیونیتی فعالی دارد؟

✅ آیا به نیاز واقعی بیزینس پاسخ می‌دهد؟

📌 جمع‌بندی:

آینده‌ی مهندسی داده، ترکیبی‌ست از پایه‌های محکم فنی و یادگیری هوشمندانه‌ی ابزارهای جدید.

اگر هوشمند انتخاب کنیم و یاد بگیریم، GenAI حامی ماست، نه جایگزین ما.

#مهندسی_داده #GenAI #LLM #DataEngineering #Netflix #Airbnb #Databricks #DataQuality #AItools #OpenSource #TechTrends #آینده_شغلی

👍5❤2

280 views19:06

مهندسی داده

‍ داستان تولد یک Graph Engine متفاوت: آشنایی با PuppyGraph🐾

تصور کنید داده‌های شما در دیتابیس‌های کلاسیک رابطه‌ای مثل #PostgreSQL یا در دیتالِیک‌هایی مثل #Snowflake یا #Iceberg ذخیره شده‌اند.

حجم داده‌ها بالاست، اتصال‌ها پیچیده‌اند، و شما به‌عنوان مهندس داده می‌خواهید تحلیل‌های ارتباطی اجرا کنید:

مثل کشف مسیرهای غیرمستقیم بین کاربران، تشخیص حلقه‌های تراکنشی، یا تحلیل وابستگی در جریان داده.

در اکثر ابزارهای سنتی، برای رسیدن به این نوع بینش‌ها باید داده را استخراج کنید، آن را به فرمت گراف تبدیل کرده و در یک گراف‌دیتابیس جداگانه بارگذاری کنید. این یعنی:

عملیات #ETL سنگین و زمان‌بر ⏳

نیاز به زیرساخت گراف مستقل ⚙️

مشکلات همگام‌سازی داده بین دو سیستم 🔄

💡 اینجا PuppyGraph وارد می‌شود

پاپی‌گراف یک Graph Query Engine مدرن و سریع است که با یک رویکرد ساده و انقلابی کار می‌کند:

«به‌جای انتقال داده به یک گراف‌دیتابیس، چرا گراف را همان‌جا که داده هست اجرا نکنیم؟»

🔍 چه چیزی PuppyGraph را متفاوت می‌کند؟

✅ بدون ETL: مستقیماً روی منابع داده‌ای مانند PostgreSQL، MySQL، Snowflake، Delta Lake یا Iceberg کار می‌کند.

✅ بدون کپی داده: داده در محل خود باقی می‌ماند، PuppyGraph فقط آن را گرافی تفسیر می‌کند.

✅ اجرای سریع کوئری‌های چندهاپی: حتی 10-hop traversal در کمتر از چند ثانیه، روی میلیاردها لبه.

✅ سازگار با زبان‌های گراف استاندارد: از Gremlin و Cypher برای کوئری استفاده کنید، درست مثل Neo4j.

✅ معماری مقیاس‌پذیر و توزیع‌شده: طراحی‌شده برای محیط‌های تحلیلی مدرن، با تفکیک compute و storage.

🎯 چه کاربردهایی دارد؟

موتور تحلیل گراف PuppyGraph به‌ویژه برای تحلیل‌هایی که ماهیت گرافی دارند عالی است، از جمله:

✅ کشف تقلب در تراکنش‌ها یا شبکه‌های مالی

✅ تحلیل رفتار کاربران و مسیرهای ارتباطی آن‌ها

✅ درک ساختارهای وابستگی در خطوط داده یا سیستم‌ها

✅ تحلیل شبکه‌های سازمانی، صنعتی یا IoT

✅ ساخت گراف مفهومی از داده‌های پراکنده بدون زیرساخت جدید

🧪 تجربه کار با PuppyGraph

راه‌اندازی آن ساده است: با Docker یا روی Databricks و AWS در کمتر از ۱۰ دقیقه آماده کار می‌شود.

تنها کاری که باید بکنید تعریف اسکیمای گرافی با چند خط JSON است—و بعد می‌توانید همان داده‌ای را که همیشه با SQL کوئری می‌کردید، این‌بار از منظر گراف ببینید و تحلیل کنید.

🐶 چرا اسمش PuppyGraph است؟

چون مثل یک توله‌سگ هوشمند، سریع، چابک و کم‌توقع است. خودش را به‌راحتی با محیط شما وفق می‌دهد، سروصدای زیادی ندارد و کاری که باید انجام دهد را به‌خوبی انجام می‌دهد.

📣 اگر تجربه‌ای در گراف‌تحلیل داشته‌اید یا دنبال راهی برای اجرای گراف روی داده‌های رابطه‌ای بدون مهاجرت هستید، PuppyGraph قطعاً یکی از گزینه‌هایی است که باید آن را جدی بگیرید.

💼 و اما : وضعیت لایسنس و نسخه‌ها

نسخه رایگان و متن‌باز PuppyGraph با نام Developer Edition در دسترس است، اما این نسخه تنها از یک نود پشتیبانی می‌کند و برای محیط‌های کوچک و تستی مناسب است.

اگر بخواهید در محیط‌های تولیدی حرفه‌ای از آن استفاده کنید—با امکاناتی مثل مقیاس‌پذیری افقی، مانیتورینگ، چند کاربر و قابلیت‌های امنیتی پیشرفته—باید از نسخه Enterprise استفاده کنید که دارای مجوز تجاری و هزینه‌بر است اما هزینه آن از نگهداری یک دیتابیس گرافی جداگانه و پایپ‌لاین‌های ETL لازم برای ورود مداوم داده در آن، بسیار کمتر است.

#GraphAnalytics #DataEngineering #GraphDatabase #PuppyGraph

❤3

240 viewsedited 10:46

مهندسی داده

‍ راهنمای حرفه‌ای ساخت پایپ‌لاین‌های ETL/ELT با Apache Airflow

📘 نگاهی خلاصه به ایبوک ۴۴ صفحه‌ای Astronomer

در سال‌های اخیر، Apache Airflow به استانداردی در حوزه‌ی مدیریت وظایف زمان‌بندی‌شده و ارکستراسیون داده‌ها تبدیل شده است. نسخه‌ی ۳ این ابزار، با ویژگی‌های حرفه‌ای‌تری همچون:

✅ پشتیبانی از Multi-DAG Deployment

✅ اجرای مبتنی بر event از طریق Triggerer

✅ قابلیت DAG Versioning

✅ مصرف مستقیم از Kafka

✅ امکان XCom backendهای سفارشی

✅ Dynamic Task Mapping و Data-driven Scheduling

آن را به انتخابی قدرتمند برای محیط‌های پیچیده داده‌ای و تولیدی تبدیل کرده است.

یکی از رایج‌ترین کاربردهای Airflow، ساخت پایپ‌لاین‌های ETL/ELT است. اما در دنیای امروز با حجم بالای داده، معماری‌های پیچیده و نیاز به مقیاس‌پذیری بالا، پیاده‌سازی این پایپ‌لاین‌ها به‌گونه‌ای که قابل‌اعتماد، مانیتورپذیر و توسعه‌پذیر باشند، چالش‌برانگیز شده است.

🔍 اخیراً شرکت Astronomer که خدمات Airflow در فضای ابری را ارائه می‌دهد، یک راهنمای جامع ۴۴ صفحه‌ای با عنوان Best Practices for ETL and ELT Pipelines with Apache Airflow منتشر کرده است که شامل نکات کاربردی و به‌روز برای ساخت پایپ‌لاین‌های حرفه‌ای است.

🗂 خلاصه فهرست مطالب ایبوک:

📌 مفاهیم پایه‌ای

تعریف ETL و ELT، بررسی تفاوت‌ها و سناریوهای ترکیبی (ETLT)

📌 تصمیمات مهم معماری

انتخاب بین XCom یا storage خارجی، اجرای محاسبات درون Airflow یا بیرون، انتخاب اپراتورها، بررسی کیفیت داده

📌 بهترین شیوه‌های نوشتن DAG

ساختار اتمی، idempotent و ماژولار — جلوگیری از top-level code — تنظیم Retry — پیاده‌سازی CI/CD و تست

📌 مقیاس‌پذیری و محیط اجرا

تنظیمات مقیاس در سطح DAG، تسک و محیط — توصیه‌های زیرساختی برای استقرار تولیدی

📌 ویژگی‌های حرفه‌ای Airflow

• امکان Dynamic Task Mapping

• تولید DAGها به‌صورت برنامه‌نویسی‌شده

• امکان Task Group ماژولار

• زمان‌بندی مبتنی بر Dataset

• مدیریت فضای ذخیره سازی - Airflow Object Storage

• استفاده از Kafka و قابلیت DAG Versioning

📌 اتصالات و Providerهای مهم

مروری بر AWS, GCP, Azure, Snowflake, dbt, Spark, Ray, PostgreSQL و Cosmos برای dbt

📌 چک‌لیست نهایی + معرفی Astronomer

چک‌لیستی کامل برای ارزیابی پایپ‌لاین‌ها و مرور امکانات پلتفرم Astronomer

📥 دانلود فایل PDF در پست بعدی 👇

#ApacheAirflow #Kafka #ETL #ELT #DataEngineering #OpenSource #Python #مهندسی_داده #پایپ‌لاین_داده #Airflow3

❤1

273 views13:55

مهندسی داده

‍ راهنمای حرفه‌ای ساخت پایپ‌لاین‌های ETL/ELT با Apache Airflow

📘 نگاهی خلاصه به ایبوک ۴۴ صفحه‌ای Astronomer

در سال‌های اخیر، Apache Airflow به استانداردی در حوزه‌ی مدیریت وظایف زمان‌بندی‌شده و ارکستراسیون داده‌ها تبدیل شده است. نسخه‌ی ۳ این ابزار، با ویژگی‌های حرفه‌ای‌تری همچون:

✅ پشتیبانی از Multi-DAG Deployment

✅ اجرای مبتنی بر event از طریق Triggerer

✅ قابلیت DAG Versioning

✅ مصرف مستقیم از Kafka

✅ امکان XCom backendهای سفارشی

✅ امکان Dynamic Task Mapping و Data-driven Scheduling

آن را به انتخابی قدرتمند برای محیط‌های پیچیده داده‌ای و تولیدی تبدیل کرده است.

یکی از رایج‌ترین کاربردهای Airflow، ساخت پایپ‌لاین‌های ETL/ELT است. اما در دنیای امروز با حجم بالای داده، معماری‌های پیچیده و نیاز به مقیاس‌پذیری بالا، پیاده‌سازی این پایپ‌لاین‌ها به‌گونه‌ای که قابل‌اعتماد، مانیتورپذیر و توسعه‌پذیر باشند، چالش‌برانگیز شده است.

🔍 اخیراً شرکت Astronomer که خدمات Airflow در فضای ابری را ارائه می‌دهد، یک راهنمای جامع ۴۴ صفحه‌ای با عنوان Best Practices for ETL and ELT Pipelines with Apache Airflow منتشر کرده است که شامل نکات کاربردی و به‌روز برای ساخت پایپ‌لاین‌های حرفه‌ای است.

🗂 خلاصه فهرست مطالب ایبوک:

📌 مفاهیم پایه‌ای

تعریف ETL و ELT، بررسی تفاوت‌ها و سناریوهای ترکیبی (ETLT)

📌 تصمیمات مهم معماری

انتخاب بین XCom یا storage خارجی، اجرای محاسبات درون Airflow یا بیرون، انتخاب اپراتورها، بررسی کیفیت داده

📌 بهترین شیوه‌های نوشتن DAG

ساختار اتمی، idempotent و ماژولار — جلوگیری از top-level code — تنظیم Retry — پیاده‌سازی CI/CD و تست

📌 مقیاس‌پذیری و محیط اجرا

تنظیمات مقیاس در سطح DAG، تسک و محیط — توصیه‌های زیرساختی برای استقرار تولیدی

📌 ویژگی‌های حرفه‌ای Airflow

• امکان Dynamic Task Mapping

• تولید DAGها به‌صورت برنامه‌نویسی‌شده

• امکان Task Group ماژولار

• زمان‌بندی مبتنی بر Dataset

• مدیریت فضای ذخیره سازی - Airflow Object Storage

• استفاده از Kafka و قابلیت DAG Versioning

📌 اتصالات و Providerهای مهم

مروری بر AWS, GCP, Azure, Snowflake, dbt, Spark, Ray, PostgreSQL و Cosmos برای dbt

📌 چک‌لیست نهایی + معرفی Astronomer

چک‌لیستی کامل برای ارزیابی پایپ‌لاین‌ها و مرور امکانات پلتفرم Astronomer

📥 دانلود فایل PDF در پست بعدی 👇

#ApacheAirflow #Kafka #ETL #ELT #DataEngineering #OpenSource #Python #مهندسی_داده #پایپ‌لاین_داده #Airflow3

👍2❤1

354 viewsedited 13:55

مهندسی داده

V4_Best_practices_for_ETL_and_ELT_pipelines_with_Apache_Airflow.pdf

فایل راهنمای حرفه‌ای ساخت پایپ‌لاین‌های ETL/ELT با Apache Airflow - 👆👆

👍4

317 viewsedited 13:56

مهندسی داده

‍ الگوریتم توصیه گر توییتر؛ هنوز هم منبع الهام است—even if you’re not Elon 😄

درست است که بیش از دو سال از متن‌باز شدن الگوریتم توصیه گر توئیتر یا همان بخش «For You» توییتر گذشته، اما این پروژه هنوز هم از آن نمونه‌هایی‌ست که می‌توان بارها و بارها به آن برگشت و نکات تازه‌ای از دلش بیرون کشید. چرا؟ چون وقتی قلب الگوریتمی که روزانه برای میلیاردها نفر محتوا پیشنهاد می‌دهد را ببینید، فقط بحث کد نیست—بلکه با یک زیست‌بوم پیچیده از تصمیم‌گیری، مدل‌سازی و حتی طنز مواجه می‌شوید. بیایید این مخزن کد را خیلی سریع و بدون وارد شدن در جزییات فنی آن مرور کنیم.

https://github.com/FareedKhan-dev/KG-Pipeline.git

🔍 چه خبر در دل الگوریتم؟

الگوریتم توصیه‌گر توییتر از چند مرحله اصلی تشکیل شده:

✅ انتخاب توئیت‌های اولیه - Candidate Sources

ابتدا توییتر از بین صدها میلیون توییت، حدود ۱۵۰۰ توییت «نامزد» را انتخاب می‌کند—هم از کسانی که دنبالشان می‌کنید (In-Network) و هم غریبه‌ها (Out-of-Network).

✅ بخش Ranking

این توییت‌ها سپس توسط یک مدل عصبی با بیش از ۴۸ میلیون پارامتر رتبه‌بندی می‌شوند. هدف؟ پیش‌بینی احتمال تعامل مثبت شما با هر توییت.

✅ فیلتر و اعمال الگوریتم‌های مکاشفه‌ای - Heuristics and Filters

حالا نوبت انواع و اقسام فیلترهاست؛ از فیلتر کردن محتوای تکراری و حساب‌های بلاک‌شده گرفته تا یک فیلتر خاص به‌نام author_is_elon 😅 که اگر نویسنده توییت ایلان ماسک باشد، شرایط متفاوتی اعمال می‌شود!

🎯 و این تازه اول ماجراست... توئیت‌های اولیه را چگونه پیدا کنیم ؟

📌 یکی از بخش‌های جالب الگوریتم، بررسی گرایش‌های سیاسی است. فیلترهایی وجود دارد که حتی در سطوح مختلف بررسی می‌کند آیا یک توییت به گرایش‌های دموکرات یا جمهوری‌خواه نزدیک است یا خیر. (بله! الگوریتم هم سیاست‌زده شده 😄) و شما به کدام گرایش سیاسی نزدیک‌تر هستید!

📌 بخش «Embedding Spaces» الگوریتم، کاربران و توییت‌ها را وارد فضای برداری‌ای می‌کند که بر اساس شباهت علایق و محتوا عمل می‌کند و یافتن سریع توئیت‌های کاندید اولیه را ممکن می‌کند. یکی از مشهورترین این فضاها، SimClusters است.

📌 این کامیونیتی‌ها (Communities) در SimClusters، از گروه‌های کوچک دوستانه گرفته تا کل جمعیت علاقه‌مند به سیاست یا موسیقی پاپ را در بر می‌گیرند—و جالب‌تر اینجاست که هر سه هفته یک‌بار دوباره آموزش داده می‌شوند و جایگاه ما در این جامعه‌ها مدام به‌روزرسانی می‌شود. نتیجه؟ توییت‌هایی که می‌بینیم کاملاً وابسته است به اینکه در آن لحظه، ما در کدام کامیونیتی قرار داریم.

🤖 داستان الگوریتم توییتر چیزی فراتر از مهندسی است

این سیستم نه‌تنها با داده‌های تعاملات انسانی تغذیه می‌شود، بلکه خودش هم بازتابی از ساختارهای اجتماعی و فکری کاربرانش است. شفاف‌سازی توییتر با متن‌باز کردن چنین سیستمی، فارغ از انگیزه‌های تجاری، یک حرکت جسورانه در تاریخ الگوریتم‌های شخصی‌سازی بود.

📁 پروژه در GitHub هنوز پابرجاست. و اگر تا حالا نرفتید نگاهش بندازید، مطمئن باشید چیزهایی خواهید دید که فقط در مستندهای نتفلیکس انتظارش را دارید!

🧠 آیا ما نیاز به ساخت الگوریتمی مشابه داریم؟ شاید.

📊 آیا می‌توان از ایده‌های آن در سیستم‌های توصیه‌گر فروشگاهی، شبکه‌های اجتماعی یا پلتفرم‌های محتوایی استفاده کرد؟ قطعاً.

#الگوریتم_توصیه‌گر #مهندسی_داده #توییتر #توسعه_دهنده #یادگیری_ماشین #توسعه_متن_باز #SimClusters #GraphJet #ML #Scala #ForYou

433 views21:11

مهندسی داده

اگر رهبر یک تیم دیتا هستید (یا قصد دارید باشید)، این ریپازیتوری را از دست ندهید:

🔗 Data Team Handbook
https://github.com/sdg-1/data-team-handbook/

راهنمایی جامع برای مدیریت مؤثر تیم‌های داده، با ده‌ها منبع دست‌چین‌شده برای چالش‌های واقعی:
✅ گذار از IC به مدیر
✅ رشد مهارت اعضای تیم
✅ مدیریت پروژه‌های دیتا
✅ بهینه‌سازی زیرساخت، هزینه و ابزارها
✅ تمپلیت‌ها و چک‌لیست‌های قابل استفاده

📚 منابع شامل:

بهترین کتاب‌ها در مدیریت فنی و مهندسی داده

مقالات دقیق درباره DataOps، Data Culture و Team Structure

ویدیوهای آموزشی از لیدهای فنی در Amazon، Google و Stripe

چرا این منبع برای شما ضروری‌ست؟

🛠 دسته‌بندی بر اساس چالش‌های واقعی

انتقال از مهندس اختصاصی (IC) به نقش مدیریت

مقیاس‌بندی زیرساخت (ETL/ELT، CDC، Data Warehouse)

طراحی پایداری و مانیتورینگ خطوط داده

بهینه‌سازی هزینه و انتخابِ سرویس‌های ابری

📈 افزایش بهره‌وری تیم

الگوهای پروژه و تمپلیت‌های CI/CD برای دیتاپایپ‌لاین

چک‌لیست ۳۰-۶۰-۹۰ روز اول برای آنبوردینگ سریع

چگونه دستورات SQL حرفه ای بنویسیم و بهترین رویه‌های کوئری‌نویسی

🤝 رشد و نگهداشت استعداد

الگوهای مصاحبه و ارزیابی مهارت‌های داده

استراتژی‌های حفظ نیروی کلیدی در مقابل ترک پروژه

🎓 منابع آموزشی برتر

کتاب‌های کلیدی (An Elegant Puzzle, Data Teams Model)

مقالات عمیق در معماری داده، فرهنگ مهندسی و مدیریت فنی

ویدیوهای عملی از مهندسین ارشد گوگل، آمازون و Netflix

🧩 همه چیز دسته‌بندی‌شده بر اساس چالش‌های رایج، نه صرفاً نوع محتوا.

🌍 متن‌باز و مشارکت‌پذیر – می‌توانید منابع خود را هم اضافه کنید!

hashtag#DataEngineering hashtag#DataTeams hashtag#DataLeadership hashtag#ETL hashtag#DataInfra hashtag#TeamManagement hashtag#SeattleDataGuy hashtag#دیتا hashtag#مهندسی_داده hashtag#مدیریت_تیم

GitHub - sdg-1/data-team-handbook

Contribute to sdg-1/data-team-handbook development by creating an account on GitHub.

👍2

467 viewsedited 21:20

مهندسی داده

👇👇👇

482 views16:33

مهندسی داده

کتابی ساده و روان برای یادگیری مفهوم MCP که امروزه همه جا در مورد آن می شنویم. (در حوزه هوش مصنوعی البته )‌

👍3

517 views16:36

مهندسی داده

شروعی حرفه‌ای برای ورود به دنیای مهندسی داده – رایگان و بین‌المللی🎓

در دنیای امروز، یادگیری مهارت‌های عملی و نزدیک به پروژه‌های واقعی، مهم‌ترین مزیت رقابتی برای ورود به بازار کار حوزه داده است.

اگر شما هم به دنبال فرصتی برای یادگیری ساخت‌یافته، کاربردی، و تحت نظر یک تیم متخصص بین‌المللی هستید، این بوت‌کمپ رایگان مهندسی داده یک فرصت بی‌نظیر است.

👨‍🏫 برگزارکننده: Zach Wilson

مؤسس DataExpert.io و از شناخته‌شده‌ترین چهره‌های حوزه داده با بیش از ۱ میلیون دنبال‌کننده در شبکه‌های اجتماعی.

او به‌واسطه تجربه بالا، سادگی در بیان مفاهیم پیچیده، و طراحی مسیرهای یادگیری عملی، توانسته اعتماد هزاران نفر در سراسر دنیا را جلب کند.

🏫 درباره بوت‌کمپ:

بوت‌کمپ ۶ هفته‌ای "Community Edition" با هدف توانمندسازی علاقه‌مندان به مهندسی داده، به صورت رایگان و با تمرکز بر مهارت‌های کاربردی برگزار می‌شود.

این برنامه آموزشی، ترکیبی از ویدیوهای آموزشی، تمرین‌های هفتگی با ارزیابی خودکار، پروژه‌های واقعی، و در نهایت صدور مدرک پایان دوره است.

🧠 سرفصل‌های آموزشی:

📚 مدل‌سازی داده‌های بعدی و واقعی – طراحی ساختارهای تحلیلی پیشرفته

📚 پردازش داده‌های کلان با سرعت بالا - Apache Spark و PySpark

📚 ساخت پایپ‌لاین‌های بلادرنگ و مدیریت جریان داده - Apache Flink و Kafka

📚 الگوهای تحلیلی و طراحی شاخص‌های کلیدی عملکرد (KPI)

📚 کیفیت داده و مستندسازی حرفه‌ای مانند Airbnb

📚 مصورسازی داده با Tableau و ارائه اثرگذار یافته‌ها

📚نگهداری و بهبود پایپ‌لاین‌های داده‌ای در محیط واقعی

🎯 چرا این بوت‌کمپ ارزشمند است؟

🔹 نگاه عملیاتی و واقعی به مسائل مهندسی داده

🔹 طراحی شده توسط تیمی با تجربه بین‌المللی و پروژه‌های کلان

🔹 یادگیری مبتنی بر سناریوهای واقعی شغلی

🔹 مناسب برای افرادی که به‌دنبال مهاجرت شغلی، ارتقای جایگاه کاری یا ورود به بازارهای جهانی هستند

🔹 امکان تعامل با جامعه جهانی مهندسان داده در Discord

🔹 دریافت مدرک پایان دوره به‌صورت رسمی

📥 مراحل ثبت‌نام:

ثبت‌نام رایگان در سایت: learn.dataexpert.io

دریافت هندبوک و تمرین‌ها: https://github.com/DataExpert-io/data-engineer-handbook

عضویت در کامیونیتی و گروه پشتیبانی در دیسکورد: لینک عضویت

ارسال تمرین‌های هفتگی – برای حفظ نظم و یادگیری تدریجی

📌 تا امروز بیش از ۵۰ هزار نفر از سراسر دنیا ثبت‌نام کرده‌اند

🎯 زک ویلسون پیش‌بینی کرده تنها حدود ۵۰۰ نفر به پایان مسیر و دریافت گواهی می‌رسند

اگر دنبال تعهد، رشد حرفه‌ای و یادگیری واقعی هستی، تو هم یکی از آن‌ها باش.

جزو ۱٪ افراد مصمم باش!

#بوتکمپ_داده #مهندسی_داده #DataEngineering #ApacheSpark #Flink #Kafka #SQL #Python #DataQuality #Tableau #آموزش_کاربردی #مدرک_بین‌المللی #ZackWilson #DataExpert #دوره_رایگان #DataCareer

GitHub - DataExpert-io/data-engineer-handbook: This is a repo with links to everything you'd ever want to learn about data engineering

This is a repo with links to everything you'd ever want to learn about data engineering - DataExpert-io/data-engineer-handbook

❤1

611 views08:37

مهندسی داده

👆👆👆

❤2

538 views08:38

مهندسی داده

This media is not supported in your browser

VIEW IN TELEGRAM

نحوه ثبت نام توی بوت کمپ شش هفته ای مهندسی داده . 👆👆

👍3❤1

459 views12:49

مهندسی داده

عاشقان دیتا لیک‌هوس، این ریپو گنج واقعی مهندسی داده است! 💻

اگر در حوزه دیتا لیک‌هوس فعالیت می‌کنید یا تازه به این دنیای پرهیجان و آینده‌دار مهندسی داده علاقه‌مند شدید، مخزن کد awesome-lakehouse-guide یه منبع بی‌نظیره که نباید از دستش بدید! 🌟

اینجا یه مجموعه کامل و به‌روز برای تسلط بر فرمت‌های جدولی باز (Apache Hudi، Apache Iceberg، Delta Lake) و معماری لیک‌هوس پیدا می‌کنید:

🔍 مقالات تحقیقاتی: از BtrBlocks و Apache Arrow تا AWS Glue و Apache Flink، با تحلیل‌های عمیق درباره بهینه‌سازی ذخیره‌سازی، عملکرد کوئری‌ها و قابلیت‌های ACID.

📝 بلاگ‌های کاربردی: آموزش‌های عملی برای حل چالش‌هایی مثل metadata bloat، بهینه‌سازی با Z-ordering و مدیریت داده‌های نزدیک به real-time.

💻 کد و نوت‌بوک: مثال‌های آماده برای ایجاد جدول‌های Hudi و Iceberg روی Amazon S3، اجرای کلاستریگ و پیاده‌سازی CDC (Change Data Capture).

📣 پست‌های لینکدین: نکات سریع و به‌روز درباره موضوعاتی مثل پردازش برداری و Apache Arrow.

🗂 فعالیت اخیر: به‌روزرسانی‌های دو هفته پیش (تا ۱۵ تیر ۱۴۰۴) شامل README و پست‌های لینکدین، نشون‌دهنده نگهداری فعال این ریپوئه. یه تصویر معماری (lkh_res.png) هم برای درک بهتر لیک‌هوس موجوده!

این ریپو یه نقشه راه کامل برای حرفه‌ای شدن در لیک‌هوسه، چه بخواید تئوری یاد بگیرید، چه دست به کد بشید! 🚀

🔗 مشاهده ریپو : https://github.com/dipankarmazumdar/awesome-lakehouse-guide

#DataEngineering #Lakehouse #BigData #OpenSource #DataLakehouse

GitHub - dipankarmazumdar/awesome-lakehouse-guide: Repo for everything open table formats (Iceberg, Hudi, Delta Lake) and the overall…

Repo for everything open table formats (Iceberg, Hudi, Delta Lake) and the overall Lakehouse architecture - dipankarmazumdar/awesome-lakehouse-guide

❤2👍2

512 views16:19

مهندسی داده

‍ نقشه راه Data 3.0 در عصر Lakehouse

خلاصه‌ای از گزارش Bessemer Venture Partners که معماری لیک‌هوس را در دوران مدرن، بسیار آینده‌دار دانسته است. بیایید آنرا با هم مرور کنیم.

📌 https://www.bvp.com/atlas/roadmap-data-3-0-in-the-lakehouse-era

شرکت سرمایه‌گذاری Bessemer Venture Partners (BVP) که سابقه‌ای بیش از یک قرن در حمایت از شرکت‌های نوآور در حوزه‌های ابری، فین‌تک، 🤖 هوش مصنوعی و 🛡 امنیت سایبری دارد، اخیراً گزارشی با عنوان «نقشه راه: Data 3.0 در عصر #Lakehouse» منتشر کرده است. این گزارش با تکیه بر تجربه BVP در سرمایه‌گذاری بر برندهایی مانند Shopify، LinkedIn، Pinterest و Databricks، چشم‌اندازی دقیق از نسل سوم زیرساخت‌های داده ارائه می‌دهد.

🔍 چرا Data 3.0 اهمیت دارد؟

مدیریت داده‌ها طی سه نسل دستخوش تحولات عظیمی شده است:

📦 نسخه اول - Data 1.0 (۱۹۷۰–۲۰۰۰):

✅ تمرکز بر پایگاه‌های داده رابطه‌ای (Oracle، MySQL)

✅ استفاده از انبارهای داده‌ای

❌ محدودیت در مقیاس‌پذیری

❌ ناتوان در پردازش داده‌های غیرساختاریافته

🌊 نسخه دوم - Data 2.0 (از ۲۰۱۰ به بعد):

✅ ظهور Hadoop و Spark برای پردازش داده‌های متنوع و حجیم

✅ انعطاف‌پذیری بیشتر

❌ باتلاق داده‌ای (Data Swamp) به‌دلیل ضعف در کیفیت و حاکمیت

🚀 نسخه سوم - Data 3.0 (از ۲۰۲۰ به بعد):

✅ یکپارچگی

✅ پردازش لحظه‌ای

✅ استفاده از هوش مصنوعی

📌 ابزارهای کلیدی: Lakehouse، Delta Lake، Iceberg، Hudi، خطوط لوله AI-driven

💡 معماری Lakehouse چیست و چرا انقلابی است؟

لیک‌هوس ترکیبی از قدرت Data Warehouse و انعطاف Data Lake است.

ویژگی‌های کلیدی:

📌 پشتیبانی از داده‌های ساختاریافته و غیرساختاریافته

📌 فرمت‌های باز با قابلیت‌های ACID، Time Travel، پردازش لحظه‌ای

📌 کاهش افزونگی داده و وابستگی به Vendorها

این معماری پایه‌ای برای توسعه ابزارهای تحلیلی و برنامه‌های AI در مقیاس بزرگ است.

🔮 چهار روند کلیدی در Data 3.0 به روایت BVP

1️⃣ خطوط لوله هوشمند و لحظه‌ای

🛠 ابزارهای جدید: Prefect، Windmill، dltHub

⚙️ فناوری‌های جریانی: Apache Flink، Kafka

⚡️ پلتفرم‌های بلادرنگ مانند Chalk برای تصمیم‌گیری سریع

2️⃣ متادیتا به‌عنوان منبع حقیقت

🛠 ابزارهایی مانند Datastrato، Acryl Data

💡 بهینه‌سازهایی مثل Flarion.io و Greybeam

3️⃣ تحول در موتورهای محاسباتی:

🛠 موتورهای سبک و سریع: DuckDB، ClickHouse، Daft

🌕 بسترهای Iceberg-native مثل Mooncake و Bauplan و RisingWave

4️⃣ ادغام مهندسی داده و نرم‌افزار:

🧩 ابزارهایی مانند dbt و Gable

🔄 یکپارچه‌سازی با CI/CD، نسخه‌سازی، تست خودکار

💸 فرصت‌های سرمایه‌گذاری و نوآوری

BVP باور دارد که Data 3.0 فرصت بی‌سابقه‌ای برای بنیان‌گذاران ایجاد کرده تا:

🔧 ابزارهای منبع‌باز و ابری جدید بسازند

🚀 موتورهای بهینه‌شده برای AI ارائه دهند

📊 راه‌حل‌های هوشمند برای متادیتا خلق کنند

📌 جمع‌بندی : معماری Lakehouse نماد تحول در مدیریت داده‌هاست:

✔️ عملکرد بالا

✔️ تحلیل لحظه‌ای

✔️ پشتیبانی از AI

✔️ مقیاس‌پذیری بالا

آینده از آن تیم‌هایی است که به جای مدیریت زیرساخت‌های پیچیده، بر خلق ارزش از داده‌ها تمرکز می‌کنند.

🏷 #Data3 #Lakehouse #AI #Metadata #StreamingData #DuckDB #Iceberg #DeltaLake #BVP #DataEngineering #ModernDataStack #RealTimeAnalytics #OpenSource #DataInfra #Startup #DataPlatform #VentureCapital #FutureOfData

👍2

498 views18:05

مهندسی داده

‍ از استانداردسازی تا ساده‌سازی: آینده‌ی Iceberg در مهندسی داده

🔍تحلیلی بر دو تحول مهم: DuckLake و مقاله جدید MinIO

احتمالاً توی یک سال گذشته، بارها چشم‌تون به مقالات، ابزارها، یا گفتگوهایی افتاده که حول‌وحوش موضوعی به اسم #Iceberg می‌چرخن — یه استاندارد باز و ساخت‌یافته برای ذخیره داده‌ها به‌صورت خام، اما با قابلیت‌هایی شبیه پایگاه داده:

📌امکان اجرای کوئری‌های تحلیلی مستقیم روی فایل‌های Parquet

📌پشتیبانی از schema evolution و تراکنش‌های ACID

📌و جداسازی کامل ذخیره‌سازی از موتور پردازش

🧊 به‌جرات میشه گفت که #Iceberg یکی از ترندهای داغ این روزهای مهندسی داده‌ست — از Google BigQuery گرفته تا AWS S3، از Dremio تا Snowflake و پروژه Polaris، همگی در حال پشتیبانی مستقیم یا بومی از Iceberg هستن.

و البته این موضوع فقط جهانی نیست — همین چند هفته پیش، در یکی از جلسات مشاوره‌ که با یکی از شرکت‌های بزرگ فولادی کشور بود، موضوع جلسه بررسی بهترین راه برای طراحی، راه‌اندازی، و مدیریت یک Lakehouse مبتنی بر Iceberg بود. کاری که تیم فنی این شرکت، نسخه اولیه آنرا راه اندازی کرده بود. 🚀

🔄 اما دو اتفاق باعث شد که احساس کنم : آینده‌ی Iceberg بسیار ساده‌تر و سبک‌تر خواهد بود.

🌟 اولی معرفی DuckLake بود - https://ducklake.select.

در دنیایی که پر بود از سرویس‌های کاتالوگ مختلف (Hive Metastore، Glue، Project Nessie، JDBC Metastore و...)، #DuckLake اومد و گفت:

«همه‌ی اینا رو بذارید کنار! من با یه دیتابیس SQL ساده، همه کارهای مدیریت متادیتا و فایل‌های داده رو انجام می‌دم.»

📦 داده‌ها همون Parquet هستن روی object storage، اما متادیتا داخل یه دیتابیس ساده مثل #DuckDB یا #Postgres ذخیره می‌شن. همه چیز از طریق #SQL مدیریت می‌شه. بدون نیاز به سرویس‌های جانبی، بدون پیچیدگی. دقیقاً شبیه #SQLite برای دیتالیک‌ها.

🔥 و استقبال خوبی هم ازش شده. چون ساده‌تر از Iceberg معمولی راه می‌افته و سربار کمتری داره.

🧠 دومین اتفاق، مقاله‌ای بود که همین چند روز پیش از طرف MinIO منتشر شد.
https://blog.min.io/the-case-for-native-iceberg-catalog-apis-and-unified-governance-in-object-storage

این مقاله به یه نقطه‌ضعف مهم در معماری‌های فعلی دیتالیک اشاره می‌کرد:

«متادیتا و دسترسی به فایل‌های واقعی داده، در دو سیستم جداگانه کنترل می‌شن. همین باعث می‌شه امنیت و حاکمیت داده ناقص باقی بمونه.»

یعنی ممکنه کاربر به جدول Iceberg مجوز نداشته باشه، ولی هنوز بتونه مستقیم فایل‌های #Parquet رو از #S3 یا #MinIO بخونه! 😬

استوریج MinIO پیشنهاد داده که APIهای Iceberg Catalog به‌صورت بومی در خود پلتفرم ذخیره‌سازی تعبیه بشن، طوری که هم متادیتا و هم دسترسی به فایل‌ها، از یک‌جا و با یک مدل امنیتی مدیریت بشن. این یعنی سادگی بیشتر، امنیت بهتر، و مدیریت یکپارچه‌تر.

🔮 پیش‌بینی من؟
ما داریم به سمتی می‌ریم که: Iceberg دیگه یه «ابزار حرفه‌ای مخصوص متخصص‌ها» نیست — بلکه تبدیل می‌شه به یک استاندارد ساده، امن، و در دسترس برای همه تیم‌های داده

🌊 به‌زودی، ساخت یک دریاچه‌داده قدرتمند، به اندازه راه‌اندازی یک دیتابیس ساده خواهد بود. و Iceberg ستون اصلی این تحول باقی می‌مونه.

#ApacheIceberg #DuckLake #MinIO #DataLakehouse #MetadataGovernance #ObjectStorage #OpenTableFormats #SQL #دیتالیک #مهندسی_داده #Parquet #BigData

DuckLake is an integrated data lake and catalog format

DuckLake delivers advanced data lake features without traditional lakehouse complexity by using Parquet files and your SQL database. It's an open, standalone format from the DuckDB team.

👍3👌2

388 viewsedited 18:09

مهندسی داده

چطور تسلا با ClickHouse یک پلتفرم مشاهده‌پذیری در مقیاس نجومی ساخت؟

مشاهده‌پذیری در مقیاس کوادریلیون (هزار بیلیارد) با ClickHouse و پروژه‌ای به نام Comet

داستان تغییر زیرساخت observability تسلا از کجا شروع شد ؟

🔧 چند میلیون خودرو متصل، هزاران زیرسیستم توزیع‌شده، و گیگافکتوری‌هایی که شبانه‌روز داده می‌فرستند. تسلا در چنین مقیاسی نمی‌توانست روی Prometheus حساب باز کند...

👨‍💻 مهندس ارشد تسلا Alon Tal، می‌گوید:

«ما به سیستمی نیاز داشتیم که بتونه ده‌ها میلیون ردیف در ثانیه را ingest کنه، سال‌ها داده رو نگه داره، و همچنان real-time پاسخ بده.»

چرا Prometheus کافی نبود؟

🔸 مقیاس‌پذیری افقی محدود

🔸 وابستگی به یک سرور واحد (ریسک از دست دادن کل متریک‌ها)

🔸 مشکلات نگهداری بلندمدت و زبان کوئری محدود

✅ راه‌حل: ساخت یک سیستم جدید به نام Comet

💡 با استفاده از ClickHouse به عنوان هسته‌ی اصلی، تسلا یک پلتفرم metrics محور ساخت که:

📥 داده‌ها را از طریق OTLP و Kafka ingest می‌کند

⚙️ با ETLهای سفارشی داده‌ها را به شکل ساخت‌یافته وارد ClickHouse می‌کند

🔄 و مهم‌تر از همه:

کوئری‌های PromQL را به SQL معادل در ClickHouse ترجمه می‌کند بدون اینکه مهندسان متوجه تفاوت شوند!

🧠 یعنی داشبوردهای موجود (Grafana، Alertmanager، و...) بدون تغییر کار می‌کنند!

💥 مقیاس واقعی؟

یک میلیارد ردیف در ثانیه! به مدت ۱۱ روز پیاپی!

نتیجه؟

🔹 بدون یک خطا

🔹 مصرف ثابت RAM و CPU

🔹 بیش از ۱ کوادریلیون رکورد با موفقیت ingest شده!

📊 سیستم هنوز هم در حال scale شدن برای تیم‌های داخلی تسلاست!

✨ چرا ClickHouse؟

🔹 سرعت بی‌رقیب در پاسخ به کوئری‌های پیچیده

🔹 UDFهای اجرایی برای کوئری‌های غیر trivial

🔹 پشتیبانی از PromQL و TraceQL

🔹 نگهداری بلندمدت داده‌ها با حجم بالا

🔹 و مهم‌تر از همه: قابلیت اطمینان بالا در مقیاس تسلا!

🔭 آینده‌ی Comet؟

🔧 پشتیبانی از distributed tracing

🌍 احتمال open-source شدن

🎯 گسترش به دیگر واحدهای عملیاتی در تسلا

📎 جمع‌بندی

تسلا با پروژه‌ی Comet ثابت کرد که observability در مقیاس سیاره‌ای ممکن است—اگر ابزار مناسب انتخاب شود!

✅ حالا واقعا پرومتئوس حذف شد؟

تسلا Prometheus رو به‌طور مستقیم حذف نکرد، ولی:

🌟دیگه از خود Prometheus برای ذخیره‌سازی و کوئری استفاده نمی‌کنه.

🌟 به‌جاش، پلتفرمی به نام Comet ساخت که خودش می‌تونه PromQL (زبان کوئری Prometheus) رو اجرا کنه و پشت صحنه با کلیک‌هوس ارتباط بگیره و خروجی بده بدون اینکه واقعاً Prometheus وجود داشته باشه!

🔗 منبع اصلی:

https://clickhouse.com/blog/how-tesla-built-quadrillion-scale-observability-platform-on-clickhouse

#ClickHouse #Observability #Tesla #PromQL #DataEngineering #Scalability #TimeSeries #Kafka #DevOps #OpenTelemetry #Infrastructure

How Tesla built a quadrillion-scale observability platform on ClickHouse

“Data in ClickHouse is better than data anywhere else. No other system lets you slice and dice your data, ask interesting questions, and get answers in an acceptable amount of time. There’s nothing out there that competes with ClickHouse.” Alon Tal, Senio

👍4❤1

485 views06:20

مهندسی داده

مهندسی داده

چطور تسلا با ClickHouse یک پلتفرم مشاهده‌پذیری در مقیاس نجومی ساخت؟ مشاهده‌پذیری در مقیاس کوادریلیون (هزار بیلیارد) با ClickHouse و پروژه‌ای به نام Comet داستان تغییر زیرساخت observability تسلا از کجا شروع شد ؟ 🔧 چند میلیون خودرو متصل، هزاران زیرسیستم…

https://www.youtube.com/embed/z5t3b3EAc84?si=yycyL6UBUQ-ztMLA

Tesla-Scale Metrics with ClickHouse

Alon Tal, Senior Staff Software Engineer at Tesla, talks about Comet, Tesla's internal system built with ClickHouse for ingesting, storing and querying metrics at massive scale.

Session recording from Open House, the ClickHouse user conference.
https://…

👍3

462 views08:08

مهندسی داده

هوش_تجاری_به_کمک_SQlServer_جزوه_آموزشی.pdf

جزوه آموزشی هوش تجاری در SQL Server - دکتر حداد

👍1🔥1

482 views18:04

مهندسی داده

👆👆👆

🔥1

453 views18:04