مهندسی داده
811 subscribers
112 photos
7 videos
24 files
320 links
BigData.ir کانال رسمی وب سایت
مطالبی راجع به مهندسی داده و طراحی زیرساخت‌های پردازش دیتا و ابزارهای مدرن دیتا
ارتباط با ادمین: @smbanaei
گروه تخصصی مهندسی داده 👇
https://t.iss.one/bigdata_ir_discussions2
کانال یوتیوب 👇
https://www.youtube.com/@irbigdata
Download Telegram
اخیرا به پروژه متن‌بازی با نام کدرو برخوردم که هم ماموریت آن به عنوان قالبی استاندارد برای پروژه‌های علم داده، برایم ارزشمند بود و هم تعداد نسبتاً زیاد توسعه دهندگان آن ( حدود صد نفر) توجهم را جلب کرد. بنابراین تصمیم گرفتم علیرغم اینکه از حوزه علم داده فاصله گرفته‌ام اما این کتابخانه ارزشمند پایتون را معرفی کنم. باشد که برای علاقه‌مندان آن مفید باشد .

یک تیم علم داده در یک سازمان، نیاز دارد علاوه بر پاکسازی و پردازش داده و ساخت مدل‌های پیش‌گویانه، موارد زیر را هم در پروژ‌های علم داده لحاظ کند :‌
- کدنویسی استاندارد
- ساختار منظم برای هر پروژه
- تفکیک منطق و الگوریتم از فریمورک‌های اجرا کننده
- مدیریت یا نظارت گرافیکی و ساده بر خطوط پردازش داده
- امکان ایجاد خطوط پردازش داده
- نسخه‌دهی کدها و داده‌ها
- وجود یک کاتالوگ برای هر مجموعه داده شامل توضیحات کلی و شرح فیلدها
کِدرو، این نیازمندیها را با ایجاد یک فریمورک منظم برای تولید پروژه‌های علم داده به خوبی پاسخ می دهد.
کِدرو با اسپارک هم به خوبی کار میکند و می‌توانید مستقیما خطوط پردازش داده‌ای طراحی کنید که با اسپارک پردازش شوند.
آدرس پروژه :
https://lnkd.in/emjCUnU
یک مثال ساده :
https://lnkd.in/ekSnzeD
#datascience #kedro #datastandards