مهندسی داده
793 subscribers
112 photos
7 videos
24 files
315 links
BigData.ir کانال رسمی وب سایت
مطالبی راجع به مهندسی داده و طراحی زیرساخت‌های پردازش دیتا و ابزارهای مدرن دیتا
ارتباط با ادمین: @smbanaei
گروه تخصصی مهندسی داده 👇
https://t.iss.one/bigdata_ir_discussions2
کانال یوتیوب 👇
https://www.youtube.com/@irbigdata
Download Telegram
Forwarded from عکس نگار
🎬🎬 💢 ویدئوی هفته 💢 🎬🎬

معماری سرویس‌گرا در دنیای نرم افزار، به یک معماری مورد پذیرش و منطبق با نیازمندیهای جاری این صنعت تبدیل شده است. در دنیای مهندسی داده (طراحی و مدیریت زیرساخت‌های پردازش داده) اما فعلا روال کار غالب، برعکس این رویه است یعنی به دنبال تشکیل تیم‌های مهندسی داده در شرکتها، اولین اقدامی که معمولا انجام میشود یکپارچه کردن مباحث مدیریت داده در یک سازمان از تشکیل دریاچه داده گرفته تا ساخت پایپ‌لاین‌های پردازش داده و پایش متمرکز دیتابیس‌های مختلف به کار رفته در سازمان است.
اما آنچه در دنیای پرجنب و جوش سامانه‌های اطلاعاتی مدرن و مهندسی داده در دنیا همراستا با تحولات مهندسی نرم‌افزار در حال رخ‌دادن است، حرکت به سمت سامانه‌های مدیریت داده جزیره‌ای و غیرمتمرکز است. به گونه‌ای که به تدریج شاهد یک پارادایم شیفت (تغییر مبانی) در این حوزه خواهیم بود و سازمان‌ها از ایجاد یک تیم یکپارچه مهندسی داده که مدیریت یک سامانه متمرکز اطلاعاتی را به عهده دارد به سمت تیم‌های غیرمتمرکز و جزیره‌های داده خودگران و توزیع شده حرکت خواهند کرد.
این تغییر اصول و مبانی یعنی تجزیه سازمان به Data Node‌ های جزیره‌ای خودگردان، تحولات بنیادین زیادی را در حوزه زیرساخت‌های داده در سالیان آتی با خود به همراه خواهد آورد. مفهومی که با نام جزایر داده یا Data Mesh‌ شناخته می شود و در آینده آنرا به کرات خواهید شنید. البته اگر پیگیر اخبار مهندسی نرم‌افزار باشید می‌دانید که اصطلاح Service Mesh‌ سالهاست که رایج شده و به بلوغ کافی رسیده است و جزایر داده هم با ایده گرفتن از آن، برای مدیریت داده‌ها با ساز و کارهای خاص خود، پیشنهاد شده است.
این اصطلاح که اولین بار توسط خانم ژامک دهقانی در سایت معروف و مرجع آقای مارتین فاولر (از زمان دانشجویی در حدود سال 2000 -1380- که دانشجوی دکتر رامتین خسروی در درس طراحی‌ سیستم‌‌های شی‌گرا بودم با این سایت آشنا شدم) با مقاله How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com) معرفی شد،‌ امروزه در حال تبدیل شدن به یک استاندارد معتبر در طراحی سامانه‌های اطلاعاتی کلان و داده محور است.
جزییات این معماری را در دو مقاله‌ای که خانم دهقانی در وب‌سایت مارتین‌فاولر منتشر کرده است می‌توانید مشاهده کنید اما اگر قصد آشنایی با این معماری با توضیحات خود خانم دهقانی را دارید، توصیه می‌کنم ویدئوی زیر را تماشا کنید :
https://www.infoq.com/presentations/data-mesh-paradigm/
با ماه همراه باشید .
لینک کانال مهندسی داده :
https://t.iss.one/bigdata_ir
🎯‌ آگهی آموزشی 📍
به استحضار می رساند، دوره آموزشی کوتاه مدت کاربردی و عملی:

بکارگیری Spark و Python در کلان داده (داده های حجیم) به مدت 16 ساعت در 4 جلسه (به صورت آنلاین- کاربردی و پروژه محور) توسط واحد فناورگروه آموزشی برناک مستقر در مرکز نوآوری آب و آینه در روز های پنج شنبه تا جمعه 13، 14، 20 و 21 خرداد ماه 1400 از ساعت 16 تا 20 (به صورت غیر حضوری) برگزار خواهد شد. با فراگیری این تکنولوژی جدید در علم داده امکان تجزیه و تحلیل کلان داده در کلیه زمینه های علوم که دارای داده های حجیم و بزرگ هستند، میسر می شود.

علاقمندانی که با زبان برنامه نویسی پایتون آشنایی ندارند پس از ثبت نام در یکی از دوره های آموزشی می توانند به صورت رایگان در آموزش این زبان برنامه نویسی پیش از شروع کارگاه آموزشی مورد نظرشان شرکت کنند.

لذا خواهشمند است، این رویداد علمی کاربردی را به دانشجویان و یا کارکنان ذی ربط ارسال فرمایید. لینک ورود به کلاس آنلاین پس از ثبت‏ نام به ایمیل شرکت کننده ارسال می گردد. لطفا جهت ثبت نام به سایت bornaktraininggroup.ir مراجعه بفرمایید.

کد تخفیف جهت علاقمندان: earlyregistration1400

با تشکر و احترام مجدد

مریم السادات حجازی

دکتری تخصصی کامپیوتر-گرایش مهندسی سیستم های هوشمند
در این نوشتار به بررسی اجمالی معماری سرورلس و تجربه ای که از پیاده سازی این معماری با آژور کسب شده است، پرداخته ام. هر چند فراهم نبودن بستر رایانش ابری مناسب برای پیاده سازی سرورلس در ایران،‌ ممکن است استفاده عملی از آنرا برای شرکتها به تاخیر بیندازد اما آشنایی با آن وامکاناتی که در دنیا در حوزه تولید برنامه‌های مقیاس‌پذیر در اختیار توسعه‌دهندگان و معماران سامانه‌های اطلاعاتی وجود دارد،‌ می‌تواند دید مناسبی از این حوزه به خوانندگان بدهد.
yun.ir/z62hbg
👍1
با هدف ایجاد ایمیج‌های پایه سبک و امن برای اجرای پروژه های مختلف برنامه‌نویسی به کمک داکر، پروژه ای توسط گوگل در حال انجام است با نام Distroless که اشاره به این نکته دارد که این ایمیج‌ها امکانات معمول سیستم‌عامل‌‌ها را ندارند و برای اجرای پروژه های نرم افزاری به صورت امن و سبک، آماده سازی شده اند.
https://github.com/GoogleContainerTools/distroless

A distroless image is a slimmed down Linux distribution image plus the application runtime, resulting in the minimum set of binary dependencies required for the application to run.
اگر برای برنامه‌های پایتون، جاوا، نود ، Go‌ یا دات‌نت خود به دنبال ایجاد ایمیج های داکر هستید این پروژه را هم زیر رادار خود داشته باشید . مقالات زیر هم در این حوزه قابل استفاده هستند :
https://medium.com/@luke_perry_dev/dockerizing-with-distroless-f3b84ae10f3a
https://hackernoon.com/distroless-containers-hype-or-true-value-2rfl3wat
https://betterprogramming.pub/how-to-harden-your-containers-with-distroless-docker-images-c2abd7c71fdb
بیانیه نه ماده‌ای مهندسی داده
👍2
مدیریت همکاری‌های علمی بین‌المللی دانشگاه یزد با همکاری مرکز تعاملات بین‌المللی علم و فناوری برگزار می‌کند.

📣 کارگاه آموزشی جناب آقای دکتر محمد دشتی، مهندس نرم‌افزار شرکت MongoDB، کانادا، با موضوع کنترل همروندی و ترمیم در پایگاه‌ داده‌های NoSQL؛


📌 روز پنج‌شنبه مورخ ۳ تیر ۱۴۰۰، ساعت ۸ تا ۱۲؛

📌 لینک ورود به این کارگاه به‌صورت زیر است:

🌐https://meeting-2.yazd.ac.ir/yazdisco

📌 جهت کسب اطلاعات بیشتر به لینک زیر مراجعه فرمائید:

🌐 https://yazd.ac.ir/4014-39-4877
Forwarded from عکس نگار
پروژه ای عملی که برای درس کلان‌داده دانشجویان تحصیلات تکمیلی طراحی کرده بودم را با دو راه حل نمونه و آدرس گیت هاب هر دو پروژه در اینجا به اشتراک می گذارم تا دوستانی که علاقه مند به کار عملی در حوزه مباحث زیرساختی داده هستند ،‌بتوانند از آنها استفاده کنند.
شرح کلی پروژه به این ترتیب است :
هدف از انجام پروژه نهایی درس کلان‌داده، آشنایی عملی با طراحی یک سامانه کاربردی پردازش داده بلادرنگ و مقیاس‌پذیر با استفاده از ابزار و کتابخانه‌های روز دنیا در حوزه بیگ دیتا است.
انتظار میرود پس از انجام این پروژه دیدی تجربی و شهودی نسبت به مفاهیم زیر پیدا کنید :
1 .صفهای توزیع شده و نقش محوری آنها در سامانه های نوین اطلاعاتی. (بخصوص کافکا)
2 .الستیک‌سرچ و قدرت و کارآیی فوق‌العاده آن در مدیریت‌داده‌های متنی و جیسان
3 .کاساندرا به‌ عنوان یک دیتابیس سطرگسترده مقیاس‌پذیر سهل‌الوصول و کارآمد
4 .اسپارک و سهولت‌پیاده‌سازی الگوریتمهای پیچیده یادگیری ماشین بر روی‌ حجم عظیم داده به کمک آن.
5 .سوپرست به عنوان یک ابزار دم‌دستی و کاربردی برای بصری سازی نتایج پردازش و ساخت داشبوردهای
تحلیلی
6 .دیتابیسهای تحلیلی ونقش آنها در تصمیمات مدیریتی سازمانی (کلیک‌هوس)
۷. ردیس و نقش آن به عنوان یک دیتابیس کاربردی مقیم در حافظه

پروژه را در ادامه می‌توانید با دو راه حل نمونه، با فرمت پی‌دی‌اف دانلود کنید.
👇👇👇👇👇
Forwarded from عکس نگار
کتاب‌های بسیار کمی در حوزه مهندسی داده در سالیان اخیر منتشر شده است و برای علاقه‌مندان این حوزه، عدم وجود منابع مناسب جزء‌ محدودیت‌های اصلی شروع کار در این زمینه رو به رشد است.

اخیراً انتشارات

Packt ‌

کتابی با عنوان

Data Engineering With Python

منتشر کرده است که مباحث مختلفی با محوریت

Apache Nifi‌

و به صورت کاملا عملی و کاربردی، در آن مطرح شده است .

در این کتاب با مطالب زیر آشنا خواهید شد :

- پایتون و نحوه کار با داده‌ها در پایتون .

- آپاچی نایفای

- پستگرس

- الستیک سرچ

- آپاچی ایرفلو

- Greate Expectations

- اسپارک

- مانیتورینگ و مدیریت خطاها

- آپاچی کافکا

هر چند مباحث زیادی هم در این کتاب مطرح نشده است -مانند انواع روشهای

ETL،

دیتابیس‌های تحلیلی، خط فرمان لینوکس و داکر ، …. - اما نقطه شروع مناسبی در حوزه یادگیری مهندسی داده است .

برای دانلود نسخه EPUB این کتاب به لینک زیر مراجعه کنید
https://jp.b-ok.as/book/6100128/e54687
فایل الکترونیکی مهندسی داده با پایتون که با نرم افزارهایی مانند Calibre قابل مشاهده است
https://calibre-ebook.com/download
👆👆👆👆👆👆
DATA ENGINEERING WITH PYTHON_ W - Paul. Crickard.epub
29.6 MB
کتاب مهندسی داده با پایتون
👍1
Forwarded from دیتاهاب
درود
داستان از اونجا شروع شد که یک متخصص امنیت و یک متخصص دیتاساینس تصمیم گرفتن آخر هفته‌ی خودشون رو با هم بگذرونند! ایده اصلی این بود که بینیم چندتا حالت محتمل برای کد ملی وجود داره و ازشون Rainbow Table بسازیم. اینطوری کد‌ملی ایرانی هایی که حتی متولد هم نشدند رو میتونیم داشته باشیم و اگر کسی (خدایی نکرده!) پسوردش رو کد ملیش انتخاب کرده باشه به راحتی پسوردش شکسته می‌شه.
https://vrgl.ir/m5FOE

@data_hub_ir
Forwarded from عکس نگار
چند ماه پیش به عنوان یک کار جنبی سعی کردم بررسی سریعی روی چند دیتابیس مطرح حوزه تحلیل داده‌ها در حجم کلان یعنی کلیک‌هوس، آپاچی دروید و آپاچی پینوت انجام بدهم و با محوریت پستگرس به عنوان راه حل فعلی، میزان بهبود حاصل از جایگزینی این دیتابیس عملیاتی محبوب با نمونه های تحلیلی و نوین این حوزه را به صورت عملی اندازه گیری کنم.
گزارش زیر حاصل این تلاش برای بررسی سریع (برای یک بررسی جامع باید مسایل زیادی در نظر گرفته شود ) این سه دیتابیس است که سعی کرده ام تمام مراحل نصب و راه اندازی و طراجی جداول و اجرای کوئری ها در هر کدام از آنها را با جزییات توضیح بدهم.
امیدوارم این گزارش فنی ، برای علاقه مندان مفید باشد .
👇👇👇👇
مدرسه تکمیلی دانشکده مهندسی و علوم کامپیوتر دانشگاه شهید بهشتی با همکاری سحاب (sahab.ir) برگزار می‌کند:

دوره ۴۵ ساعته مهندسی داده به همراه پروژه های عملی

📝سرفصل‌های دوره:

- مفاهیم مهندسی داده
- ذخیره‌سازی و بازیابی داده توزیع شده
- پردازش دسته‌ای و جویباری
- کار عملی با ابزارهای HBase / MapReduce / Spark / HDFS / Kafka

👤مدرسین:
سید محمد غفاریان، دکترای مهندسی کامپیوتر از دانشگاه صنعتی امیرکبیر

مهدی صفرنژاد، دکترای مهندسی کامپیوتر از دانشگاه صنعتی شریف

محمدحمزه‌ئی، دکترای مهندسی کامپیوتر از دانشگاه علم و صنعت ایران

زمان:
چهارشنبه‌ها ساعت ۱۵:۰۰ الی ۱۸:۰۰ شروع از ۷ مهرماه

ثبت‌نام:
در سامانه انتخاب واحد گلستان همزمان با انتخاب واحد

*امکان اخذ درس به طور اختیاری برای دانشجویان سایر دانشکده های دانشگاه شهید بهشتی نیز فراهم است.

#BigData #Java #Spark
👍2
علاقه مندان حوزه مهندسی داده و مباحث زیرساختی پردازش و طراحی خطوط انتقال داده که روز بروز بر تعداد آنها افزوده میشود، از کمبود منابع آموزشی مناسب در این خصوص گله مند هستند و این کمبود را مانعی جدی در شروع به کار حرفه ای در این مسیر شغلی می دانند.
هر چند به نوبه خودم سعی کردم با طراحی و برگزاری دوره مهندسی داده با همکاری موسسه وزین نیک آموز، تا حدودی این کمبود در منابع فارسی را جبران کنم اما مطمئنا برای پیدا کردن تسلط نسبی از طریق انجام پروژه های متنوع و نیز احترام گذاشتن به سلایق افراد مختلف در این حوزه، نیاز خواهیم داشت که منابع آموزشی متنوع و با کیفیتی در دسترس مشتاقان مهندسی داده قرار داشته باشد .

در چند سال گذشته و بخصوص در یکسال اخیر، دوره های آموزشی مهندسی داده را دنیا رصد کرده ام و تنها دوره ای که از لحاظ جامعیت، سبک و پلتفرم ارائه، توجه بنده را به خودش جلب کرده است دوره مهندسی داده وب سایت معروف کورسرا است که با حمایت یکی از قدیمی ترین غول های فناوری اطلاعات آمریکا یعنی IBM ارائه میشود.
https://www.coursera.org/professional-certificates/ibm-data-engineer

این دوره که خود از سیزده کورس مختلف آموزشی تشکیل شده است، با شروع از پایتون و کار با دیتابیس های رابطه ای، به صورت پایه ای به آموزش مفاهیم مورد نیاز مهندسین داده می پردازد . دوره های آموزشی مندرج در این برنامه از قرار زیر هستند :

مقدمه ای بر مهندسی داده
پایتون برای علم داده، یادگیری ماشین و توسعه نرم افزار
پروژه پایتون برای مهندسی داده
مقدمه ای بر بانکهای اطلاعاتی رابطه ای
دیتابیس و SQL برای علم داده (پایتون)
مقدمه ای بر دیتابیس های NoSQL
مقدمه ای بر بیگ دیتا – آشنایی با هدوپ و اسپارک
مهندسی داده و یادگیری ماشین با اسپارک
مقدمه ای بر دستورات لینوکس و اسکریپت نویسی خط فرمان
مدیریت دیتابیس های رابطه ای
ای تی ال(ETL) و خطوط انتقال داده به کمک کافکا و ایرفلو
شروع کار با انباره های داده
پروژه نهایی
همانطور که می بینید سرفصل بسیار جامع و کاملی دارد و غیر از مسایلی مانند مدیریت لاگ و داده های Observability و دیتابیس های تحلیلی نوین مثل دروید، پینوت و کلیک هوس، سایر مباحث دوره ، مسایل اساسی حوزه مهندسی داده را پوشش میدهد.

شرکت در این دوره ها رایگان است (البته هنگام Enrolment یا ثبت نام باید گزینه Audit را انتخاب کنید ) اما امکانات کامل این وب سایت آموزشی مانند دادن گواهینامه و یا تصحیح تمرینات، نیاز به پرداخت هزینه خواهد داشت. البته می توانید درخواست حمایت مالی بدهید و دوره ها را به صورت کاملا رایگان و با تمام امکانات، دریافت کنید که در یوتیوب فارسی، چندین فیلم مختلف در رابطه با نحوه دریافت این کمک های مالی خواهید یافت.
👍2