مهندسی داده
793 subscribers
112 photos
7 videos
24 files
315 links
BigData.ir کانال رسمی وب سایت
مطالبی راجع به مهندسی داده و طراحی زیرساخت‌های پردازش دیتا و ابزارهای مدرن دیتا
ارتباط با ادمین: @smbanaei
گروه تخصصی مهندسی داده 👇
https://t.iss.one/bigdata_ir_discussions2
کانال یوتیوب 👇
https://www.youtube.com/@irbigdata
Download Telegram
با هدف ایجاد ایمیج‌های پایه سبک و امن برای اجرای پروژه های مختلف برنامه‌نویسی به کمک داکر، پروژه ای توسط گوگل در حال انجام است با نام Distroless که اشاره به این نکته دارد که این ایمیج‌ها امکانات معمول سیستم‌عامل‌‌ها را ندارند و برای اجرای پروژه های نرم افزاری به صورت امن و سبک، آماده سازی شده اند.
https://github.com/GoogleContainerTools/distroless

A distroless image is a slimmed down Linux distribution image plus the application runtime, resulting in the minimum set of binary dependencies required for the application to run.
اگر برای برنامه‌های پایتون، جاوا، نود ، Go‌ یا دات‌نت خود به دنبال ایجاد ایمیج های داکر هستید این پروژه را هم زیر رادار خود داشته باشید . مقالات زیر هم در این حوزه قابل استفاده هستند :
https://medium.com/@luke_perry_dev/dockerizing-with-distroless-f3b84ae10f3a
https://hackernoon.com/distroless-containers-hype-or-true-value-2rfl3wat
https://betterprogramming.pub/how-to-harden-your-containers-with-distroless-docker-images-c2abd7c71fdb
بیانیه نه ماده‌ای مهندسی داده
👍2
مدیریت همکاری‌های علمی بین‌المللی دانشگاه یزد با همکاری مرکز تعاملات بین‌المللی علم و فناوری برگزار می‌کند.

📣 کارگاه آموزشی جناب آقای دکتر محمد دشتی، مهندس نرم‌افزار شرکت MongoDB، کانادا، با موضوع کنترل همروندی و ترمیم در پایگاه‌ داده‌های NoSQL؛


📌 روز پنج‌شنبه مورخ ۳ تیر ۱۴۰۰، ساعت ۸ تا ۱۲؛

📌 لینک ورود به این کارگاه به‌صورت زیر است:

🌐https://meeting-2.yazd.ac.ir/yazdisco

📌 جهت کسب اطلاعات بیشتر به لینک زیر مراجعه فرمائید:

🌐 https://yazd.ac.ir/4014-39-4877
Forwarded from عکس نگار
پروژه ای عملی که برای درس کلان‌داده دانشجویان تحصیلات تکمیلی طراحی کرده بودم را با دو راه حل نمونه و آدرس گیت هاب هر دو پروژه در اینجا به اشتراک می گذارم تا دوستانی که علاقه مند به کار عملی در حوزه مباحث زیرساختی داده هستند ،‌بتوانند از آنها استفاده کنند.
شرح کلی پروژه به این ترتیب است :
هدف از انجام پروژه نهایی درس کلان‌داده، آشنایی عملی با طراحی یک سامانه کاربردی پردازش داده بلادرنگ و مقیاس‌پذیر با استفاده از ابزار و کتابخانه‌های روز دنیا در حوزه بیگ دیتا است.
انتظار میرود پس از انجام این پروژه دیدی تجربی و شهودی نسبت به مفاهیم زیر پیدا کنید :
1 .صفهای توزیع شده و نقش محوری آنها در سامانه های نوین اطلاعاتی. (بخصوص کافکا)
2 .الستیک‌سرچ و قدرت و کارآیی فوق‌العاده آن در مدیریت‌داده‌های متنی و جیسان
3 .کاساندرا به‌ عنوان یک دیتابیس سطرگسترده مقیاس‌پذیر سهل‌الوصول و کارآمد
4 .اسپارک و سهولت‌پیاده‌سازی الگوریتمهای پیچیده یادگیری ماشین بر روی‌ حجم عظیم داده به کمک آن.
5 .سوپرست به عنوان یک ابزار دم‌دستی و کاربردی برای بصری سازی نتایج پردازش و ساخت داشبوردهای
تحلیلی
6 .دیتابیسهای تحلیلی ونقش آنها در تصمیمات مدیریتی سازمانی (کلیک‌هوس)
۷. ردیس و نقش آن به عنوان یک دیتابیس کاربردی مقیم در حافظه

پروژه را در ادامه می‌توانید با دو راه حل نمونه، با فرمت پی‌دی‌اف دانلود کنید.
👇👇👇👇👇
Forwarded from عکس نگار
کتاب‌های بسیار کمی در حوزه مهندسی داده در سالیان اخیر منتشر شده است و برای علاقه‌مندان این حوزه، عدم وجود منابع مناسب جزء‌ محدودیت‌های اصلی شروع کار در این زمینه رو به رشد است.

اخیراً انتشارات

Packt ‌

کتابی با عنوان

Data Engineering With Python

منتشر کرده است که مباحث مختلفی با محوریت

Apache Nifi‌

و به صورت کاملا عملی و کاربردی، در آن مطرح شده است .

در این کتاب با مطالب زیر آشنا خواهید شد :

- پایتون و نحوه کار با داده‌ها در پایتون .

- آپاچی نایفای

- پستگرس

- الستیک سرچ

- آپاچی ایرفلو

- Greate Expectations

- اسپارک

- مانیتورینگ و مدیریت خطاها

- آپاچی کافکا

هر چند مباحث زیادی هم در این کتاب مطرح نشده است -مانند انواع روشهای

ETL،

دیتابیس‌های تحلیلی، خط فرمان لینوکس و داکر ، …. - اما نقطه شروع مناسبی در حوزه یادگیری مهندسی داده است .

برای دانلود نسخه EPUB این کتاب به لینک زیر مراجعه کنید
https://jp.b-ok.as/book/6100128/e54687
فایل الکترونیکی مهندسی داده با پایتون که با نرم افزارهایی مانند Calibre قابل مشاهده است
https://calibre-ebook.com/download
👆👆👆👆👆👆
DATA ENGINEERING WITH PYTHON_ W - Paul. Crickard.epub
29.6 MB
کتاب مهندسی داده با پایتون
👍1
Forwarded from دیتاهاب
درود
داستان از اونجا شروع شد که یک متخصص امنیت و یک متخصص دیتاساینس تصمیم گرفتن آخر هفته‌ی خودشون رو با هم بگذرونند! ایده اصلی این بود که بینیم چندتا حالت محتمل برای کد ملی وجود داره و ازشون Rainbow Table بسازیم. اینطوری کد‌ملی ایرانی هایی که حتی متولد هم نشدند رو میتونیم داشته باشیم و اگر کسی (خدایی نکرده!) پسوردش رو کد ملیش انتخاب کرده باشه به راحتی پسوردش شکسته می‌شه.
https://vrgl.ir/m5FOE

@data_hub_ir
Forwarded from عکس نگار
چند ماه پیش به عنوان یک کار جنبی سعی کردم بررسی سریعی روی چند دیتابیس مطرح حوزه تحلیل داده‌ها در حجم کلان یعنی کلیک‌هوس، آپاچی دروید و آپاچی پینوت انجام بدهم و با محوریت پستگرس به عنوان راه حل فعلی، میزان بهبود حاصل از جایگزینی این دیتابیس عملیاتی محبوب با نمونه های تحلیلی و نوین این حوزه را به صورت عملی اندازه گیری کنم.
گزارش زیر حاصل این تلاش برای بررسی سریع (برای یک بررسی جامع باید مسایل زیادی در نظر گرفته شود ) این سه دیتابیس است که سعی کرده ام تمام مراحل نصب و راه اندازی و طراجی جداول و اجرای کوئری ها در هر کدام از آنها را با جزییات توضیح بدهم.
امیدوارم این گزارش فنی ، برای علاقه مندان مفید باشد .
👇👇👇👇
مدرسه تکمیلی دانشکده مهندسی و علوم کامپیوتر دانشگاه شهید بهشتی با همکاری سحاب (sahab.ir) برگزار می‌کند:

دوره ۴۵ ساعته مهندسی داده به همراه پروژه های عملی

📝سرفصل‌های دوره:

- مفاهیم مهندسی داده
- ذخیره‌سازی و بازیابی داده توزیع شده
- پردازش دسته‌ای و جویباری
- کار عملی با ابزارهای HBase / MapReduce / Spark / HDFS / Kafka

👤مدرسین:
سید محمد غفاریان، دکترای مهندسی کامپیوتر از دانشگاه صنعتی امیرکبیر

مهدی صفرنژاد، دکترای مهندسی کامپیوتر از دانشگاه صنعتی شریف

محمدحمزه‌ئی، دکترای مهندسی کامپیوتر از دانشگاه علم و صنعت ایران

زمان:
چهارشنبه‌ها ساعت ۱۵:۰۰ الی ۱۸:۰۰ شروع از ۷ مهرماه

ثبت‌نام:
در سامانه انتخاب واحد گلستان همزمان با انتخاب واحد

*امکان اخذ درس به طور اختیاری برای دانشجویان سایر دانشکده های دانشگاه شهید بهشتی نیز فراهم است.

#BigData #Java #Spark
👍2
علاقه مندان حوزه مهندسی داده و مباحث زیرساختی پردازش و طراحی خطوط انتقال داده که روز بروز بر تعداد آنها افزوده میشود، از کمبود منابع آموزشی مناسب در این خصوص گله مند هستند و این کمبود را مانعی جدی در شروع به کار حرفه ای در این مسیر شغلی می دانند.
هر چند به نوبه خودم سعی کردم با طراحی و برگزاری دوره مهندسی داده با همکاری موسسه وزین نیک آموز، تا حدودی این کمبود در منابع فارسی را جبران کنم اما مطمئنا برای پیدا کردن تسلط نسبی از طریق انجام پروژه های متنوع و نیز احترام گذاشتن به سلایق افراد مختلف در این حوزه، نیاز خواهیم داشت که منابع آموزشی متنوع و با کیفیتی در دسترس مشتاقان مهندسی داده قرار داشته باشد .

در چند سال گذشته و بخصوص در یکسال اخیر، دوره های آموزشی مهندسی داده را دنیا رصد کرده ام و تنها دوره ای که از لحاظ جامعیت، سبک و پلتفرم ارائه، توجه بنده را به خودش جلب کرده است دوره مهندسی داده وب سایت معروف کورسرا است که با حمایت یکی از قدیمی ترین غول های فناوری اطلاعات آمریکا یعنی IBM ارائه میشود.
https://www.coursera.org/professional-certificates/ibm-data-engineer

این دوره که خود از سیزده کورس مختلف آموزشی تشکیل شده است، با شروع از پایتون و کار با دیتابیس های رابطه ای، به صورت پایه ای به آموزش مفاهیم مورد نیاز مهندسین داده می پردازد . دوره های آموزشی مندرج در این برنامه از قرار زیر هستند :

مقدمه ای بر مهندسی داده
پایتون برای علم داده، یادگیری ماشین و توسعه نرم افزار
پروژه پایتون برای مهندسی داده
مقدمه ای بر بانکهای اطلاعاتی رابطه ای
دیتابیس و SQL برای علم داده (پایتون)
مقدمه ای بر دیتابیس های NoSQL
مقدمه ای بر بیگ دیتا – آشنایی با هدوپ و اسپارک
مهندسی داده و یادگیری ماشین با اسپارک
مقدمه ای بر دستورات لینوکس و اسکریپت نویسی خط فرمان
مدیریت دیتابیس های رابطه ای
ای تی ال(ETL) و خطوط انتقال داده به کمک کافکا و ایرفلو
شروع کار با انباره های داده
پروژه نهایی
همانطور که می بینید سرفصل بسیار جامع و کاملی دارد و غیر از مسایلی مانند مدیریت لاگ و داده های Observability و دیتابیس های تحلیلی نوین مثل دروید، پینوت و کلیک هوس، سایر مباحث دوره ، مسایل اساسی حوزه مهندسی داده را پوشش میدهد.

شرکت در این دوره ها رایگان است (البته هنگام Enrolment یا ثبت نام باید گزینه Audit را انتخاب کنید ) اما امکانات کامل این وب سایت آموزشی مانند دادن گواهینامه و یا تصحیح تمرینات، نیاز به پرداخت هزینه خواهد داشت. البته می توانید درخواست حمایت مالی بدهید و دوره ها را به صورت کاملا رایگان و با تمام امکانات، دریافت کنید که در یوتیوب فارسی، چندین فیلم مختلف در رابطه با نحوه دریافت این کمک های مالی خواهید یافت.
👍2
چندی پیش وقتی گزارش Oreilly راجع به دستمزدها و پرداختی های حوزه پردازش داده/هوش مصنوعی را بررسی می کردم در بخش کتابخانه های پایتون که آشنایی با آنها بیشترین درآمد را برای متخصصین این حوزه به همراه دارد، به کتابخانه Ray برخوردم که حقوق متوسط ۱۹۰ هزار دلاری برای آن، وسوسه انگیز به نظر میرسید و نشان میداد که بازار به این پروژه متن باز نیاز دارد. اما اینکه دقیقا چه مشکلی را این کتابخانه حل کرده است در نگاه نخست، به چشمم نیامد.

با بررسی اولیه این پروژه که کتابخانه های آن برای پایتون، جاوا و ++C در دسترس است، متوجه شدم که هدف اصلی آن، اجرای توزیع شده کدهای مرتبط با پردازش داده و بویژه انجام کارهای یادگیری ماشین بر این مبناست.

با توجه به وجود چارچوب های به نسبت جاافتاده و قدیمی این حوزه مانند اسپارک و فلینک، رواج یک فریمورک جدید و آن هم در این سطح، کمی برایم تعجب آور بود. با بررسی مثالهای موجود در مستندات رسمی Ray، دلیل اصلی این محبوبیت (البته از نقطه نظر بنده) را یافتم. با توجه به اینکه در آینده ای نزدیک از این کتابخانه، در ادبیات حوزه پردازش داده زیاد خواهید شنید، تصمیم گرفتم این تجربه را با شما هم اشتراک بگذارم.

اگر با اسپارک و هدوپ آشنا باشید، میدانید که این دو فریمورک پردازش توزیع شده داده ها که اولی جزء اصلی ترین بازیگران این حوزه هم محسوب می شود، علیرغم امکانات فراوان و سرعتی که با خود به همراه می آورند، یک ضعف بزرگ دارند و آن هم این است که باید برنامه های موجود خود را با استانداردهای آنها تطبیق دهید یعنی به سبک آنها کدنویسی کنید. قدم اول هم در این راستا، این است که توسعه دهندگان شما با اسپارک (یا فلینک یا آپاچی بیم) و نحوه برنامه نویسی با آن، آشنا شوند که این موضوع، خود مانعی بزرگ برای تیم های مختلفی است که فرصت آموزش یا نیروی ماهرِ آشنا به مباحث پردازش توزیع شده داده ها را ندارند.

فریمورک Ray این مانع را به درستی تشخیص داده است و دلیل محبوبیت و رواج آن هم به نظرم، همین نکته کلیدی است.

Ray به شما اجازه میدهد همان سبک برنامه نویسی معمولی خود را ادامه دهید و فقط با اضافه کردن یک خط کد در ابتدای تعریف تابع یا کلاس (از طریق دکوراتورها)و یک تغییر کوچک در هنگام فراخوانی این توابع، آنها را برای شما به صورت توزیع شده اجرا کند و نتیجه را به شما برگرداند.
--------------------------------------

اگر به این موضوع علاقه مند شدید، ادامه مقاله را می توانید در وب سایت مهندسی داده در لینک زیر،‌پیگیری کنید
yun.ir/mqf6ge

#مهندسی_داده #RAY #پردازش_توزیع_شده
👍3
کارگاه یکساعته ای را برای معرفی و کار با دیتابیس تحلیلی آپاچی دروید به میزبانی موسسه نیک آموز به مناسبت یلدای ۱۴۰۰ برگزار کرده ام که فیلم این کارگاه در سه قسمت (معرفی / کارگاه عملی / پرسش و پاسخ ) تدوین و آماده استفاده علاقه مندان گردیده است.
اگر به این حوزه علاقه مند هستید میتوانید بعد از مشاهده این کارگاه یکساعته (سعی کرده ام خیلی خلاصه و مختصر آنرا برگزار کنم ) که لینک دو بخش ابتدایی آنرا در بالا مشاهده میکنید، فایلهای کارگاه شامل کدهای پایتون تولید داده های فیک در کافکا و داکر کامپوز مربوطه را از آدرس زیر دریافت و خودتان به کار با این دیتابیس آینده دار بپردازید :
https://github.com/irbigdata/workshops
👍7