مهندسی داده

سلام
آگهی استخدام دو مهندس داده در تخفیفان .

https://www.linkedin.com/feed/update/urn%3Ali%3Aactivity%3A6786656054852755456/
#آگهی_استخدام
#مهندس_داده
#تخفیفان

LinkedIn Login, Sign in | LinkedIn

407 views22:07

مهندسی داده

در صورت نیاز به اشتراک گذاری مطالب مفید حوزه مهندسی و زیرساخت داده، آگهی های استخدام و آگهی های تجاری مرتبط ، کافیست با اکانت ادمین کانال مهندسی داده،
@smbanaei
در ارتباط باشید تا به رایگان در کانال منتشر شود .
دلیل عمومی نکردن کانال و عدم تبدیل آن به گروه هم تخصصی نگه داشتن کانال و نظارت بر محتوای آن در جهت احترام به وقت دنبال کنندگان این کانال است .
گروهی مجزا برای بحث و تبادل نظر در خصوص مطالب مرتبط با مهندسی داده، تشکیل داده‌ایم که میتوانید در صورت تمایل، از آن گروه برای پرسیدن سوال و اشتراک مطالب مفید استفاده کنید 👇👇👇
https://t.iss.one/joinchat/TjHYE4Lfrc1jZWVk

477 views22:34

مهندسی داده

🎬 💢 ویدئوی هفته 💢 🎬

اگر فرصت کافی برای مشاهده ویدئوهای تخصصی در حوزه مهندسی دارید، به صورت هفتگی یک ویدئوی مرتبط در این حوزه، معرفی خواهد شد.
برای این هفته، ویدئوی آقای رابرت چَنگ با عنوان «اکوسیستم مهندسی داده در سال 2021»
The Data Engineering Landscape in 2021
را برای علاقه‌مندان در نظر گرفته ایم .
لینک ویدئو :

https://www.dideo.ir/v/yt/D0Z6ZsNNeJs/the-data-engineering-landscape-in-2021-talk
در این ویدئو، آقای چنگ به مرور مطالب و ابزارهای زیر می پردازد :
Wally - https://github.com/WallarooLabs/wally
lakeFS - https://lakefs.io/
Podcast Init - https://www.pythonpodcast.com/
Data Engineering Podcast - https://www.dataengineeringpodcast.com/
Airflow - https://airflow.apache.org/
Dagster - https://dagster.io/
Prefect - https://www.prefect.io/
Talk Python joint episode - https://talkpython.fm/episodes/show/68/crossing-the-streams-with-podcast.-init
dbt - https://www.getdbt.com/
Great Expectations - https://github.com/great-expectations/great_expectations
Dask - https://dask.org/
Meltano - https://meltano.com/
DVC - https://dvc.org/
Pandas - https://pandas.pydata.org/
برخی از این ابزارهای مانند گریت‌اکسپکتیشنز، دگستر، ایرفلو، ملتانو و دی‌بی‌تی جزء ابزارهایی هستند که در آینده از آنها زیاد خواهید شنید و اگر با آنها آشنا نیسیتد توصیه میکنم توصیف آقای چنگ از این ابزارها را حتما ببینید .
ًRobert Chang : https://medium.com/@rchang
#ویدئوی_هفته #مهندسی_داده #ابزارهای_مهندسی_داده

👍1

811 viewsedited 14:55

مهندسی داده

Forwarded from Mohammad F

https://virgool.io/@m.fatehi.p/%D8%A7%D8%AA%D8%B5%D8%A7%D9%84-%D8%A8%D9%87-%D9%BE%D8%A7%DB%8C%DA%AF%D8%A7%D9%87-%D8%AF%D8%A7%D8%AF%D9%87-%D8%A7%D9%88%D8%B1%D8%A7%DA%A9%D9%84-%D8%AF%D8%B1-pyspark-p9vmrh3syn3h

ویرگول

اتصال به پایگاه داده اوراکل در PySpark

411 views16:51

مهندسی داده

🎬🎬 💢 ویدئوی هفته 💢 🎬🎬

برای این هفته، ویدئوی آقای کریس ریکامینی با عنوان «آینده مهندسی داده»
Future of Data Engineering
که در سال 2019 (آذر ماه 1398) در کنفرانس QCon ارائه شده است را برای علاقه‌مندان حوزه مهندسی داده در نظر گرفته ایم .
🎥 :
https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/
آقای ریکامینی که در حال حاضر عضو کمیته مدیریتی پروژه آپاچی ایرفلو است و سابقه توسعه آپاچی استورم (یکی از قدیمی ترین فریمورک های پردازش جریان‌های داده ) و کار در لینکدین و Wepay را در کارنامه خود دارد، در این ویدئو به بیان شش مرحله بلوغ مهندسی داده در یک سازمان با بررسی موردی شرکت WePay‌ می پردازد که می‌تواند مرجع مناسبی برای بررسی سیر تحول مهندسی داده در یک شرکت
باشد.
لینک ویدئو :

📹 : https://www.dideo.ir/v/yt/ZZr9oE4Oa5U/future-of-data-engineering

در این ویدئو، آقای ریکامینی به مرور شش مرحله زیر در یک سازمان با محوریت شرکت WePay‌ می پردازد :

Step 0 : None
Step 1 : Batch Processing
Step 2 : Real Time Processing
Step 3 : Integration
Step 4 : Automation
Step 5 : Decentralization
و با بیان تجربیات به دست آمده در ساخت یک خط پردازش داده متمرکز و استفاده از دیتابیس‌های مختلف مانند مای‌اس‌کیوال، کاساندرا و ابزاری مانند دبزیوم ، مسایل و مشکلاتی که در هر مرحله برای یک شرکت پیش خواهد آمد را مرور کرده و نهایتا به مفهومی می رسد که امروزه با نام
Data Mesh
در حوزه زیرساخت داده مطرح و روز به روز بر ضرورت استفاده از آن در سازمان‌های داده محور بزرگ تاکید میشود.
مشاهده این ویدئوی ارزشمند را به دوستانی که به دنبال پیاده سازی یک معماری نوین برای زیرساخت داده یک سازمان هستند، پیشنهاد میکنم.

Chris Riccomini :
https://cnr.sh
https://www.linkedin.com/in/riccomini/

#ویدئوی_هفته #مهندسی_داده #ابزارهای_مهندسی_داده

InfoQ

Future of Data Engineering

Chris Riccomini talks about the current state-of-the-art in data pipelines and data warehousing, and shares some of the solutions to current problems dealing with data streaming and warehousing.

745 viewsedited 13:16

مهندسی داده

Forwarded from اتچ بات

‍ سایت آموزشی معروف DataCamp تا پایان آوریل یعنی تا فرداشب، استفاده از تمامی امکانات آموزشی خود را به رایگان در اختیار علاقه مندان گذاشته است.
https://datacamp.com

توصیه میکنم اگر فرصت کافی در اختیار دارید ، در دوره دو ساعته مهندسی داده این سایت که به کمک یازده ویدئو و ۳۲ تمرین عملی، شما را با مفاهیم اصلی این حوزه نوین از پردازش داده آشنا می کند، حتما شرکت کنید.
مروری بر مفاهیم پایه مهندسی داده و تفاوت آن با دانشمند داده ، نحوه ذخیره داده ها با SQL‌ و ایجاد یک خط پردازش داده به کمک Singer از جمله مطالبی است که در این دوره کوتاه آموزش داده میشود.
https://www.datacamp.com/courses/data-engineering-for-everyone

attach 📎

523 views06:59

مهندسی داده

Forwarded from عکس نگار

‍ 🔭📚 معرفی کتاب 📚🔭
یکی از نرم افزارهایی که محبوبیت زیادی در حوزه پردازش و تحلیل داده در سالیان اخیر به دست آورده است نرم افزار PrestoDB‌ است که به اختصار، پرستو نامیده میشود.
این نرم افزار که توسط فیس بوک توسعه و بعدا به عنوان یک نرم افزار متن باز به دنیا معرفی شده است، بعد از اختلافاتی که بین تیم اصلی توسعه آن که حمایت فیس بوک را با خود داشت و طرفداران دنیای نرم افزارهای متن‌باز که تمایل داشتند کاملا مستقل عمل کنند و وابسته به فیس بوک نباشند، نسخه کاملا متن‌باز آن با نام PrestoSQL‌ با جداشدن از پروژه اصلی متولد شد که اخیرا به Trino‌ تغییر نام داد.
به کمک ترینو یا پرستو، شما میتوانید روی هر منبع داده‌ای، کوئری های SQL‌ اجرا کنید .
به عنوان یک سناریو، فرض کنید که منابع داده مختلفی در سازمان دارید : پستگرس،‌ مانگو‌دی‌بی ، اس‌کیو‌ال‌سرور،‌ هایو، فایلهای CSV‌ و دیتاویرهوس‌های سنتی .
به کمک ترینو می توانید تمام این دیتابیس‌ها را به عنوان منابع داده ای تعریف نموده و سپس بر روی هر یک به صورت جداگانه و یا به صورت ترکیبی به اجرای کوئری های تحلیلی بپردازید.
مثلا می توانید یک کوئری اجرا کنید که بخشی از داده‌های آن از پستگرس، بخشی از مانگو و بخشی از آن هم از الستیک سرچ آمده باشد.
این امکان اجرای کوئری به صورت همزمان بر روی منابع مختلف داده، قدرت بسیار زیادی به شما میدهد و همین موضوع هم دلیل اصلی رواج این نرم افزار شده است به گونه ای که در معماری زیرساخت داده و ابزارهای مورد استفاده شرکت های بزرگ در این حوزه، معمولا پرستو یا ترینو را در کنار سایر ابزارهای تحلیلی مشاهده می کنیم.
اگر به دنبال ایجاد یک دریاچه داده در سازمان هستید، ترینو یک ابزار دم دستی برای تحلیل و وارسی فایلهای خام شما در دریاچه داده هم می تواند باشد.
کتابی که در بالا مشاهده میکنید راهنمای عملی و تنها کتاب موجود برای کار با ترینو است که به زبانی ساده ، آموزش جامعی از این نرم افزار به شما ارائه می کند.
🖇 لینک دانلود : 🎯
https://www.starburst.io/wp-content/uploads/2021/04/Trino-Oreilly-Guide.pdf
پ.ن : در دوره آموزشی مبانی مهندسی داده، یک جلسه را به آموزش این نرم افزار اختصاص داده ام.
https://nikamooz.com/product/data-engineering-course/

506 views11:35

مهندسی داده

Forwarded from عکس نگار

‍ 🎬🎬 💢 ویدئوی هفته 💢 🎬🎬

معماری سرویس‌گرا در دنیای نرم افزار، به یک معماری مورد پذیرش و منطبق با نیازمندیهای جاری این صنعت تبدیل شده است. در دنیای مهندسی داده (طراحی و مدیریت زیرساخت‌های پردازش داده) اما فعلا روال کار غالب، برعکس این رویه است یعنی به دنبال تشکیل تیم‌های مهندسی داده در شرکتها، اولین اقدامی که معمولا انجام میشود یکپارچه کردن مباحث مدیریت داده در یک سازمان از تشکیل دریاچه داده گرفته تا ساخت پایپ‌لاین‌های پردازش داده و پایش متمرکز دیتابیس‌های مختلف به کار رفته در سازمان است.
اما آنچه در دنیای پرجنب و جوش سامانه‌های اطلاعاتی مدرن و مهندسی داده در دنیا همراستا با تحولات مهندسی نرم‌افزار در حال رخ‌دادن است، حرکت به سمت سامانه‌های مدیریت داده جزیره‌ای و غیرمتمرکز است. به گونه‌ای که به تدریج شاهد یک پارادایم شیفت (تغییر مبانی) در این حوزه خواهیم بود و سازمان‌ها از ایجاد یک تیم یکپارچه مهندسی داده که مدیریت یک سامانه متمرکز اطلاعاتی را به عهده دارد به سمت تیم‌های غیرمتمرکز و جزیره‌های داده خودگران و توزیع شده حرکت خواهند کرد.
این تغییر اصول و مبانی یعنی تجزیه سازمان به Data Node‌ های جزیره‌ای خودگردان، تحولات بنیادین زیادی را در حوزه زیرساخت‌های داده در سالیان آتی با خود به همراه خواهد آورد. مفهومی که با نام جزایر داده یا Data Mesh‌ شناخته می شود و در آینده آنرا به کرات خواهید شنید. البته اگر پیگیر اخبار مهندسی نرم‌افزار باشید می‌دانید که اصطلاح Service Mesh‌ سالهاست که رایج شده و به بلوغ کافی رسیده است و جزایر داده هم با ایده گرفتن از آن، برای مدیریت داده‌ها با ساز و کارهای خاص خود، پیشنهاد شده است.
این اصطلاح که اولین بار توسط خانم ژامک دهقانی در سایت معروف و مرجع آقای مارتین فاولر (از زمان دانشجویی در حدود سال 2000 -1380- که دانشجوی دکتر رامتین خسروی در درس طراحی‌ سیستم‌‌های شی‌گرا بودم با این سایت آشنا شدم) با مقاله How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com) معرفی شد،‌ امروزه در حال تبدیل شدن به یک استاندارد معتبر در طراحی سامانه‌های اطلاعاتی کلان و داده محور است.
جزییات این معماری را در دو مقاله‌ای که خانم دهقانی در وب‌سایت مارتین‌فاولر منتشر کرده است می‌توانید مشاهده کنید اما اگر قصد آشنایی با این معماری با توضیحات خود خانم دهقانی را دارید، توصیه می‌کنم ویدئوی زیر را تماشا کنید :
https://www.infoq.com/presentations/data-mesh-paradigm/
با ماه همراه باشید .
لینک کانال مهندسی داده :
https://t.iss.one/bigdata_ir

734 views22:55

مهندسی داده

🎯‌ آگهی آموزشی 📍
به استحضار می رساند، دوره آموزشی کوتاه مدت کاربردی و عملی:

بکارگیری Spark و Python در کلان داده (داده های حجیم) به مدت 16 ساعت در 4 جلسه (به صورت آنلاین- کاربردی و پروژه محور) توسط واحد فناورگروه آموزشی برناک مستقر در مرکز نوآوری آب و آینه در روز های پنج شنبه تا جمعه 13، 14، 20 و 21 خرداد ماه 1400 از ساعت 16 تا 20 (به صورت غیر حضوری) برگزار خواهد شد. با فراگیری این تکنولوژی جدید در علم داده امکان تجزیه و تحلیل کلان داده در کلیه زمینه های علوم که دارای داده های حجیم و بزرگ هستند، میسر می شود.

علاقمندانی که با زبان برنامه نویسی پایتون آشنایی ندارند پس از ثبت نام در یکی از دوره های آموزشی می توانند به صورت رایگان در آموزش این زبان برنامه نویسی پیش از شروع کارگاه آموزشی مورد نظرشان شرکت کنند.

لذا خواهشمند است، این رویداد علمی کاربردی را به دانشجویان و یا کارکنان ذی ربط ارسال فرمایید. لینک ورود به کلاس آنلاین پس از ثبت‏ نام به ایمیل شرکت کننده ارسال می گردد. لطفا جهت ثبت نام به سایت bornaktraininggroup.ir مراجعه بفرمایید.

کد تخفیف جهت علاقمندان: earlyregistration1400

با تشکر و احترام مجدد

مریم السادات حجازی

دکتری تخصصی کامپیوتر-گرایش مهندسی سیستم های هوشمند

535 views09:22

مهندسی داده

در این نوشتار به بررسی اجمالی معماری سرورلس و تجربه ای که از پیاده سازی این معماری با آژور کسب شده است، پرداخته ام. هر چند فراهم نبودن بستر رایانش ابری مناسب برای پیاده سازی سرورلس در ایران،‌ ممکن است استفاده عملی از آنرا برای شرکتها به تاخیر بیندازد اما آشنایی با آن وامکاناتی که در دنیا در حوزه تولید برنامه‌های مقیاس‌پذیر در اختیار توسعه‌دهندگان و معماران سامانه‌های اطلاعاتی وجود دارد،‌ می‌تواند دید مناسبی از این حوزه به خوانندگان بدهد.
yun.ir/z62hbg

yun.ir

کوتاه کننده لینک

سرویس کوتاه کننده لینک با قابلیت انتخاب آدرس دلخواه برای لینک کوتاه شده و همچنین رمز عبور جهت مشاهده، ارائه خدمات متنوع دیگری از قبیل ایجاد لینک لیست و کوتاه کردن متن و ایجاد نظر سنجی آنلاین علاوه بر قابلیت کوتاه کردن لینک در این وبسایت فراهم آمده است

👍1

508 views14:22

مهندسی داده

با هدف ایجاد ایمیج‌های پایه سبک و امن برای اجرای پروژه های مختلف برنامه‌نویسی به کمک داکر، پروژه ای توسط گوگل در حال انجام است با نام Distroless که اشاره به این نکته دارد که این ایمیج‌ها امکانات معمول سیستم‌عامل‌‌ها را ندارند و برای اجرای پروژه های نرم افزاری به صورت امن و سبک، آماده سازی شده اند.
https://github.com/GoogleContainerTools/distroless

A distroless image is a slimmed down Linux distribution image plus the application runtime, resulting in the minimum set of binary dependencies required for the application to run.
اگر برای برنامه‌های پایتون، جاوا، نود ، Go‌ یا دات‌نت خود به دنبال ایجاد ایمیج های داکر هستید این پروژه را هم زیر رادار خود داشته باشید . مقالات زیر هم در این حوزه قابل استفاده هستند :
https://medium.com/@luke_perry_dev/dockerizing-with-distroless-f3b84ae10f3a
https://hackernoon.com/distroless-containers-hype-or-true-value-2rfl3wat
https://betterprogramming.pub/how-to-harden-your-containers-with-distroless-docker-images-c2abd7c71fdb

GitHub

GitHub - GoogleContainerTools/distroless: 🥑 Language focused docker images, minus the operating system.

🥑 Language focused docker images, minus the operating system. - GitHub - GoogleContainerTools/distroless: 🥑 Language focused docker images, minus the operating system.

528 views16:57

مهندسی داده

استخدام مهندس داده در استادکار
yun.ir/y29j6e

yun.ir

کوتاه کننده لینک

482 views14:37

مهندسی داده

بیانیه نه ماده‌ای مهندسی داده

👍2

503 views16:13

مهندسی داده

https://www.mltut.com/best-data-engineering-books/

MLTut

7 Best Data Engineering Books in 2024

Are you looking for Best Data Engineering Books?. If yes, then your search will end here. In this article, I have listed Best Data Engineering Books. So read the full article and find out the best book for you.

588 views17:13

مهندسی داده

مدیریت همکاری‌های علمی بین‌المللی دانشگاه یزد با همکاری مرکز تعاملات بین‌المللی علم و فناوری برگزار می‌کند.

📣 کارگاه آموزشی جناب آقای دکتر محمد دشتی، مهندس نرم‌افزار شرکت MongoDB، کانادا، با موضوع کنترل همروندی و ترمیم در پایگاه‌ داده‌های NoSQL؛

📌 روز پنج‌شنبه مورخ ۳ تیر ۱۴۰۰، ساعت ۸ تا ۱۲؛

📌 لینک ورود به این کارگاه به‌صورت زیر است:

🌐https://meeting-2.yazd.ac.ir/yazdisco

📌 جهت کسب اطلاعات بیشتر به لینک زیر مراجعه فرمائید:

🌐 https://yazd.ac.ir/4014-39-4877

yazd.ac.ir

اطلاعیه برگزاری کارگاه آموزشی توسط دکتر دشتی

دانشگاه یزد با همکاری مرکز تعاملات بین‌المللی علم‌ و فناوری برگزار می‌کند.

588 views18:04

مهندسی داده

Forwarded from عکس نگار

‍ پروژه ای عملی که برای درس کلان‌داده دانشجویان تحصیلات تکمیلی طراحی کرده بودم را با دو راه حل نمونه و آدرس گیت هاب هر دو پروژه در اینجا به اشتراک می گذارم تا دوستانی که علاقه مند به کار عملی در حوزه مباحث زیرساختی داده هستند ،‌بتوانند از آنها استفاده کنند.
شرح کلی پروژه به این ترتیب است :
هدف از انجام پروژه نهایی درس کلان‌داده، آشنایی عملی با طراحی یک سامانه کاربردی پردازش داده بلادرنگ و مقیاس‌پذیر با استفاده از ابزار و کتابخانه‌های روز دنیا در حوزه بیگ دیتا است.
انتظار میرود پس از انجام این پروژه دیدی تجربی و شهودی نسبت به مفاهیم زیر پیدا کنید :
1 .صفهای توزیع شده و نقش محوری آنها در سامانه های نوین اطلاعاتی. (بخصوص کافکا)
2 .الستیک‌سرچ و قدرت و کارآیی فوق‌العاده آن در مدیریت‌داده‌های متنی و جیسان
3 .کاساندرا به‌ عنوان یک دیتابیس سطرگسترده مقیاس‌پذیر سهل‌الوصول و کارآمد
4 .اسپارک و سهولت‌پیاده‌سازی الگوریتمهای پیچیده یادگیری ماشین بر روی‌ حجم عظیم داده به کمک آن.
5 .سوپرست به عنوان یک ابزار دم‌دستی و کاربردی برای بصری سازی نتایج پردازش و ساخت داشبوردهای
تحلیلی
6 .دیتابیسهای تحلیلی ونقش آنها در تصمیمات مدیریتی سازمانی (کلیک‌هوس)
۷. ردیس و نقش آن به عنوان یک دیتابیس کاربردی مقیم در حافظه

پروژه را در ادامه می‌توانید با دو راه حل نمونه، با فرمت پی‌دی‌اف دانلود کنید.
👇👇👇👇👇

5.37K views17:10

مهندسی داده

Forwarded from مجتبی بنائی

BigData-Final-Project-With-Solutions.pdf

12 MB

5.58K views17:34

مهندسی داده

Forwarded from عکس نگار

کتاب‌های بسیار کمی در حوزه مهندسی داده در سالیان اخیر منتشر شده است و برای علاقه‌مندان این حوزه، عدم وجود منابع مناسب جزء‌ محدودیت‌های اصلی شروع کار در این زمینه رو به رشد است.

اخیراً انتشارات

Packt ‌

کتابی با عنوان

Data Engineering With Python

منتشر کرده است که مباحث مختلفی با محوریت

Apache Nifi‌

و به صورت کاملا عملی و کاربردی، در آن مطرح شده است .

در این کتاب با مطالب زیر آشنا خواهید شد :

- پایتون و نحوه کار با داده‌ها در پایتون .

- آپاچی نایفای

- پستگرس

- الستیک سرچ

- آپاچی ایرفلو

- Greate Expectations

- اسپارک

- مانیتورینگ و مدیریت خطاها

- آپاچی کافکا

هر چند مباحث زیادی هم در این کتاب مطرح نشده است -مانند انواع روشهای

ETL،

دیتابیس‌های تحلیلی، خط فرمان لینوکس و داکر ، …. - اما نقطه شروع مناسبی در حوزه یادگیری مهندسی داده است .

برای دانلود نسخه EPUB این کتاب به لینک زیر مراجعه کنید
https://jp.b-ok.as/book/6100128/e54687

732 views18:03

مهندسی داده

فایل الکترونیکی مهندسی داده با پایتون که با نرم افزارهایی مانند Calibre قابل مشاهده است
https://calibre-ebook.com/download
👆👆👆👆👆👆

Calibre-Ebook

calibre - Download calibre

calibre: The one stop solution for all your e-book needs. Comprehensive e-book software.

695 viewsedited 19:41

مهندسی داده

DATA ENGINEERING WITH PYTHON_ W - Paul. Crickard.epub

29.6 MB

کتاب مهندسی داده با پایتون

👍1