Forwarded from NikAmooz | نیک آموز
دوستان سلام
برای شرکت در کنفرانس Tehran Dot NET Conf 2021 می توانید از طریق لینک زیر اقدام کنید.
https://lahzenegar.com/play/kQsox
برای شرکت در کنفرانس Tehran Dot NET Conf 2021 می توانید از طریق لینک زیر اقدام کنید.
https://lahzenegar.com/play/kQsox
لحظهنگار
Local Event Tehran 2021 - NikAmooz نیک آموز در لحظهنگار
انتخاب پستگرس به عنوان محبوب ترین دیتابیس ۲۰۲۰
برای سومین بار در چهار سال گذشته، پستگرس به عنوان دیتابیس برتر سال ۲۰۲۰ وب سایت db-engines.com انتخاب شد.
این وبسایت که بر اساس معیارهای مختلفی، به پایش رشد محبوبیت دیتابیس ها در بازه های یکساله برای انتخاب دیتابیس برتر می پردازد از سنجه هایی مانند سوالات پرسیده شده سایتهای مرجعی مانند استکاورفلو، تعداد پروفایلهای جدید افراد در لینکدین که این دیتابیس به مجموعه مهارتهای آن افزوده شده است، پیشنهادات شغلی، مقالات و ارجاعات وب و ... استفاده می کند.
https://db-engines.com/en/blog_post/85
برای سومین بار در چهار سال گذشته، پستگرس به عنوان دیتابیس برتر سال ۲۰۲۰ وب سایت db-engines.com انتخاب شد.
این وبسایت که بر اساس معیارهای مختلفی، به پایش رشد محبوبیت دیتابیس ها در بازه های یکساله برای انتخاب دیتابیس برتر می پردازد از سنجه هایی مانند سوالات پرسیده شده سایتهای مرجعی مانند استکاورفلو، تعداد پروفایلهای جدید افراد در لینکدین که این دیتابیس به مجموعه مهارتهای آن افزوده شده است، پیشنهادات شغلی، مقالات و ارجاعات وب و ... استفاده می کند.
https://db-engines.com/en/blog_post/85
@data_hub_ir
@data_jobs
مهندسداده_سلام
❇️یکی از حوزههای نسبتا جدید و پردرآمد فعلی، مهندسی داده است. این فیلد شغلی هنوز به خوبی معرفی نشده است. در این پادکست تلاش کردیم با استفاده از تجربیات مهندس بنائی عزیز موسس و مدیر سایت bigdata.ir یک گفتگوی سازنده حول موارد زیر داشته باشیم:
🔹تعریف مهندسیداده
🔹بررسی تفاوت مهندس داده و دانشمند داده
🔹بررسی جامع نقشهراه یادگیری مهندسیداده
🔹نحوه پیدا کردن فرصتهای شغلی این حوزه
🔹چگونگی انجام یک مصاحبه خوب
🔹بررسی حقوق و درامد مهندس داده در ایران
🔹بررسی چگونگی انجام پروژههای خارجی
❇️@data_hub_ir
#مصاحبه
#مهندسی_داده
❇️یکی از حوزههای نسبتا جدید و پردرآمد فعلی، مهندسی داده است. این فیلد شغلی هنوز به خوبی معرفی نشده است. در این پادکست تلاش کردیم با استفاده از تجربیات مهندس بنائی عزیز موسس و مدیر سایت bigdata.ir یک گفتگوی سازنده حول موارد زیر داشته باشیم:
🔹تعریف مهندسیداده
🔹بررسی تفاوت مهندس داده و دانشمند داده
🔹بررسی جامع نقشهراه یادگیری مهندسیداده
🔹نحوه پیدا کردن فرصتهای شغلی این حوزه
🔹چگونگی انجام یک مصاحبه خوب
🔹بررسی حقوق و درامد مهندس داده در ایران
🔹بررسی چگونگی انجام پروژههای خارجی
❇️@data_hub_ir
#مصاحبه
#مهندسی_داده
بیژن موعودی اخیرا وبیناری در خصوص معماری داده شرکت الوپیک برگزار کرده است که در این مقاله به بررسی این معماری و اجزای اصلی آن می پردازیم.
نکته اصلی در مورد این معماری این است که از تقریبا جدیدترین فناوری های حوزه ساخت دریاچه داده و ساخت خطوط داده در آن استفاده شده است که نشان از وجود تیمی کاملا متخصص در حوزه مهندسی داده در شرکت الوپیک است . اگر به مباحث زیرساختی و فناوریهای مرتبط علاقه مند هستید توصیه می کنم هم وبینار را گوش کنید و هم تحلیل سایت مهندسی داده در این زمینه را بررسی نمایید.
#معماری_داده #مهندسی_داده #اسپارک #هدوپ #airflow #CDC #debezium #superset #hive
https://bit.ly/3q9SMKK
نکته اصلی در مورد این معماری این است که از تقریبا جدیدترین فناوری های حوزه ساخت دریاچه داده و ساخت خطوط داده در آن استفاده شده است که نشان از وجود تیمی کاملا متخصص در حوزه مهندسی داده در شرکت الوپیک است . اگر به مباحث زیرساختی و فناوریهای مرتبط علاقه مند هستید توصیه می کنم هم وبینار را گوش کنید و هم تحلیل سایت مهندسی داده در این زمینه را بررسی نمایید.
#معماری_داده #مهندسی_داده #اسپارک #هدوپ #airflow #CDC #debezium #superset #hive
https://bit.ly/3q9SMKK
مهندسی داده
بررسی معماری داده شرکت الوپیک - مهندسی داده
معماری داده شرکت الوپیک که توسط مدیر تیم دیتای این شرکت در یک وبینار اخیرا تشریح شده است در این نوشتار بررسی و اجزای اصلی آن، مرور شده است.
معماری داده بخش مدیریت اکشن لاگ کاربران دیوار در این پست که در وبلاگ تخصصی دیوار منتشر شده است مورد بررسی قرار گرفته است. برای ساخت دریاچه داده این بخش از وب سایت دیوار، ترکیب اسپارک و ایرفلو و پارکت مورد استفاده قرار گرفته است.
توصیه می کنم اگر علاقه مند به مباحث زیرساخت داده و چالشهایی که تیم های مهندسی داده ایرانی با آنها سروکار دارند هستید این پست را از دست ندهید.
#معماری_داده #مهندسی_داده #اسپارک #هدوپ #airflow
https://bit.ly/3peI9F8
توصیه می کنم اگر علاقه مند به مباحث زیرساخت داده و چالشهایی که تیم های مهندسی داده ایرانی با آنها سروکار دارند هستید این پست را از دست ندهید.
#معماری_داده #مهندسی_داده #اسپارک #هدوپ #airflow
https://bit.ly/3peI9F8
مهندسی داده
معماری داده وب سایت دیوار - بخش مدیریت رفتار کاربران - مهندسی داده
معماری داده بخش پردازش اکشن لاگ شرکت دیوار در این نوشتار بررسی شده است. برای ساخت دریاچه داده این بخش از دیوار از پارکت، ایرفلو و اسپارک استفاده شده است.
اخیرا مقاله ای را در مدیوم مشاهده کردم با عنوان «پرتقاضاترین مهارتهای فنی بازار پردازش داده» که نویسنده آن با کمک یک تیم چهارنفره و با کاوش صفحات وب آگهیهای کاریابی مرتبط با حوزه داده، داشبوردی تحلیلی به کمک گوگل دیتا استودیو ایجاد کرده اند و به صورت لحظهای اطلاعات این حوزه را نمایش میدهند.
We scraped on different top job ads websites worldwide, cleaned a bit the data, and processed it using a simple term-frequency matrice model. (Mehdi Quazza)
میتوانید این داشبورد را براساس جایگاههای شغلی گوناگون مانند علم داده، مهندسی داده، تحلیلگر داده، دواپس و … سفارشی کرده و مهارتهای مرتبط با هر جایگاه شغلی را بر اساس آن مشاهده کنید.
نکته جالب توجه در این نمودار اینکه در تمامی جایگاههای شغلی حوزه داده، SQL نقش بسیار پررنگی دارد و بعد از آن، اسپارک، مهارتی پرتقاضا و مورد نیاز بازار کار است. تحلیلگر داده هم پرتقاضاترین شغل در این حوزه است.
آدرس داشبورد :
https://dataskillsradar.amaaai.com/
آدرس مقاله اصلی :
https://medium.datadriveninvestor.com/what-are-the-most-requested-technical-skills-in-the-data-job-market-insights-from-35k-datajobs-ads-d8642555f89e
We scraped on different top job ads websites worldwide, cleaned a bit the data, and processed it using a simple term-frequency matrice model. (Mehdi Quazza)
میتوانید این داشبورد را براساس جایگاههای شغلی گوناگون مانند علم داده، مهندسی داده، تحلیلگر داده، دواپس و … سفارشی کرده و مهارتهای مرتبط با هر جایگاه شغلی را بر اساس آن مشاهده کنید.
نکته جالب توجه در این نمودار اینکه در تمامی جایگاههای شغلی حوزه داده، SQL نقش بسیار پررنگی دارد و بعد از آن، اسپارک، مهارتی پرتقاضا و مورد نیاز بازار کار است. تحلیلگر داده هم پرتقاضاترین شغل در این حوزه است.
آدرس داشبورد :
https://dataskillsradar.amaaai.com/
آدرس مقاله اصلی :
https://medium.datadriveninvestor.com/what-are-the-most-requested-technical-skills-in-the-data-job-market-insights-from-35k-datajobs-ads-d8642555f89e
اخیرا به پروژه متنبازی با نام کدرو برخوردم که هم ماموریت آن به عنوان قالبی استاندارد برای پروژههای علم داده، برایم ارزشمند بود و هم تعداد نسبتاً زیاد توسعه دهندگان آن ( حدود صد نفر) توجهم را جلب کرد. بنابراین تصمیم گرفتم علیرغم اینکه از حوزه علم داده فاصله گرفتهام اما این کتابخانه ارزشمند پایتون را معرفی کنم. باشد که برای علاقهمندان آن مفید باشد .
یک تیم علم داده در یک سازمان، نیاز دارد علاوه بر پاکسازی و پردازش داده و ساخت مدلهای پیشگویانه، موارد زیر را هم در پروژهای علم داده لحاظ کند :
- کدنویسی استاندارد
- ساختار منظم برای هر پروژه
- تفکیک منطق و الگوریتم از فریمورکهای اجرا کننده
- مدیریت یا نظارت گرافیکی و ساده بر خطوط پردازش داده
- امکان ایجاد خطوط پردازش داده
- نسخهدهی کدها و دادهها
- وجود یک کاتالوگ برای هر مجموعه داده شامل توضیحات کلی و شرح فیلدها
کِدرو، این نیازمندیها را با ایجاد یک فریمورک منظم برای تولید پروژههای علم داده به خوبی پاسخ می دهد.
کِدرو با اسپارک هم به خوبی کار میکند و میتوانید مستقیما خطوط پردازش دادهای طراحی کنید که با اسپارک پردازش شوند.
آدرس پروژه :
https://lnkd.in/emjCUnU
یک مثال ساده :
https://lnkd.in/ekSnzeD
#datascience #kedro #datastandards
یک تیم علم داده در یک سازمان، نیاز دارد علاوه بر پاکسازی و پردازش داده و ساخت مدلهای پیشگویانه، موارد زیر را هم در پروژهای علم داده لحاظ کند :
- کدنویسی استاندارد
- ساختار منظم برای هر پروژه
- تفکیک منطق و الگوریتم از فریمورکهای اجرا کننده
- مدیریت یا نظارت گرافیکی و ساده بر خطوط پردازش داده
- امکان ایجاد خطوط پردازش داده
- نسخهدهی کدها و دادهها
- وجود یک کاتالوگ برای هر مجموعه داده شامل توضیحات کلی و شرح فیلدها
کِدرو، این نیازمندیها را با ایجاد یک فریمورک منظم برای تولید پروژههای علم داده به خوبی پاسخ می دهد.
کِدرو با اسپارک هم به خوبی کار میکند و میتوانید مستقیما خطوط پردازش دادهای طراحی کنید که با اسپارک پردازش شوند.
آدرس پروژه :
https://lnkd.in/emjCUnU
یک مثال ساده :
https://lnkd.in/ekSnzeD
#datascience #kedro #datastandards
lnkd.in
LinkedIn
This link will take you to a page that’s not on LinkedIn
در صورت نیاز به اشتراک گذاری مطالب مفید حوزه مهندسی و زیرساخت داده، آگهی های استخدام و آگهی های تجاری مرتبط ، کافیست با اکانت ادمین کانال مهندسی داده،
@smbanaei
در ارتباط باشید تا به رایگان در کانال منتشر شود .
دلیل عمومی نکردن کانال و عدم تبدیل آن به گروه هم تخصصی نگه داشتن کانال و نظارت بر محتوای آن در جهت احترام به وقت دنبال کنندگان این کانال است .
گروهی مجزا برای بحث و تبادل نظر در خصوص مطالب مرتبط با مهندسی داده، تشکیل دادهایم که میتوانید در صورت تمایل، از آن گروه برای پرسیدن سوال و اشتراک مطالب مفید استفاده کنید 👇👇👇
https://t.iss.one/joinchat/TjHYE4Lfrc1jZWVk
@smbanaei
در ارتباط باشید تا به رایگان در کانال منتشر شود .
دلیل عمومی نکردن کانال و عدم تبدیل آن به گروه هم تخصصی نگه داشتن کانال و نظارت بر محتوای آن در جهت احترام به وقت دنبال کنندگان این کانال است .
گروهی مجزا برای بحث و تبادل نظر در خصوص مطالب مرتبط با مهندسی داده، تشکیل دادهایم که میتوانید در صورت تمایل، از آن گروه برای پرسیدن سوال و اشتراک مطالب مفید استفاده کنید 👇👇👇
https://t.iss.one/joinchat/TjHYE4Lfrc1jZWVk
🎬 💢 ویدئوی هفته 💢 🎬
اگر فرصت کافی برای مشاهده ویدئوهای تخصصی در حوزه مهندسی دارید، به صورت هفتگی یک ویدئوی مرتبط در این حوزه، معرفی خواهد شد.
برای این هفته، ویدئوی آقای رابرت چَنگ با عنوان «اکوسیستم مهندسی داده در سال 2021»
The Data Engineering Landscape in 2021
را برای علاقهمندان در نظر گرفته ایم .
لینک ویدئو :
https://www.dideo.ir/v/yt/D0Z6ZsNNeJs/the-data-engineering-landscape-in-2021-talk
در این ویدئو، آقای چنگ به مرور مطالب و ابزارهای زیر می پردازد :
Wally - https://github.com/WallarooLabs/wally
lakeFS - https://lakefs.io/
Podcast Init - https://www.pythonpodcast.com/
Data Engineering Podcast - https://www.dataengineeringpodcast.com/
Airflow - https://airflow.apache.org/
Dagster - https://dagster.io/
Prefect - https://www.prefect.io/
Talk Python joint episode - https://talkpython.fm/episodes/show/68/crossing-the-streams-with-podcast.-init
dbt - https://www.getdbt.com/
Great Expectations - https://github.com/great-expectations/great_expectations
Dask - https://dask.org/
Meltano - https://meltano.com/
DVC - https://dvc.org/
Pandas - https://pandas.pydata.org/
برخی از این ابزارهای مانند گریتاکسپکتیشنز، دگستر، ایرفلو، ملتانو و دیبیتی جزء ابزارهایی هستند که در آینده از آنها زیاد خواهید شنید و اگر با آنها آشنا نیسیتد توصیه میکنم توصیف آقای چنگ از این ابزارها را حتما ببینید .
ًRobert Chang : https://medium.com/@rchang
#ویدئوی_هفته #مهندسی_داده #ابزارهای_مهندسی_داده
اگر فرصت کافی برای مشاهده ویدئوهای تخصصی در حوزه مهندسی دارید، به صورت هفتگی یک ویدئوی مرتبط در این حوزه، معرفی خواهد شد.
برای این هفته، ویدئوی آقای رابرت چَنگ با عنوان «اکوسیستم مهندسی داده در سال 2021»
The Data Engineering Landscape in 2021
را برای علاقهمندان در نظر گرفته ایم .
لینک ویدئو :
https://www.dideo.ir/v/yt/D0Z6ZsNNeJs/the-data-engineering-landscape-in-2021-talk
در این ویدئو، آقای چنگ به مرور مطالب و ابزارهای زیر می پردازد :
Wally - https://github.com/WallarooLabs/wally
lakeFS - https://lakefs.io/
Podcast Init - https://www.pythonpodcast.com/
Data Engineering Podcast - https://www.dataengineeringpodcast.com/
Airflow - https://airflow.apache.org/
Dagster - https://dagster.io/
Prefect - https://www.prefect.io/
Talk Python joint episode - https://talkpython.fm/episodes/show/68/crossing-the-streams-with-podcast.-init
dbt - https://www.getdbt.com/
Great Expectations - https://github.com/great-expectations/great_expectations
Dask - https://dask.org/
Meltano - https://meltano.com/
DVC - https://dvc.org/
Pandas - https://pandas.pydata.org/
برخی از این ابزارهای مانند گریتاکسپکتیشنز، دگستر، ایرفلو، ملتانو و دیبیتی جزء ابزارهایی هستند که در آینده از آنها زیاد خواهید شنید و اگر با آنها آشنا نیسیتد توصیه میکنم توصیف آقای چنگ از این ابزارها را حتما ببینید .
ًRobert Chang : https://medium.com/@rchang
#ویدئوی_هفته #مهندسی_داده #ابزارهای_مهندسی_داده
👍1
🎬🎬 💢 ویدئوی هفته 💢 🎬🎬
برای این هفته، ویدئوی آقای کریس ریکامینی با عنوان «آینده مهندسی داده»
Future of Data Engineering
که در سال 2019 (آذر ماه 1398) در کنفرانس QCon ارائه شده است را برای علاقهمندان حوزه مهندسی داده در نظر گرفته ایم .
🎥 :
https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/
آقای ریکامینی که در حال حاضر عضو کمیته مدیریتی پروژه آپاچی ایرفلو است و سابقه توسعه آپاچی استورم (یکی از قدیمی ترین فریمورک های پردازش جریانهای داده ) و کار در لینکدین و Wepay را در کارنامه خود دارد، در این ویدئو به بیان شش مرحله بلوغ مهندسی داده در یک سازمان با بررسی موردی شرکت WePay می پردازد که میتواند مرجع مناسبی برای بررسی سیر تحول مهندسی داده در یک شرکت
باشد.
لینک ویدئو :
📹 : https://www.dideo.ir/v/yt/ZZr9oE4Oa5U/future-of-data-engineering
در این ویدئو، آقای ریکامینی به مرور شش مرحله زیر در یک سازمان با محوریت شرکت WePay می پردازد :
Step 0 : None
Step 1 : Batch Processing
Step 2 : Real Time Processing
Step 3 : Integration
Step 4 : Automation
Step 5 : Decentralization
و با بیان تجربیات به دست آمده در ساخت یک خط پردازش داده متمرکز و استفاده از دیتابیسهای مختلف مانند مایاسکیوال، کاساندرا و ابزاری مانند دبزیوم ، مسایل و مشکلاتی که در هر مرحله برای یک شرکت پیش خواهد آمد را مرور کرده و نهایتا به مفهومی می رسد که امروزه با نام
Data Mesh
در حوزه زیرساخت داده مطرح و روز به روز بر ضرورت استفاده از آن در سازمانهای داده محور بزرگ تاکید میشود.
مشاهده این ویدئوی ارزشمند را به دوستانی که به دنبال پیاده سازی یک معماری نوین برای زیرساخت داده یک سازمان هستند، پیشنهاد میکنم.
Chris Riccomini :
https://cnr.sh
https://www.linkedin.com/in/riccomini/
#ویدئوی_هفته #مهندسی_داده #ابزارهای_مهندسی_داده
برای این هفته، ویدئوی آقای کریس ریکامینی با عنوان «آینده مهندسی داده»
Future of Data Engineering
که در سال 2019 (آذر ماه 1398) در کنفرانس QCon ارائه شده است را برای علاقهمندان حوزه مهندسی داده در نظر گرفته ایم .
🎥 :
https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/
آقای ریکامینی که در حال حاضر عضو کمیته مدیریتی پروژه آپاچی ایرفلو است و سابقه توسعه آپاچی استورم (یکی از قدیمی ترین فریمورک های پردازش جریانهای داده ) و کار در لینکدین و Wepay را در کارنامه خود دارد، در این ویدئو به بیان شش مرحله بلوغ مهندسی داده در یک سازمان با بررسی موردی شرکت WePay می پردازد که میتواند مرجع مناسبی برای بررسی سیر تحول مهندسی داده در یک شرکت
باشد.
لینک ویدئو :
📹 : https://www.dideo.ir/v/yt/ZZr9oE4Oa5U/future-of-data-engineering
در این ویدئو، آقای ریکامینی به مرور شش مرحله زیر در یک سازمان با محوریت شرکت WePay می پردازد :
Step 0 : None
Step 1 : Batch Processing
Step 2 : Real Time Processing
Step 3 : Integration
Step 4 : Automation
Step 5 : Decentralization
و با بیان تجربیات به دست آمده در ساخت یک خط پردازش داده متمرکز و استفاده از دیتابیسهای مختلف مانند مایاسکیوال، کاساندرا و ابزاری مانند دبزیوم ، مسایل و مشکلاتی که در هر مرحله برای یک شرکت پیش خواهد آمد را مرور کرده و نهایتا به مفهومی می رسد که امروزه با نام
Data Mesh
در حوزه زیرساخت داده مطرح و روز به روز بر ضرورت استفاده از آن در سازمانهای داده محور بزرگ تاکید میشود.
مشاهده این ویدئوی ارزشمند را به دوستانی که به دنبال پیاده سازی یک معماری نوین برای زیرساخت داده یک سازمان هستند، پیشنهاد میکنم.
Chris Riccomini :
https://cnr.sh
https://www.linkedin.com/in/riccomini/
#ویدئوی_هفته #مهندسی_داده #ابزارهای_مهندسی_داده
InfoQ
Future of Data Engineering
Chris Riccomini talks about the current state-of-the-art in data pipelines and data warehousing, and shares some of the solutions to current problems dealing with data streaming and warehousing.
Forwarded from اتچ بات
سایت آموزشی معروف DataCamp تا پایان آوریل یعنی تا فرداشب، استفاده از تمامی امکانات آموزشی خود را به رایگان در اختیار علاقه مندان گذاشته است.
https://datacamp.com
توصیه میکنم اگر فرصت کافی در اختیار دارید ، در دوره دو ساعته مهندسی داده این سایت که به کمک یازده ویدئو و ۳۲ تمرین عملی، شما را با مفاهیم اصلی این حوزه نوین از پردازش داده آشنا می کند، حتما شرکت کنید.
مروری بر مفاهیم پایه مهندسی داده و تفاوت آن با دانشمند داده ، نحوه ذخیره داده ها با SQL و ایجاد یک خط پردازش داده به کمک Singer از جمله مطالبی است که در این دوره کوتاه آموزش داده میشود.
https://www.datacamp.com/courses/data-engineering-for-everyone
https://datacamp.com
توصیه میکنم اگر فرصت کافی در اختیار دارید ، در دوره دو ساعته مهندسی داده این سایت که به کمک یازده ویدئو و ۳۲ تمرین عملی، شما را با مفاهیم اصلی این حوزه نوین از پردازش داده آشنا می کند، حتما شرکت کنید.
مروری بر مفاهیم پایه مهندسی داده و تفاوت آن با دانشمند داده ، نحوه ذخیره داده ها با SQL و ایجاد یک خط پردازش داده به کمک Singer از جمله مطالبی است که در این دوره کوتاه آموزش داده میشود.
https://www.datacamp.com/courses/data-engineering-for-everyone
Telegram
attach 📎
Forwarded from عکس نگار
🔭📚 معرفی کتاب 📚🔭
یکی از نرم افزارهایی که محبوبیت زیادی در حوزه پردازش و تحلیل داده در سالیان اخیر به دست آورده است نرم افزار PrestoDB است که به اختصار، پرستو نامیده میشود.
این نرم افزار که توسط فیس بوک توسعه و بعدا به عنوان یک نرم افزار متن باز به دنیا معرفی شده است، بعد از اختلافاتی که بین تیم اصلی توسعه آن که حمایت فیس بوک را با خود داشت و طرفداران دنیای نرم افزارهای متنباز که تمایل داشتند کاملا مستقل عمل کنند و وابسته به فیس بوک نباشند، نسخه کاملا متنباز آن با نام PrestoSQL با جداشدن از پروژه اصلی متولد شد که اخیرا به Trino تغییر نام داد.
به کمک ترینو یا پرستو، شما میتوانید روی هر منبع دادهای، کوئری های SQL اجرا کنید .
به عنوان یک سناریو، فرض کنید که منابع داده مختلفی در سازمان دارید : پستگرس، مانگودیبی ، اسکیوالسرور، هایو، فایلهای CSV و دیتاویرهوسهای سنتی .
به کمک ترینو می توانید تمام این دیتابیسها را به عنوان منابع داده ای تعریف نموده و سپس بر روی هر یک به صورت جداگانه و یا به صورت ترکیبی به اجرای کوئری های تحلیلی بپردازید.
مثلا می توانید یک کوئری اجرا کنید که بخشی از دادههای آن از پستگرس، بخشی از مانگو و بخشی از آن هم از الستیک سرچ آمده باشد.
این امکان اجرای کوئری به صورت همزمان بر روی منابع مختلف داده، قدرت بسیار زیادی به شما میدهد و همین موضوع هم دلیل اصلی رواج این نرم افزار شده است به گونه ای که در معماری زیرساخت داده و ابزارهای مورد استفاده شرکت های بزرگ در این حوزه، معمولا پرستو یا ترینو را در کنار سایر ابزارهای تحلیلی مشاهده می کنیم.
اگر به دنبال ایجاد یک دریاچه داده در سازمان هستید، ترینو یک ابزار دم دستی برای تحلیل و وارسی فایلهای خام شما در دریاچه داده هم می تواند باشد.
کتابی که در بالا مشاهده میکنید راهنمای عملی و تنها کتاب موجود برای کار با ترینو است که به زبانی ساده ، آموزش جامعی از این نرم افزار به شما ارائه می کند.
🖇 لینک دانلود : 🎯
https://www.starburst.io/wp-content/uploads/2021/04/Trino-Oreilly-Guide.pdf
پ.ن : در دوره آموزشی مبانی مهندسی داده، یک جلسه را به آموزش این نرم افزار اختصاص داده ام.
https://nikamooz.com/product/data-engineering-course/
یکی از نرم افزارهایی که محبوبیت زیادی در حوزه پردازش و تحلیل داده در سالیان اخیر به دست آورده است نرم افزار PrestoDB است که به اختصار، پرستو نامیده میشود.
این نرم افزار که توسط فیس بوک توسعه و بعدا به عنوان یک نرم افزار متن باز به دنیا معرفی شده است، بعد از اختلافاتی که بین تیم اصلی توسعه آن که حمایت فیس بوک را با خود داشت و طرفداران دنیای نرم افزارهای متنباز که تمایل داشتند کاملا مستقل عمل کنند و وابسته به فیس بوک نباشند، نسخه کاملا متنباز آن با نام PrestoSQL با جداشدن از پروژه اصلی متولد شد که اخیرا به Trino تغییر نام داد.
به کمک ترینو یا پرستو، شما میتوانید روی هر منبع دادهای، کوئری های SQL اجرا کنید .
به عنوان یک سناریو، فرض کنید که منابع داده مختلفی در سازمان دارید : پستگرس، مانگودیبی ، اسکیوالسرور، هایو، فایلهای CSV و دیتاویرهوسهای سنتی .
به کمک ترینو می توانید تمام این دیتابیسها را به عنوان منابع داده ای تعریف نموده و سپس بر روی هر یک به صورت جداگانه و یا به صورت ترکیبی به اجرای کوئری های تحلیلی بپردازید.
مثلا می توانید یک کوئری اجرا کنید که بخشی از دادههای آن از پستگرس، بخشی از مانگو و بخشی از آن هم از الستیک سرچ آمده باشد.
این امکان اجرای کوئری به صورت همزمان بر روی منابع مختلف داده، قدرت بسیار زیادی به شما میدهد و همین موضوع هم دلیل اصلی رواج این نرم افزار شده است به گونه ای که در معماری زیرساخت داده و ابزارهای مورد استفاده شرکت های بزرگ در این حوزه، معمولا پرستو یا ترینو را در کنار سایر ابزارهای تحلیلی مشاهده می کنیم.
اگر به دنبال ایجاد یک دریاچه داده در سازمان هستید، ترینو یک ابزار دم دستی برای تحلیل و وارسی فایلهای خام شما در دریاچه داده هم می تواند باشد.
کتابی که در بالا مشاهده میکنید راهنمای عملی و تنها کتاب موجود برای کار با ترینو است که به زبانی ساده ، آموزش جامعی از این نرم افزار به شما ارائه می کند.
🖇 لینک دانلود : 🎯
https://www.starburst.io/wp-content/uploads/2021/04/Trino-Oreilly-Guide.pdf
پ.ن : در دوره آموزشی مبانی مهندسی داده، یک جلسه را به آموزش این نرم افزار اختصاص داده ام.
https://nikamooz.com/product/data-engineering-course/
Forwarded from عکس نگار
🎬🎬 💢 ویدئوی هفته 💢 🎬🎬
معماری سرویسگرا در دنیای نرم افزار، به یک معماری مورد پذیرش و منطبق با نیازمندیهای جاری این صنعت تبدیل شده است. در دنیای مهندسی داده (طراحی و مدیریت زیرساختهای پردازش داده) اما فعلا روال کار غالب، برعکس این رویه است یعنی به دنبال تشکیل تیمهای مهندسی داده در شرکتها، اولین اقدامی که معمولا انجام میشود یکپارچه کردن مباحث مدیریت داده در یک سازمان از تشکیل دریاچه داده گرفته تا ساخت پایپلاینهای پردازش داده و پایش متمرکز دیتابیسهای مختلف به کار رفته در سازمان است.
اما آنچه در دنیای پرجنب و جوش سامانههای اطلاعاتی مدرن و مهندسی داده در دنیا همراستا با تحولات مهندسی نرمافزار در حال رخدادن است، حرکت به سمت سامانههای مدیریت داده جزیرهای و غیرمتمرکز است. به گونهای که به تدریج شاهد یک پارادایم شیفت (تغییر مبانی) در این حوزه خواهیم بود و سازمانها از ایجاد یک تیم یکپارچه مهندسی داده که مدیریت یک سامانه متمرکز اطلاعاتی را به عهده دارد به سمت تیمهای غیرمتمرکز و جزیرههای داده خودگران و توزیع شده حرکت خواهند کرد.
این تغییر اصول و مبانی یعنی تجزیه سازمان به Data Node های جزیرهای خودگردان، تحولات بنیادین زیادی را در حوزه زیرساختهای داده در سالیان آتی با خود به همراه خواهد آورد. مفهومی که با نام جزایر داده یا Data Mesh شناخته می شود و در آینده آنرا به کرات خواهید شنید. البته اگر پیگیر اخبار مهندسی نرمافزار باشید میدانید که اصطلاح Service Mesh سالهاست که رایج شده و به بلوغ کافی رسیده است و جزایر داده هم با ایده گرفتن از آن، برای مدیریت دادهها با ساز و کارهای خاص خود، پیشنهاد شده است.
این اصطلاح که اولین بار توسط خانم ژامک دهقانی در سایت معروف و مرجع آقای مارتین فاولر (از زمان دانشجویی در حدود سال 2000 -1380- که دانشجوی دکتر رامتین خسروی در درس طراحی سیستمهای شیگرا بودم با این سایت آشنا شدم) با مقاله How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com) معرفی شد، امروزه در حال تبدیل شدن به یک استاندارد معتبر در طراحی سامانههای اطلاعاتی کلان و داده محور است.
جزییات این معماری را در دو مقالهای که خانم دهقانی در وبسایت مارتینفاولر منتشر کرده است میتوانید مشاهده کنید اما اگر قصد آشنایی با این معماری با توضیحات خود خانم دهقانی را دارید، توصیه میکنم ویدئوی زیر را تماشا کنید :
https://www.infoq.com/presentations/data-mesh-paradigm/
با ماه همراه باشید .
لینک کانال مهندسی داده :
https://t.iss.one/bigdata_ir
معماری سرویسگرا در دنیای نرم افزار، به یک معماری مورد پذیرش و منطبق با نیازمندیهای جاری این صنعت تبدیل شده است. در دنیای مهندسی داده (طراحی و مدیریت زیرساختهای پردازش داده) اما فعلا روال کار غالب، برعکس این رویه است یعنی به دنبال تشکیل تیمهای مهندسی داده در شرکتها، اولین اقدامی که معمولا انجام میشود یکپارچه کردن مباحث مدیریت داده در یک سازمان از تشکیل دریاچه داده گرفته تا ساخت پایپلاینهای پردازش داده و پایش متمرکز دیتابیسهای مختلف به کار رفته در سازمان است.
اما آنچه در دنیای پرجنب و جوش سامانههای اطلاعاتی مدرن و مهندسی داده در دنیا همراستا با تحولات مهندسی نرمافزار در حال رخدادن است، حرکت به سمت سامانههای مدیریت داده جزیرهای و غیرمتمرکز است. به گونهای که به تدریج شاهد یک پارادایم شیفت (تغییر مبانی) در این حوزه خواهیم بود و سازمانها از ایجاد یک تیم یکپارچه مهندسی داده که مدیریت یک سامانه متمرکز اطلاعاتی را به عهده دارد به سمت تیمهای غیرمتمرکز و جزیرههای داده خودگران و توزیع شده حرکت خواهند کرد.
این تغییر اصول و مبانی یعنی تجزیه سازمان به Data Node های جزیرهای خودگردان، تحولات بنیادین زیادی را در حوزه زیرساختهای داده در سالیان آتی با خود به همراه خواهد آورد. مفهومی که با نام جزایر داده یا Data Mesh شناخته می شود و در آینده آنرا به کرات خواهید شنید. البته اگر پیگیر اخبار مهندسی نرمافزار باشید میدانید که اصطلاح Service Mesh سالهاست که رایج شده و به بلوغ کافی رسیده است و جزایر داده هم با ایده گرفتن از آن، برای مدیریت دادهها با ساز و کارهای خاص خود، پیشنهاد شده است.
این اصطلاح که اولین بار توسط خانم ژامک دهقانی در سایت معروف و مرجع آقای مارتین فاولر (از زمان دانشجویی در حدود سال 2000 -1380- که دانشجوی دکتر رامتین خسروی در درس طراحی سیستمهای شیگرا بودم با این سایت آشنا شدم) با مقاله How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh (martinfowler.com) معرفی شد، امروزه در حال تبدیل شدن به یک استاندارد معتبر در طراحی سامانههای اطلاعاتی کلان و داده محور است.
جزییات این معماری را در دو مقالهای که خانم دهقانی در وبسایت مارتینفاولر منتشر کرده است میتوانید مشاهده کنید اما اگر قصد آشنایی با این معماری با توضیحات خود خانم دهقانی را دارید، توصیه میکنم ویدئوی زیر را تماشا کنید :
https://www.infoq.com/presentations/data-mesh-paradigm/
با ماه همراه باشید .
لینک کانال مهندسی داده :
https://t.iss.one/bigdata_ir
🎯 آگهی آموزشی 📍
به استحضار می رساند، دوره آموزشی کوتاه مدت کاربردی و عملی:
بکارگیری Spark و Python در کلان داده (داده های حجیم) به مدت 16 ساعت در 4 جلسه (به صورت آنلاین- کاربردی و پروژه محور) توسط واحد فناورگروه آموزشی برناک مستقر در مرکز نوآوری آب و آینه در روز های پنج شنبه تا جمعه 13، 14، 20 و 21 خرداد ماه 1400 از ساعت 16 تا 20 (به صورت غیر حضوری) برگزار خواهد شد. با فراگیری این تکنولوژی جدید در علم داده امکان تجزیه و تحلیل کلان داده در کلیه زمینه های علوم که دارای داده های حجیم و بزرگ هستند، میسر می شود.
علاقمندانی که با زبان برنامه نویسی پایتون آشنایی ندارند پس از ثبت نام در یکی از دوره های آموزشی می توانند به صورت رایگان در آموزش این زبان برنامه نویسی پیش از شروع کارگاه آموزشی مورد نظرشان شرکت کنند.
لذا خواهشمند است، این رویداد علمی کاربردی را به دانشجویان و یا کارکنان ذی ربط ارسال فرمایید. لینک ورود به کلاس آنلاین پس از ثبت نام به ایمیل شرکت کننده ارسال می گردد. لطفا جهت ثبت نام به سایت bornaktraininggroup.ir مراجعه بفرمایید.
کد تخفیف جهت علاقمندان: earlyregistration1400
با تشکر و احترام مجدد
مریم السادات حجازی
دکتری تخصصی کامپیوتر-گرایش مهندسی سیستم های هوشمند
به استحضار می رساند، دوره آموزشی کوتاه مدت کاربردی و عملی:
بکارگیری Spark و Python در کلان داده (داده های حجیم) به مدت 16 ساعت در 4 جلسه (به صورت آنلاین- کاربردی و پروژه محور) توسط واحد فناورگروه آموزشی برناک مستقر در مرکز نوآوری آب و آینه در روز های پنج شنبه تا جمعه 13، 14، 20 و 21 خرداد ماه 1400 از ساعت 16 تا 20 (به صورت غیر حضوری) برگزار خواهد شد. با فراگیری این تکنولوژی جدید در علم داده امکان تجزیه و تحلیل کلان داده در کلیه زمینه های علوم که دارای داده های حجیم و بزرگ هستند، میسر می شود.
علاقمندانی که با زبان برنامه نویسی پایتون آشنایی ندارند پس از ثبت نام در یکی از دوره های آموزشی می توانند به صورت رایگان در آموزش این زبان برنامه نویسی پیش از شروع کارگاه آموزشی مورد نظرشان شرکت کنند.
لذا خواهشمند است، این رویداد علمی کاربردی را به دانشجویان و یا کارکنان ذی ربط ارسال فرمایید. لینک ورود به کلاس آنلاین پس از ثبت نام به ایمیل شرکت کننده ارسال می گردد. لطفا جهت ثبت نام به سایت bornaktraininggroup.ir مراجعه بفرمایید.
کد تخفیف جهت علاقمندان: earlyregistration1400
با تشکر و احترام مجدد
مریم السادات حجازی
دکتری تخصصی کامپیوتر-گرایش مهندسی سیستم های هوشمند