مهندسی داده
792 subscribers
112 photos
7 videos
24 files
314 links
BigData.ir کانال رسمی وب سایت
مطالبی راجع به مهندسی داده و طراحی زیرساخت‌های پردازش دیتا و ابزارهای مدرن دیتا
ارتباط با ادمین: @smbanaei
گروه تخصصی مهندسی داده 👇
https://t.iss.one/bigdata_ir_discussions2
کانال یوتیوب 👇
https://www.youtube.com/@irbigdata
Download Telegram
❇️ شتابدهنده اینووان برگزار می کند:

وبینار "بازاریابی هدفمند به کمک داده های شبکه های اجتماعی "

📆 زمان برگزاری :

۲۴ آبان ماه، از ساعت ۱۵ الی ۱۷

🔷 لینک ثبت نام :
https://evnd.co/BjPvo

@innoone_ir
Just now
اگر شما هم جزء سازمان‌ها و یا توسعه‌دهندگانی هستید که سالهاست با مای‌اس‌کیو‌ال کار کرده‌اید اما افزایش حجم داده و ظهور نیازمندیهای تحلیلی جدید، شما را با چالش‌های جدی در ادامه کار با این دیتابیس قدیمی اما محبوب مواجه کرده‌است، با ما همراه باشید تا راه‌حل سریع و جامع شرکت بیگو که یک شرکت فعال در حوزه رسانه‌های اجتماعی با حدود ۴۰۰ میلیون کاربر ماهیانه است و به تازگی از مای‌اس‌کیو‌ال به تای‌دی‌بی‌۴.۰ مهاجرت کرده است، را با هم بررسی کنیم . با توجه به محبوبیت مای‌اس‌کیو‌ال در جامعه کاربری ایرانی، امیدوارم این بررسی، بتواند به مهندسین داده درگیر در پروژه‌های بزرگ شامل این دیتابیس، یک گزینه مناسب را پیشنهاد دهد.
yun.ir/25dx0c
Forwarded from اتچ بات
یکی از پروژه‌های اپن‌سورس مایکروسافت با بیش از دویست و پنجاه توسعه‌دهنده، پروژه ویندوز ترمینال مایکروسافت است که الحق، مشابه سایر پروژه های اخیر این شرکت مثل ویژوال استودیو کد و مایکروسافت اج، کاملا جذاب و کاربردی طراحی شده است.
اگر مثل بنده با خط فرمان زیاد سروکار دارید و انواع ابزارهای مبتنی بر خط فرمان مانند گیت‌بش، کوندا پرامپت، پاورشل (ورژن هفت) و اوبونتو (روی ویندوز) را روزانه استفاده میکنید، توصیه می کنم این پروژه کاربردی را آزمایش و استفاده کنید.
این لینک ها می‌تواند شروع خوبی برای کار با ویندوز ترمینال باشد :
yun.ir/ordjz8
yun.ir/rprvk6
yun.ir/2q8be3
تصویر هم محیط ویندوز ترمینال بنده را نشان میدهد.
This media is not supported in your browser
VIEW IN TELEGRAM
⭕️ تایپ خودکار فارسیِ کلامِ صوتی در آفیسِ گوگل‌داک اخیرا پیشرفت قابل توجهی کرده و‌ شخصا از استفاده از آن راضی‌ام وقتی می‌خواهم در حین راه رفتن چیزی بگویم و‌ تایپ شود. امتحان کنید اگر گاهی امکان تایپ پشت کی‌بورد ندارید و ترجیح می‌دهید حرف بزنید و تایپ شود. به ویژه برای کسانی که می‌خواهند خاطرات‌شان را صوتی بگویند و پیاده‌ شود و نیز روزنامه‌نگارانی که مصاحبه پیاده می‌کنند و پژوهشگران تاریخ شفاهی ابزار خوبی است.
@jalaeipour
دوستان سلام
برای شرکت در کنفرانس Tehran Dot NET Conf 2021 می توانید از طریق لینک زیر اقدام کنید.

https://lahzenegar.com/play/kQsox
انتخاب پستگرس به عنوان محبوب ترین دیتابیس ۲۰۲۰

برای سومین بار در چهار سال گذشته، پستگرس به عنوان دیتابیس برتر سال ۲۰۲۰ وب سایت db-engines.com انتخاب شد.
این وبسایت که بر اساس معیارهای مختلفی، به پایش رشد محبوبیت دیتابیس ها در بازه های یکساله برای انتخاب دیتابیس برتر می پردازد از سنجه هایی مانند سوالات پرسیده شده سایتهای مرجعی مانند استک‌اورفلو، تعداد پروفایلها‌ی جدید افراد در لینکدین که این دیتابیس به مجموعه مهارت‌های آن افزوده شده است، پیشنهادات شغلی، مقالات و ارجاعات وب و ... استفاده می کند.
https://db-engines.com/en/blog_post/85
@data_hub_ir
@data_jobs
مهندس‌داده_سلام
❇️یکی از حوزه‌های نسبتا جدید و پردرآمد فعلی، مهندسی داده است. این فیلد شغلی هنوز به خوبی معرفی نشده است. در این پادکست تلاش کردیم با استفاده از تجربیات مهندس بنائی عزیز موسس و مدیر سایت bigdata.ir یک گفتگوی سازنده حول موارد زیر داشته باشیم:

🔹تعریف مهندسی‌داده
🔹بررسی تفاوت مهندس داده و دانشمند داده
🔹بررسی جامع نقشه‌راه یادگیری مهندسی‌داده
🔹نحوه پیدا کردن فرصت‌های شغلی این حوزه
🔹چگونگی انجام یک مصاحبه خوب
🔹بررسی حقوق و درامد مهندس داده در ایران
🔹بررسی چگونگی انجام پروژه‌های خارجی

❇️@data_hub_ir
#مصاحبه
#مهندسی_داده
بیژن موعودی اخیرا وبیناری در خصوص معماری داده شرکت الوپیک برگزار کرده است که در این مقاله به بررسی این معماری و اجزای اصلی آن می پردازیم.
نکته اصلی در مورد این معماری این است که از تقریبا جدیدترین فناوری های حوزه ساخت دریاچه داده و ساخت خطوط داده در آن استفاده شده است که نشان از وجود تیمی کاملا متخصص در حوزه مهندسی داده در شرکت الوپیک است . اگر به مباحث زیرساختی و فناوری‌های مرتبط علاقه مند هستید توصیه می کنم هم وبینار را گوش کنید و هم تحلیل سایت مهندسی داده در این زمینه را بررسی نمایید.
#معماری_داده #مهندسی_داده #اسپارک #هدوپ #airflow #CDC #debezium #superset #hive
https://bit.ly/3q9SMKK
معماری داده بخش مدیریت اکشن لاگ کاربران دیوار در این پست که در وبلاگ تخصصی دیوار منتشر شده است مورد بررسی قرار گرفته است. برای ساخت دریاچه داده این بخش از وب سایت دیوار، ترکیب اسپارک و ایرفلو و پارکت مورد استفاده قرار گرفته است.
توصیه می کنم اگر علاقه مند به مباحث زیرساخت داده و چالشهایی که تیم های مهندسی داده ایرانی با آنها سروکار دارند هستید این پست را از دست ندهید.
#معماری_داده #مهندسی_داده #اسپارک #هدوپ #airflow
https://bit.ly/3peI9F8
اخیرا مقاله ای را در مدیوم مشاهده کردم با عنوان «پرتقاضاترین مهارت‌های فنی بازار پردازش داده» که نویسنده آن با کمک یک تیم چهارنفره و با کاوش صفحات وب آگهی‌های کاریابی مرتبط با حوزه داده، داشبوردی تحلیلی به کمک گوگل دیتا استودیو ایجاد کرده اند و به صورت لحظه‌ای اطلاعات این حوزه را نمایش میدهند.

We scraped on different top job ads websites worldwide, cleaned a bit the data, and processed it using a simple term-frequency matrice model. (Mehdi Quazza)
می‌توانید این داشبورد را براساس جایگاه‌های شغلی گوناگون مانند علم داده، مهندسی داده، تحلیل‌گر داده، دواپس و … سفارشی کرده و مهارت‌های مرتبط با هر جایگاه شغلی را بر اساس آن مشاهده کنید.
نکته جالب توجه در این نمودار اینکه در تمامی جایگاه‌های شغلی حوزه داده، SQL نقش بسیار پررنگی دارد و بعد از آن، اسپارک، مهارتی پرتقاضا و مورد نیاز بازار کار است. تحلیلگر داده هم پرتقاضاترین شغل در این حوزه است.
آدرس داشبورد :
https://dataskillsradar.amaaai.com/
آدرس مقاله اصلی :‌
https://medium.datadriveninvestor.com/what-are-the-most-requested-technical-skills-in-the-data-job-market-insights-from-35k-datajobs-ads-d8642555f89e
اخیرا به پروژه متن‌بازی با نام کدرو برخوردم که هم ماموریت آن به عنوان قالبی استاندارد برای پروژه‌های علم داده، برایم ارزشمند بود و هم تعداد نسبتاً زیاد توسعه دهندگان آن ( حدود صد نفر) توجهم را جلب کرد. بنابراین تصمیم گرفتم علیرغم اینکه از حوزه علم داده فاصله گرفته‌ام اما این کتابخانه ارزشمند پایتون را معرفی کنم. باشد که برای علاقه‌مندان آن مفید باشد .

یک تیم علم داده در یک سازمان، نیاز دارد علاوه بر پاکسازی و پردازش داده و ساخت مدل‌های پیش‌گویانه، موارد زیر را هم در پروژ‌های علم داده لحاظ کند :‌
- کدنویسی استاندارد
- ساختار منظم برای هر پروژه
- تفکیک منطق و الگوریتم از فریمورک‌های اجرا کننده
- مدیریت یا نظارت گرافیکی و ساده بر خطوط پردازش داده
- امکان ایجاد خطوط پردازش داده
- نسخه‌دهی کدها و داده‌ها
- وجود یک کاتالوگ برای هر مجموعه داده شامل توضیحات کلی و شرح فیلدها
کِدرو، این نیازمندیها را با ایجاد یک فریمورک منظم برای تولید پروژه‌های علم داده به خوبی پاسخ می دهد.
کِدرو با اسپارک هم به خوبی کار میکند و می‌توانید مستقیما خطوط پردازش داده‌ای طراحی کنید که با اسپارک پردازش شوند.
آدرس پروژه :
https://lnkd.in/emjCUnU
یک مثال ساده :
https://lnkd.in/ekSnzeD
#datascience #kedro #datastandards
در صورت نیاز به اشتراک گذاری مطالب مفید حوزه مهندسی و زیرساخت داده، آگهی های استخدام و آگهی های تجاری مرتبط ، کافیست با اکانت ادمین کانال مهندسی داده،
@smbanaei
در ارتباط باشید تا به رایگان در کانال منتشر شود .
دلیل عمومی نکردن کانال و عدم تبدیل آن به گروه هم تخصصی نگه داشتن کانال و نظارت بر محتوای آن در جهت احترام به وقت دنبال کنندگان این کانال است .
گروهی مجزا برای بحث و تبادل نظر در خصوص مطالب مرتبط با مهندسی داده، تشکیل داده‌ایم که میتوانید در صورت تمایل، از آن گروه برای پرسیدن سوال و اشتراک مطالب مفید استفاده کنید 👇👇👇
https://t.iss.one/joinchat/TjHYE4Lfrc1jZWVk
🎬 💢 ویدئوی هفته 💢 🎬

اگر فرصت کافی برای مشاهده ویدئوهای تخصصی در حوزه مهندسی دارید، به صورت هفتگی یک ویدئوی مرتبط در این حوزه، معرفی خواهد شد.
برای این هفته، ویدئوی آقای رابرت چَنگ با عنوان «اکوسیستم مهندسی داده در سال 2021»
The Data Engineering Landscape in 2021
را برای علاقه‌مندان در نظر گرفته ایم .
لینک ویدئو :

https://www.dideo.ir/v/yt/D0Z6ZsNNeJs/the-data-engineering-landscape-in-2021-talk
در این ویدئو، آقای چنگ به مرور مطالب و ابزارهای زیر می پردازد :
Wally - https://github.com/WallarooLabs/wally
lakeFS - https://lakefs.io/
Podcast Init - https://www.pythonpodcast.com/
Data Engineering Podcast - https://www.dataengineeringpodcast.com/
Airflow - https://airflow.apache.org/
Dagster - https://dagster.io/
Prefect - https://www.prefect.io/
Talk Python joint episode - https://talkpython.fm/episodes/show/68/crossing-the-streams-with-podcast.-init
dbt - https://www.getdbt.com/
Great Expectations - https://github.com/great-expectations/great_expectations
Dask - https://dask.org/
Meltano - https://meltano.com/
DVC - https://dvc.org/
Pandas - https://pandas.pydata.org/
برخی از این ابزارهای مانند گریت‌اکسپکتیشنز، دگستر، ایرفلو، ملتانو و دی‌بی‌تی جزء ابزارهایی هستند که در آینده از آنها زیاد خواهید شنید و اگر با آنها آشنا نیسیتد توصیه میکنم توصیف آقای چنگ از این ابزارها را حتما ببینید .
ًRobert Chang : https://medium.com/@rchang
#ویدئوی_هفته #مهندسی_داده #ابزارهای_مهندسی_داده
👍1
🎬🎬 💢 ویدئوی هفته 💢 🎬🎬

برای این هفته، ویدئوی آقای کریس ریکامینی با عنوان «آینده مهندسی داده»
Future of Data Engineering
که در سال 2019 (آذر ماه 1398) در کنفرانس QCon ارائه شده است را برای علاقه‌مندان حوزه مهندسی داده در نظر گرفته ایم .
🎥 :
https://www.infoq.com/presentations/data-engineering-pipelines-warehouses/
آقای ریکامینی که در حال حاضر عضو کمیته مدیریتی پروژه آپاچی ایرفلو است و سابقه توسعه آپاچی استورم (یکی از قدیمی ترین فریمورک های پردازش جریان‌های داده ) و کار در لینکدین و Wepay را در کارنامه خود دارد، در این ویدئو به بیان شش مرحله بلوغ مهندسی داده در یک سازمان با بررسی موردی شرکت WePay‌ می پردازد که می‌تواند مرجع مناسبی برای بررسی سیر تحول مهندسی داده در یک شرکت
باشد.
لینک ویدئو :

📹 : https://www.dideo.ir/v/yt/ZZr9oE4Oa5U/future-of-data-engineering

در این ویدئو، آقای ریکامینی به مرور شش مرحله زیر در یک سازمان با محوریت شرکت WePay‌ می پردازد :

Step 0 : None
Step 1 : Batch Processing
Step 2 : Real Time Processing
Step 3 : Integration
Step 4 : Automation
Step 5 : Decentralization
و با بیان تجربیات به دست آمده در ساخت یک خط پردازش داده متمرکز و استفاده از دیتابیس‌های مختلف مانند مای‌اس‌کیوال، کاساندرا و ابزاری مانند دبزیوم ، مسایل و مشکلاتی که در هر مرحله برای یک شرکت پیش خواهد آمد را مرور کرده و نهایتا به مفهومی می رسد که امروزه با نام
Data Mesh
در حوزه زیرساخت داده مطرح و روز به روز بر ضرورت استفاده از آن در سازمان‌های داده محور بزرگ تاکید میشود.
مشاهده این ویدئوی ارزشمند را به دوستانی که به دنبال پیاده سازی یک معماری نوین برای زیرساخت داده یک سازمان هستند، پیشنهاد میکنم.

Chris Riccomini :
https://cnr.sh
https://www.linkedin.com/in/riccomini/

#ویدئوی_هفته #مهندسی_داده #ابزارهای_مهندسی_داده