مهندسی داده

مهندسی داده چگونه کار می‌کند ؟
یک موشن گرافیک کامل و کوتاه از فرآیندهای روزانه یک مهندس داده
لینک مقاله در وب سایت مهندسی داده :
yun.ir/4d6vc6
لینک ویدئو در آپارات :
https://aparat.com/v/ZFCvw

yun.ir

کوتاه کننده لینک

سرویس کوتاه کننده لینک با قابلیت انتخاب آدرس دلخواه برای لینک کوتاه شده و همچنین رمز عبور جهت مشاهده، ارائه خدمات متنوع دیگری از قبیل ایجاد لینک لیست و کوتاه کردن متن و ایجاد نظر سنجی آنلاین علاوه بر قابلیت کوتاه کردن لینک در این وبسایت فراهم آمده است

1.09K views21:22

مهندسی داده

علاقه مندان حوزه مهندسی داده و مباحث زیرساختی پردازش و طراحی خطوط انتقال داده که روز بروز بر تعداد آنها افزوده میشود، از کمبود منابع آموزشی مناسب در این خصوص گله مند هستند و این کمبود را مانعی جدی در شروع به کار حرفه ای در این مسیر شغلی می دانند.
هر چند به نوبه خودم سعی کردم با طراحی و برگزاری دوره مهندسی داده با همکاری موسسه وزین نیک آموز، تا حدودی این کمبود در منابع فارسی را جبران کنم اما مطمئنا برای پیدا کردن تسلط نسبی از طریق انجام پروژه های متنوع و نیز احترام گذاشتن به سلایق افراد مختلف در این حوزه، نیاز خواهیم داشت که منابع آموزشی متنوع و با کیفیتی در دسترس مشتاقان مهندسی داده قرار داشته باشد .

در چند سال گذشته و بخصوص در یکسال اخیر، دوره های آموزشی مهندسی داده را دنیا رصد کرده ام و تنها دوره ای که از لحاظ جامعیت، سبک و پلتفرم ارائه، توجه بنده را به خودش جلب کرده است دوره مهندسی داده وب سایت معروف کورسرا است که با حمایت یکی از قدیمی ترین غول های فناوری اطلاعات آمریکا یعنی IBM ارائه میشود.
https://www.coursera.org/professional-certificates/ibm-data-engineer

این دوره که خود از سیزده کورس مختلف آموزشی تشکیل شده است، با شروع از پایتون و کار با دیتابیس های رابطه ای، به صورت پایه ای به آموزش مفاهیم مورد نیاز مهندسین داده می پردازد . دوره های آموزشی مندرج در این برنامه از قرار زیر هستند :

مقدمه ای بر مهندسی داده
پایتون برای علم داده، یادگیری ماشین و توسعه نرم افزار
پروژه پایتون برای مهندسی داده
مقدمه ای بر بانکهای اطلاعاتی رابطه ای
دیتابیس و SQL برای علم داده (پایتون)
مقدمه ای بر دیتابیس های NoSQL
مقدمه ای بر بیگ دیتا – آشنایی با هدوپ و اسپارک
مهندسی داده و یادگیری ماشین با اسپارک
مقدمه ای بر دستورات لینوکس و اسکریپت نویسی خط فرمان
مدیریت دیتابیس های رابطه ای
ای تی ال(ETL) و خطوط انتقال داده به کمک کافکا و ایرفلو
شروع کار با انباره های داده
پروژه نهایی
همانطور که می بینید سرفصل بسیار جامع و کاملی دارد و غیر از مسایلی مانند مدیریت لاگ و داده های Observability و دیتابیس های تحلیلی نوین مثل دروید، پینوت و کلیک هوس، سایر مباحث دوره ، مسایل اساسی حوزه مهندسی داده را پوشش میدهد.

شرکت در این دوره ها رایگان است (البته هنگام Enrolment یا ثبت نام باید گزینه Audit را انتخاب کنید ) اما امکانات کامل این وب سایت آموزشی مانند دادن گواهینامه و یا تصحیح تمرینات، نیاز به پرداخت هزینه خواهد داشت. البته می توانید درخواست حمایت مالی بدهید و دوره ها را به صورت کاملا رایگان و با تمام امکانات، دریافت کنید که در یوتیوب فارسی، چندین فیلم مختلف در رابطه با نحوه دریافت این کمک های مالی خواهید یافت.

Coursera

IBM Data Engineering

Offered by IBM. Prepare for a career as a Data Engineer. ... Enroll for free.

👍2

1.06K views18:49

مهندسی داده

چندی پیش وقتی گزارش Oreilly راجع به دستمزدها و پرداختی های حوزه پردازش داده/هوش مصنوعی را بررسی می کردم در بخش کتابخانه های پایتون که آشنایی با آنها بیشترین درآمد را برای متخصصین این حوزه به همراه دارد، به کتابخانه Ray برخوردم که حقوق متوسط ۱۹۰ هزار دلاری برای آن، وسوسه انگیز به نظر میرسید و نشان میداد که بازار به این پروژه متن باز نیاز دارد. اما اینکه دقیقا چه مشکلی را این کتابخانه حل کرده است در نگاه نخست، به چشمم نیامد.

با بررسی اولیه این پروژه که کتابخانه های آن برای پایتون، جاوا و ++C در دسترس است، متوجه شدم که هدف اصلی آن، اجرای توزیع شده کدهای مرتبط با پردازش داده و بویژه انجام کارهای یادگیری ماشین بر این مبناست.

با توجه به وجود چارچوب های به نسبت جاافتاده و قدیمی این حوزه مانند اسپارک و فلینک، رواج یک فریمورک جدید و آن هم در این سطح، کمی برایم تعجب آور بود. با بررسی مثالهای موجود در مستندات رسمی Ray، دلیل اصلی این محبوبیت (البته از نقطه نظر بنده) را یافتم. با توجه به اینکه در آینده ای نزدیک از این کتابخانه، در ادبیات حوزه پردازش داده زیاد خواهید شنید، تصمیم گرفتم این تجربه را با شما هم اشتراک بگذارم.

اگر با اسپارک و هدوپ آشنا باشید، میدانید که این دو فریمورک پردازش توزیع شده داده ها که اولی جزء اصلی ترین بازیگران این حوزه هم محسوب می شود، علیرغم امکانات فراوان و سرعتی که با خود به همراه می آورند، یک ضعف بزرگ دارند و آن هم این است که باید برنامه های موجود خود را با استانداردهای آنها تطبیق دهید یعنی به سبک آنها کدنویسی کنید. قدم اول هم در این راستا، این است که توسعه دهندگان شما با اسپارک (یا فلینک یا آپاچی بیم) و نحوه برنامه نویسی با آن، آشنا شوند که این موضوع، خود مانعی بزرگ برای تیم های مختلفی است که فرصت آموزش یا نیروی ماهرِ آشنا به مباحث پردازش توزیع شده داده ها را ندارند.

فریمورک Ray این مانع را به درستی تشخیص داده است و دلیل محبوبیت و رواج آن هم به نظرم، همین نکته کلیدی است.

Ray به شما اجازه میدهد همان سبک برنامه نویسی معمولی خود را ادامه دهید و فقط با اضافه کردن یک خط کد در ابتدای تعریف تابع یا کلاس (از طریق دکوراتورها)و یک تغییر کوچک در هنگام فراخوانی این توابع، آنها را برای شما به صورت توزیع شده اجرا کند و نتیجه را به شما برگرداند.
--------------------------------------

اگر به این موضوع علاقه مند شدید، ادامه مقاله را می توانید در وب سایت مهندسی داده در لینک زیر،‌پیگیری کنید
yun.ir/mqf6ge

#مهندسی_داده #RAY #پردازش_توزیع_شده

👍3

1.33K views21:21

مهندسی داده

https://www.aparat.com/v/W03Jn

آپارات - سرویس اشتراک ویدیو

کارگاه آشنایی با دیتابیس تحلیلی آپاچی دروید - بخش اول - یلدای 1400 - نیک آموز

در این کارگاه یکساعته به بررسی امکانات و معماری آپاچی دروید به عنوان یکی از اصلی ترین دیتابیس های تحلیلی حوزه کلان داده می پردازیم.
توضیح اینکه به دلیل ضعف های دیتاویرهوس های سنتی، با توجه به حجم عظیم داده های ورودی در برنامه های مختلف کاربردی معاصر، نیازمند…

👍1

961 views15:57

مهندسی داده

https://www.aparat.com/v/UYesn

آپارات - سرویس اشتراک ویدیو

کارگاه آشنایی با دیتابیس تحلیلی آپاچی دروید - بخش دوم - یلدای 1400 - نیک آموز

در این کارگاه یکساعته به بررسی امکانات و معماری آپاچی دروید به عنوان یکی از اصلی ترین دیتابیس های تحلیلی حوزه کلان داده می پردازیم. توضیح اینکه به دلیل ضعف های دیتاویرهوس های سنتی، با توجه به حجم عظیم داده های ورودی در برنامه های مختلف کاربردی معاصر، نیازمند…

1.04K views15:57

مهندسی داده

کارگاه یکساعته ای را برای معرفی و کار با دیتابیس تحلیلی آپاچی دروید به میزبانی موسسه نیک آموز به مناسبت یلدای ۱۴۰۰ برگزار کرده ام که فیلم این کارگاه در سه قسمت (معرفی / کارگاه عملی / پرسش و پاسخ ) تدوین و آماده استفاده علاقه مندان گردیده است.
اگر به این حوزه علاقه مند هستید میتوانید بعد از مشاهده این کارگاه یکساعته (سعی کرده ام خیلی خلاصه و مختصر آنرا برگزار کنم ) که لینک دو بخش ابتدایی آنرا در بالا مشاهده میکنید، فایلهای کارگاه شامل کدهای پایتون تولید داده های فیک در کافکا و داکر کامپوز مربوطه را از آدرس زیر دریافت و خودتان به کار با این دیتابیس آینده دار بپردازید :
https://github.com/irbigdata/workshops

GitHub

GitHub - irbigdata/workshops: مخزنی برای به اشتراک گذاری فایلهای مورد نیاز کارگاه های عملی برگزار شده

مخزنی برای به اشتراک گذاری فایلهای مورد نیاز کارگاه های عملی برگزار شده - GitHub - irbigdata/workshops: مخزنی برای به اشتراک گذاری فایلهای مورد نیاز کارگاه های عملی برگزار شده

👍7

1.53K viewsedited 16:03

مهندسی داده

Forwarded from PaaSino

⚪️ آموزش عملی داکر

❇️ در این دوره قراره با داکر به عنوان یک برنامه‌‌نویس کار کنیم. قدم به قدم جلو می‌ریم و با داکر و امکاناتش آشنا می‌شیم.
پروژه‌ای که روش کار می‌کنیم یک اپ جنگو هست که به یک دیتابیس پستگرس متصل میشه.

🔹 قسمت اول - داستان کانتینرها
🎥 https://www.aparat.com/v/FRvmb

🔹 قسمت دوم - کار با ایمیج‌ها و بیلد ایمیج
🎥 https://www.aparat.com/v/kMcRz

🔹 قسمت سوم - اجرای کانتینرها با داکر
🎥 https://www.aparat.com/v/XcsD6

🔹 قسمت چهارم - کار با والیوم در داکر
🎥 https://www.aparat.com/v/6jyek

🔹 قسمت پنجم - استفاده از کش هنگام بیلد ایمیج
🎥 https://www.aparat.com/v/jAvQV

این لیست به روز رسانی میشه

#docker
🆔 @paasino

👍6

1.13K views08:01

مهندسی داده

Source: https://www.linkedin.com/posts/mehd-io_data-activity-7001913518148976640-j9_W

👍3😁1

920 views07:30

مهندسی داده

https://www.bigdata.ir/1402/08/%d9%86%da%af%d8%a7%d9%87%db%8c-%d8%a8%d9%87-%d9%88%d8%b6%d8%b9%db%8c%d8%aa-%d9%be%d8%b3%d8%aa%da%af%d8%b1%d8%b3/

مهندسی داده

چرا همچنان پستگرس را دوست داریم ؟ - مهندسی داده

در این نوشتار به این می‌پردازیم که چرا هنوز پستگرس را به عنوان یک ضرورت به فعالان حوزه دیتا بخصوص دوستانی که قصد کار حرفه‌ای در حوزه داده را دارند توصیه می کنیم ؟

722 views10:00

مهندسی داده

This is a repo with links to everything you'd ever want to learn about data engineering

https://github.com/DataEngineer-io/data-engineer-handbook?

GitHub

GitHub - DataExpert-io/data-engineer-handbook: This is a repo with links to everything you'd ever want to learn about data engineering

This is a repo with links to everything you'd ever want to learn about data engineering - DataExpert-io/data-engineer-handbook

🙏2

737 views20:16

مهندسی داده

اگر در کارهای روزانه ، با پستگرس سر و کار دارید، این مقاله خوب را از دست ندهید و به کمک اون، مروری سریع بر تکنیک‌های مانیتورینگ و افزایش کارآیی این دیتابیس قدرتمند داشته باشید
https://blog.stackademic.com/unleashing-the-full-power-of-postgresql-a-definitive-guide-to-supercharge-performance-a8ce725725ac

Medium

Unleashing the Full Power of PostgreSQL: A Definitive Guide to Supercharge Performance!

Boost Your Application’s Performance with Expert Techniques and Top Monitoring Tools!

755 views23:17

مهندسی داده

Forwarded from Mohammad Mahdi Mohebali

https://careers.digikala.com/position/519190/

Digikala

فرصت‌های شغلی در دیجی کالا

... فرصت‌های شغلی در دیجی‌کالا رو ببین و رزومه‌ات رو ارسال کن! دیجی‌کالا فرصتی برات می‌سازه تا بتونی موفقیت‌هات رو به سبک خودت روایت کنی. اینجا همه چیز، با تو آغاز می‌شود!

551 views19:04

مهندسی داده

Kubernetes for Data Engineers
یک مقاله مفید و مختصر در خصوص آشنایی با کوبرنتیز برای مهندسین داده با لینک‌های مناسب برای شروع کار
We do live in the Age of Containers, it’s the world we all live in. Docker has become standard. Data has grown. Everyone and everything is in the cloud. The Modern Data Stack we’ve all been working low these many hard years has only made the need for an agnostic and scalable container platform more real.

And this brings us to today’s topic.

We want to give Data Engineers an introduction to Kubernetes. It’s a tool everyone talks about, but not that many folks get a chance to get their hands dirty with.
https://dataengineeringcentral.substack.com/p/kubernetes-for-data-engineers?utm_source=substack&utm_medium=email

Substack

Kubernetes for Data Engineers

The Age of Containers

❤8

613 views19:06

مهندسی داده

بعد از اتمام دوره بیگ‌دیتای همکاران سیستم، یکی از دانشجویان این دوره به من پیام داد که اگر بخواهم یک کار عملی توی حوزه مهندسی داده انجام بدم که مفاهیم اصلی مورد نیاز را به صورت عملی کار کنم، چه پروژه ای پیشنهاد می‌دهید.
پیشنهاد من ایجاد یک خط پردازش داده بود که داده‌های یک وب سایت تجاری به کمک CDC و Debezium از پستگرس دریافت و وارد کافکا شود. در مرحله بعد هم این داده‌ها به صورت خودکار توسط کلیک‌هوس دریافت شده و در جداول تحلیلی متناظر در Clickhouse‌ ذخیره شده و نهایتا با ابزارهای گرافیکی نمایش داده شود.
برای تولید داده‌ها هم از ایرفلو در بازه‌های زمانی کوتاه برای شبیه سازی یک وب‌سایت خرید و فروش محصول، استفاده شود.
خروجی ای که آقا بهنام یزدان‌پناهی @behnamyzp عزیز آماده کرد خیلی فراتر از انتظارم بود.
کل پروژه که روند فوق در آن پیاده سازی شده و نتایج در گرافانا نمایش داده شده است به همراه توضیحات لازم برای اجرای آن در آدرس زیر قرار گرفته است :‌
https://github.com/behnamyazdan/ecommerce_realtime_data_pipeline/
برای دوستانی که علاقه‌مند به حوزه مهندسی داده و مباحث زیرساختی هستند، یک نقطه شروع بسیار عالی است و برای دوستانی که با پستگرس کار می‌کنند می‌توانند از ایده انتقال داده‌ها به کلیک هوس و اجرای کوئری‌های تحلیلی بر روی آن استفاده کنند.
هر چند بهتر است ساختار طراحی شده برای کلیک هوس تغییر کند به گونه‌ای که به جای تمامی جداول بخش خرید و فروش، چند جدول اصلی اما بزرگ (با حذف نرمال‌سازی که در دیتابیس‌های تحلیلی کاملا روال است)‌ داشته باشیم و با ابزارهایی مانند dbt، با اجرای کوئری‌هایی در بازه‌های زمانی کوتاه، این جداول تحلیلی از روی جداول پایه دریافت شده از کافکا، پرشده و جداول پایه، با تنظیم مقدار TTL‌ مناسب، به صورت خودکار حذف شوند.
ضمن تشکر مجدد از آقا بهنام عزیز ، این پست را با کسب اجازه از ایشان در اینجا منتشر میکنم. باشد که برای علاقه‌مندان، مفید باشد.
لینک توضیحات خود بهنام عزیز در لینکدین :
https://www.linkedin.com/posts/behnam-yazdanpanahi_ecommerceabrdataabrpipeline-cdc-kafka-activity-7172687833793445888-USBb
#مهندسی_داده #clickhouse #airflow #cdc #postgresql #Debezium #پستگرس #خطوط_پردازش_داده

GitHub

GitHub - behnamyazdan/ecommerce_realtime_data_pipeline: Ecommerce Realtime Data Pipeline (Data Modeling, Workflow Orchestration…

Ecommerce Realtime Data Pipeline (Data Modeling, Workflow Orchestration, Change Data Capture, Analytical Database and Dashboarding) - behnamyazdan/ecommerce_realtime_data_pipeline

❤9

659 viewsedited 23:52

مهندسی داده

❤3

667 views23:53

مهندسی داده

فرا رسیدن سال نو همیشه نوید بخش افکار نو،

کردار نو و تصمیم های نو برای آینده است،

آینده ای که همه امید داریم بهتر از گذشته باشد.

برای تمامی عزیزان کانال مهندسی داده، شادی و تندرستی آرزو میکنم. می دانم که زندگی همیشه مملو از دشواری و چالش است اما امیدوارم در سال نو، بتوانیم معادلات پیچیده‌ی زندگی را با آرامش و موفقیت حل کنیم.
در سال جدید، برنامه دارم که این کانال و سایت مهندسی داده را به صورت منظم‌تر و کارآمدتر به روزرسانی کنم و مطالب مفید و به روز دنیای بسیار متنوع مهندسی داده را به صورت دست‌چین‌ شده در اختیار شما عزیزان قرار دهم. امیدوارم که بتوانم در این مسیر با دعای خیر و انرژی مثبت شما موفق شوم.
ارادتمند
مجتبی بنائی
#سال_نو_مبارک 🌺

❤10

631 viewsedited 20:13

مهندسی داده

arch_v3_workshops.jpg

309.2 KB

یکی از کانال‌های فعال یوتیوب در زمینه مهندسی داده، کانال DataTalksClub است که به صورت منظم ابزارهای نوین حوزه مهندسی و علم داده را معرفی میکند و مطالب و کارگاه‌ها و رخدادهای زیادی را هم در این حوزه به کمک جامعه کاربری خود مدیریت می‌کند.

یکی از رخدادهایی که این سایت به صورت منظم برگراز میکند، کارگاه عملی مبانی مهندسی داده با Data Engineering Zoomcamp است. اگر علاقه‌مند به یادگیری مفاهیم اولیه مهندسی داده هستید و یا در این حوزه مشغول به فعالیت هستید و مایلید با ابزارهای نسبتا جدید این حوزه مانند Mage.ai‌ , RisingWave (میج یکی از گزینه های اصلی جایگزینی با ایرفلو در خطوط پردازش داده است) و یا data load tool (dlt)به صورت عملی کار کنید، این کارگاه مناسب شماست.
https://github.com/DataTalksClub/data-engineering-zoomcamp

👍1

612 views20:16

مهندسی داده

https://dev.to/taipy/21-ai-tools-that-are-changing-the-world-1o54
کدنویسی جزء ضروری کارهای روزانه یک مهندس داده است و امروزه ابزارهای متنوعی برای افزایش کارآیی برنامه نویسی از طریق هوش مصنوعی، ایجاد و توسعه داده شده‌اند. اگر روزانه به کدنویسی بخصوص با VS Code‌ مشغول هستید این لیست ارزشمند را از دست ندهید.

DEV Community

21 AI Tools that are changing the World

The world is full of promising AI tools like Sora, ChatGPT, and more coming along the way. I've...

542 views16:28

مهندسی داده

به نظر می رسد زبان جدید موجو که توسط یکی از نام‌‌های مطرح در اکوسیستم طراحی زبان‌های نوین برنامه‌نویسی و با در نظرگرفتن تمامی پیشرفتهای سخت‌افزاری و نرم افزاری اخیر در این حوزه پا به عرصه وجود گذاشته است با گرامری تقریبا شبیه پایتون و با سرعتی بالاتر از Rust یکی از اصلی ترین گزینه‌های سال‌های آتی برای حوزه هوش مصنوعی و مهندسی داده خواهد بود.
https://www.bigdata.ir/1403/02/mojo-%d8%af%d8%b1-%d9%85%d9%82%d8%a7%d8%a8%d9%84-rust-%d8%a8%d8%b1%d9%86%d8%af%d9%87-%d9%82%d8%b7%d8%b9%d8%a7-mojo-%d8%ae%d9%88%d8%a7%d9%87%d8%af-%d8%a8%d9%88%d8%af/

مهندسی داده

Mojo‌ در مقابل Rust‌ :‌برنده قطعا Mojo خواهد بود! - مهندسی داده

آیا زبان Mojo‌ میتواند دغدغه فعالان هوش مصنوعی در خصوص کارآیی پایین پایتون را رفع کند ؟ در این نوشتار به این موضوع و مقایسه این زبان با Rust‌ می پردازیم.

👍2

400 viewsedited 11:09

مهندسی داده

2.jpg

119.9 KB

یکی از پروژه‌های بنیاد آپاچی که امروزه به تدریج در اخبار و مقالات حوزه داده در حال دیده‌شدن است، Apache XTable است. این پروژه تنها یک هدف دارد و آن هم امکان تبدیل سه فرمت رایج ساخت Lakehouse یعنی
- Deltalake
- Apache Iceberge
- Apache Hudi
است که در شکل الصاق‌شده هم به تصویر کشیده شده است . در این شکل تیم B از طریق XTable, داده‌های تیم A که به فرمت Hudi ذخیره شده است را به Iceberge تبدیل کرده و در کنار سایر داده‌های خود، آنها را با Dremio پردازش میکند.
پ.ن. امروزه به نظر می‌رسد که Apache Iceberge در حال جذب کاربران بیشتری است و اگر قصد طراحی یک Lakehouse را دارید، از ابتدا این فرمت را انتخاب کنید.
Lakehouse
چیست؟
ترکیب دریاچه داده (که داده‌ها را به صورت خام و معمولا به صورت Parquet و مانند آن نگهداری می‌کند) و انباره داده است که اجازه میدهد بتوانیم داده‌های خام را با ذخیره‌کردن متادیتا، به نوعی دیتابیس تبدیل کنیم که مستقیما قابل کوئری گرفتن و استفاده در ابزارهای تحلیلی و گزارش سازی باشد
مقاله اصلی : https://www.onehouse.ai/blog/dremio-lakehouse-analytics-with-hudi-and-iceberg-using-xtable

👍5

424 viewsedited 19:20

About

Blog

Apps

Platform