مهندسی داده

درود
داستان از اونجا شروع شد که یک متخصص امنیت و یک متخصص دیتاساینس تصمیم گرفتن آخر هفته‌ی خودشون رو با هم بگذرونند! ایده اصلی این بود که بینیم چندتا حالت محتمل برای کد ملی وجود داره و ازشون Rainbow Table بسازیم. اینطوری کد‌ملی ایرانی هایی که حتی متولد هم نشدند رو میتونیم داشته باشیم و اگر کسی (خدایی نکرده!) پسوردش رو کد ملیش انتخاب کرده باشه به راحتی پسوردش شکسته می‌شه.
https://vrgl.ir/m5FOE

@data_hub_ir

ویرگول

دستیابی به کد ملی تمام ایرانیان گذشته، حال و آینده!

محاسبه ی کد ملی ایرانیان در گذشته حال و آینده و هک پسورداشون

673 views18:56

مهندسی داده

Forwarded from عکس نگار

چند ماه پیش به عنوان یک کار جنبی سعی کردم بررسی سریعی روی چند دیتابیس مطرح حوزه تحلیل داده‌ها در حجم کلان یعنی کلیک‌هوس، آپاچی دروید و آپاچی پینوت انجام بدهم و با محوریت پستگرس به عنوان راه حل فعلی، میزان بهبود حاصل از جایگزینی این دیتابیس عملیاتی محبوب با نمونه های تحلیلی و نوین این حوزه را به صورت عملی اندازه گیری کنم.
گزارش زیر حاصل این تلاش برای بررسی سریع (برای یک بررسی جامع باید مسایل زیادی در نظر گرفته شود ) این سه دیتابیس است که سعی کرده ام تمام مراحل نصب و راه اندازی و طراجی جداول و اجرای کوئری ها در هر کدام از آنها را با جزییات توضیح بدهم.
امیدوارم این گزارش فنی ، برای علاقه مندان مفید باشد .
👇👇👇👇

815 views06:30

مهندسی داده

AnalyticsDb.zip

4.8 MB

Data+Reort

928 views06:32

مهندسی داده

AnalyticsDB.pdf

2 MB

The Report

809 views06:33

مهندسی داده

Forwarded from انجمن علوم کامپیوتر بهشتی (Ali Aarefi)

مدرسه تکمیلی دانشکده مهندسی و علوم کامپیوتر دانشگاه شهید بهشتی با همکاری سحاب (sahab.ir) برگزار می‌کند:

دوره ۴۵ ساعته مهندسی داده به همراه پروژه های عملی

📝سرفصل‌های دوره:

- مفاهیم مهندسی داده
- ذخیره‌سازی و بازیابی داده توزیع شده
- پردازش دسته‌ای و جویباری
- کار عملی با ابزارهای HBase / MapReduce / Spark / HDFS / Kafka

👤مدرسین:
سید محمد غفاریان، دکترای مهندسی کامپیوتر از دانشگاه صنعتی امیرکبیر

مهدی صفرنژاد، دکترای مهندسی کامپیوتر از دانشگاه صنعتی شریف

محمدحمزه‌ئی، دکترای مهندسی کامپیوتر از دانشگاه علم و صنعت ایران

⏰زمان:
چهارشنبه‌ها ساعت ۱۵:۰۰ الی ۱۸:۰۰ شروع از ۷ مهرماه

ثبت‌نام:
در سامانه انتخاب واحد گلستان همزمان با انتخاب واحد

*امکان اخذ درس به طور اختیاری برای دانشجویان سایر دانشکده های دانشگاه شهید بهشتی نیز فراهم است.

#BigData #Java #Spark

👍2

853 views06:54

مهندسی داده

مهندسی داده چگونه کار می‌کند ؟
یک موشن گرافیک کامل و کوتاه از فرآیندهای روزانه یک مهندس داده
لینک مقاله در وب سایت مهندسی داده :
yun.ir/4d6vc6
لینک ویدئو در آپارات :
https://aparat.com/v/ZFCvw

yun.ir

کوتاه کننده لینک

سرویس کوتاه کننده لینک با قابلیت انتخاب آدرس دلخواه برای لینک کوتاه شده و همچنین رمز عبور جهت مشاهده، ارائه خدمات متنوع دیگری از قبیل ایجاد لینک لیست و کوتاه کردن متن و ایجاد نظر سنجی آنلاین علاوه بر قابلیت کوتاه کردن لینک در این وبسایت فراهم آمده است

1.09K views21:22

مهندسی داده

علاقه مندان حوزه مهندسی داده و مباحث زیرساختی پردازش و طراحی خطوط انتقال داده که روز بروز بر تعداد آنها افزوده میشود، از کمبود منابع آموزشی مناسب در این خصوص گله مند هستند و این کمبود را مانعی جدی در شروع به کار حرفه ای در این مسیر شغلی می دانند.
هر چند به نوبه خودم سعی کردم با طراحی و برگزاری دوره مهندسی داده با همکاری موسسه وزین نیک آموز، تا حدودی این کمبود در منابع فارسی را جبران کنم اما مطمئنا برای پیدا کردن تسلط نسبی از طریق انجام پروژه های متنوع و نیز احترام گذاشتن به سلایق افراد مختلف در این حوزه، نیاز خواهیم داشت که منابع آموزشی متنوع و با کیفیتی در دسترس مشتاقان مهندسی داده قرار داشته باشد .

در چند سال گذشته و بخصوص در یکسال اخیر، دوره های آموزشی مهندسی داده را دنیا رصد کرده ام و تنها دوره ای که از لحاظ جامعیت، سبک و پلتفرم ارائه، توجه بنده را به خودش جلب کرده است دوره مهندسی داده وب سایت معروف کورسرا است که با حمایت یکی از قدیمی ترین غول های فناوری اطلاعات آمریکا یعنی IBM ارائه میشود.
https://www.coursera.org/professional-certificates/ibm-data-engineer

این دوره که خود از سیزده کورس مختلف آموزشی تشکیل شده است، با شروع از پایتون و کار با دیتابیس های رابطه ای، به صورت پایه ای به آموزش مفاهیم مورد نیاز مهندسین داده می پردازد . دوره های آموزشی مندرج در این برنامه از قرار زیر هستند :

مقدمه ای بر مهندسی داده
پایتون برای علم داده، یادگیری ماشین و توسعه نرم افزار
پروژه پایتون برای مهندسی داده
مقدمه ای بر بانکهای اطلاعاتی رابطه ای
دیتابیس و SQL برای علم داده (پایتون)
مقدمه ای بر دیتابیس های NoSQL
مقدمه ای بر بیگ دیتا – آشنایی با هدوپ و اسپارک
مهندسی داده و یادگیری ماشین با اسپارک
مقدمه ای بر دستورات لینوکس و اسکریپت نویسی خط فرمان
مدیریت دیتابیس های رابطه ای
ای تی ال(ETL) و خطوط انتقال داده به کمک کافکا و ایرفلو
شروع کار با انباره های داده
پروژه نهایی
همانطور که می بینید سرفصل بسیار جامع و کاملی دارد و غیر از مسایلی مانند مدیریت لاگ و داده های Observability و دیتابیس های تحلیلی نوین مثل دروید، پینوت و کلیک هوس، سایر مباحث دوره ، مسایل اساسی حوزه مهندسی داده را پوشش میدهد.

شرکت در این دوره ها رایگان است (البته هنگام Enrolment یا ثبت نام باید گزینه Audit را انتخاب کنید ) اما امکانات کامل این وب سایت آموزشی مانند دادن گواهینامه و یا تصحیح تمرینات، نیاز به پرداخت هزینه خواهد داشت. البته می توانید درخواست حمایت مالی بدهید و دوره ها را به صورت کاملا رایگان و با تمام امکانات، دریافت کنید که در یوتیوب فارسی، چندین فیلم مختلف در رابطه با نحوه دریافت این کمک های مالی خواهید یافت.

Coursera

IBM Data Engineering

Offered by IBM. Prepare for a career as a Data Engineer. ... Enroll for free.

👍2

1.06K views18:49

مهندسی داده

چندی پیش وقتی گزارش Oreilly راجع به دستمزدها و پرداختی های حوزه پردازش داده/هوش مصنوعی را بررسی می کردم در بخش کتابخانه های پایتون که آشنایی با آنها بیشترین درآمد را برای متخصصین این حوزه به همراه دارد، به کتابخانه Ray برخوردم که حقوق متوسط ۱۹۰ هزار دلاری برای آن، وسوسه انگیز به نظر میرسید و نشان میداد که بازار به این پروژه متن باز نیاز دارد. اما اینکه دقیقا چه مشکلی را این کتابخانه حل کرده است در نگاه نخست، به چشمم نیامد.

با بررسی اولیه این پروژه که کتابخانه های آن برای پایتون، جاوا و ++C در دسترس است، متوجه شدم که هدف اصلی آن، اجرای توزیع شده کدهای مرتبط با پردازش داده و بویژه انجام کارهای یادگیری ماشین بر این مبناست.

با توجه به وجود چارچوب های به نسبت جاافتاده و قدیمی این حوزه مانند اسپارک و فلینک، رواج یک فریمورک جدید و آن هم در این سطح، کمی برایم تعجب آور بود. با بررسی مثالهای موجود در مستندات رسمی Ray، دلیل اصلی این محبوبیت (البته از نقطه نظر بنده) را یافتم. با توجه به اینکه در آینده ای نزدیک از این کتابخانه، در ادبیات حوزه پردازش داده زیاد خواهید شنید، تصمیم گرفتم این تجربه را با شما هم اشتراک بگذارم.

اگر با اسپارک و هدوپ آشنا باشید، میدانید که این دو فریمورک پردازش توزیع شده داده ها که اولی جزء اصلی ترین بازیگران این حوزه هم محسوب می شود، علیرغم امکانات فراوان و سرعتی که با خود به همراه می آورند، یک ضعف بزرگ دارند و آن هم این است که باید برنامه های موجود خود را با استانداردهای آنها تطبیق دهید یعنی به سبک آنها کدنویسی کنید. قدم اول هم در این راستا، این است که توسعه دهندگان شما با اسپارک (یا فلینک یا آپاچی بیم) و نحوه برنامه نویسی با آن، آشنا شوند که این موضوع، خود مانعی بزرگ برای تیم های مختلفی است که فرصت آموزش یا نیروی ماهرِ آشنا به مباحث پردازش توزیع شده داده ها را ندارند.

فریمورک Ray این مانع را به درستی تشخیص داده است و دلیل محبوبیت و رواج آن هم به نظرم، همین نکته کلیدی است.

Ray به شما اجازه میدهد همان سبک برنامه نویسی معمولی خود را ادامه دهید و فقط با اضافه کردن یک خط کد در ابتدای تعریف تابع یا کلاس (از طریق دکوراتورها)و یک تغییر کوچک در هنگام فراخوانی این توابع، آنها را برای شما به صورت توزیع شده اجرا کند و نتیجه را به شما برگرداند.
--------------------------------------

اگر به این موضوع علاقه مند شدید، ادامه مقاله را می توانید در وب سایت مهندسی داده در لینک زیر،‌پیگیری کنید
yun.ir/mqf6ge

#مهندسی_داده #RAY #پردازش_توزیع_شده

👍3

1.33K views21:21

مهندسی داده

https://www.aparat.com/v/W03Jn

آپارات - سرویس اشتراک ویدیو

کارگاه آشنایی با دیتابیس تحلیلی آپاچی دروید - بخش اول - یلدای 1400 - نیک آموز

در این کارگاه یکساعته به بررسی امکانات و معماری آپاچی دروید به عنوان یکی از اصلی ترین دیتابیس های تحلیلی حوزه کلان داده می پردازیم.
توضیح اینکه به دلیل ضعف های دیتاویرهوس های سنتی، با توجه به حجم عظیم داده های ورودی در برنامه های مختلف کاربردی معاصر، نیازمند…

👍1

962 views15:57

مهندسی داده

https://www.aparat.com/v/UYesn

آپارات - سرویس اشتراک ویدیو

کارگاه آشنایی با دیتابیس تحلیلی آپاچی دروید - بخش دوم - یلدای 1400 - نیک آموز

در این کارگاه یکساعته به بررسی امکانات و معماری آپاچی دروید به عنوان یکی از اصلی ترین دیتابیس های تحلیلی حوزه کلان داده می پردازیم. توضیح اینکه به دلیل ضعف های دیتاویرهوس های سنتی، با توجه به حجم عظیم داده های ورودی در برنامه های مختلف کاربردی معاصر، نیازمند…

1.04K views15:57

مهندسی داده

کارگاه یکساعته ای را برای معرفی و کار با دیتابیس تحلیلی آپاچی دروید به میزبانی موسسه نیک آموز به مناسبت یلدای ۱۴۰۰ برگزار کرده ام که فیلم این کارگاه در سه قسمت (معرفی / کارگاه عملی / پرسش و پاسخ ) تدوین و آماده استفاده علاقه مندان گردیده است.
اگر به این حوزه علاقه مند هستید میتوانید بعد از مشاهده این کارگاه یکساعته (سعی کرده ام خیلی خلاصه و مختصر آنرا برگزار کنم ) که لینک دو بخش ابتدایی آنرا در بالا مشاهده میکنید، فایلهای کارگاه شامل کدهای پایتون تولید داده های فیک در کافکا و داکر کامپوز مربوطه را از آدرس زیر دریافت و خودتان به کار با این دیتابیس آینده دار بپردازید :
https://github.com/irbigdata/workshops

GitHub

GitHub - irbigdata/workshops: مخزنی برای به اشتراک گذاری فایلهای مورد نیاز کارگاه های عملی برگزار شده

مخزنی برای به اشتراک گذاری فایلهای مورد نیاز کارگاه های عملی برگزار شده - GitHub - irbigdata/workshops: مخزنی برای به اشتراک گذاری فایلهای مورد نیاز کارگاه های عملی برگزار شده

👍7

1.53K viewsedited 16:03

مهندسی داده

Forwarded from PaaSino

⚪️ آموزش عملی داکر

❇️ در این دوره قراره با داکر به عنوان یک برنامه‌‌نویس کار کنیم. قدم به قدم جلو می‌ریم و با داکر و امکاناتش آشنا می‌شیم.
پروژه‌ای که روش کار می‌کنیم یک اپ جنگو هست که به یک دیتابیس پستگرس متصل میشه.

🔹 قسمت اول - داستان کانتینرها
🎥 https://www.aparat.com/v/FRvmb

🔹 قسمت دوم - کار با ایمیج‌ها و بیلد ایمیج
🎥 https://www.aparat.com/v/kMcRz

🔹 قسمت سوم - اجرای کانتینرها با داکر
🎥 https://www.aparat.com/v/XcsD6

🔹 قسمت چهارم - کار با والیوم در داکر
🎥 https://www.aparat.com/v/6jyek

🔹 قسمت پنجم - استفاده از کش هنگام بیلد ایمیج
🎥 https://www.aparat.com/v/jAvQV

این لیست به روز رسانی میشه

#docker
🆔 @paasino

👍6

1.13K views08:01

مهندسی داده

Source: https://www.linkedin.com/posts/mehd-io_data-activity-7001913518148976640-j9_W

👍3😁1

920 views07:30

مهندسی داده

https://www.bigdata.ir/1402/08/%d9%86%da%af%d8%a7%d9%87%db%8c-%d8%a8%d9%87-%d9%88%d8%b6%d8%b9%db%8c%d8%aa-%d9%be%d8%b3%d8%aa%da%af%d8%b1%d8%b3/

مهندسی داده

چرا همچنان پستگرس را دوست داریم ؟ - مهندسی داده

در این نوشتار به این می‌پردازیم که چرا هنوز پستگرس را به عنوان یک ضرورت به فعالان حوزه دیتا بخصوص دوستانی که قصد کار حرفه‌ای در حوزه داده را دارند توصیه می کنیم ؟

723 views10:00

مهندسی داده

This is a repo with links to everything you'd ever want to learn about data engineering

https://github.com/DataEngineer-io/data-engineer-handbook?

GitHub

GitHub - DataExpert-io/data-engineer-handbook: This is a repo with links to everything you'd ever want to learn about data engineering

This is a repo with links to everything you'd ever want to learn about data engineering - DataExpert-io/data-engineer-handbook

🙏2

738 views20:16

مهندسی داده

اگر در کارهای روزانه ، با پستگرس سر و کار دارید، این مقاله خوب را از دست ندهید و به کمک اون، مروری سریع بر تکنیک‌های مانیتورینگ و افزایش کارآیی این دیتابیس قدرتمند داشته باشید
https://blog.stackademic.com/unleashing-the-full-power-of-postgresql-a-definitive-guide-to-supercharge-performance-a8ce725725ac

Medium

Unleashing the Full Power of PostgreSQL: A Definitive Guide to Supercharge Performance!

Boost Your Application’s Performance with Expert Techniques and Top Monitoring Tools!

757 views23:17

مهندسی داده

Forwarded from Mohammad Mahdi Mohebali

https://careers.digikala.com/position/519190/

Digikala

فرصت‌های شغلی در دیجی کالا

... فرصت‌های شغلی در دیجی‌کالا رو ببین و رزومه‌ات رو ارسال کن! دیجی‌کالا فرصتی برات می‌سازه تا بتونی موفقیت‌هات رو به سبک خودت روایت کنی. اینجا همه چیز، با تو آغاز می‌شود!

552 views19:04

مهندسی داده

Kubernetes for Data Engineers
یک مقاله مفید و مختصر در خصوص آشنایی با کوبرنتیز برای مهندسین داده با لینک‌های مناسب برای شروع کار
We do live in the Age of Containers, it’s the world we all live in. Docker has become standard. Data has grown. Everyone and everything is in the cloud. The Modern Data Stack we’ve all been working low these many hard years has only made the need for an agnostic and scalable container platform more real.

And this brings us to today’s topic.

We want to give Data Engineers an introduction to Kubernetes. It’s a tool everyone talks about, but not that many folks get a chance to get their hands dirty with.
https://dataengineeringcentral.substack.com/p/kubernetes-for-data-engineers?utm_source=substack&utm_medium=email

Substack

Kubernetes for Data Engineers

The Age of Containers

❤8

614 views19:06

مهندسی داده

بعد از اتمام دوره بیگ‌دیتای همکاران سیستم، یکی از دانشجویان این دوره به من پیام داد که اگر بخواهم یک کار عملی توی حوزه مهندسی داده انجام بدم که مفاهیم اصلی مورد نیاز را به صورت عملی کار کنم، چه پروژه ای پیشنهاد می‌دهید.
پیشنهاد من ایجاد یک خط پردازش داده بود که داده‌های یک وب سایت تجاری به کمک CDC و Debezium از پستگرس دریافت و وارد کافکا شود. در مرحله بعد هم این داده‌ها به صورت خودکار توسط کلیک‌هوس دریافت شده و در جداول تحلیلی متناظر در Clickhouse‌ ذخیره شده و نهایتا با ابزارهای گرافیکی نمایش داده شود.
برای تولید داده‌ها هم از ایرفلو در بازه‌های زمانی کوتاه برای شبیه سازی یک وب‌سایت خرید و فروش محصول، استفاده شود.
خروجی ای که آقا بهنام یزدان‌پناهی @behnamyzp عزیز آماده کرد خیلی فراتر از انتظارم بود.
کل پروژه که روند فوق در آن پیاده سازی شده و نتایج در گرافانا نمایش داده شده است به همراه توضیحات لازم برای اجرای آن در آدرس زیر قرار گرفته است :‌
https://github.com/behnamyazdan/ecommerce_realtime_data_pipeline/
برای دوستانی که علاقه‌مند به حوزه مهندسی داده و مباحث زیرساختی هستند، یک نقطه شروع بسیار عالی است و برای دوستانی که با پستگرس کار می‌کنند می‌توانند از ایده انتقال داده‌ها به کلیک هوس و اجرای کوئری‌های تحلیلی بر روی آن استفاده کنند.
هر چند بهتر است ساختار طراحی شده برای کلیک هوس تغییر کند به گونه‌ای که به جای تمامی جداول بخش خرید و فروش، چند جدول اصلی اما بزرگ (با حذف نرمال‌سازی که در دیتابیس‌های تحلیلی کاملا روال است)‌ داشته باشیم و با ابزارهایی مانند dbt، با اجرای کوئری‌هایی در بازه‌های زمانی کوتاه، این جداول تحلیلی از روی جداول پایه دریافت شده از کافکا، پرشده و جداول پایه، با تنظیم مقدار TTL‌ مناسب، به صورت خودکار حذف شوند.
ضمن تشکر مجدد از آقا بهنام عزیز ، این پست را با کسب اجازه از ایشان در اینجا منتشر میکنم. باشد که برای علاقه‌مندان، مفید باشد.
لینک توضیحات خود بهنام عزیز در لینکدین :
https://www.linkedin.com/posts/behnam-yazdanpanahi_ecommerceabrdataabrpipeline-cdc-kafka-activity-7172687833793445888-USBb
#مهندسی_داده #clickhouse #airflow #cdc #postgresql #Debezium #پستگرس #خطوط_پردازش_داده

GitHub

GitHub - behnamyazdan/ecommerce_realtime_data_pipeline: Ecommerce Realtime Data Pipeline (Data Modeling, Workflow Orchestration…

Ecommerce Realtime Data Pipeline (Data Modeling, Workflow Orchestration, Change Data Capture, Analytical Database and Dashboarding) - behnamyazdan/ecommerce_realtime_data_pipeline

❤9

660 viewsedited 23:52

مهندسی داده

❤3

668 views23:53

مهندسی داده

فرا رسیدن سال نو همیشه نوید بخش افکار نو،

کردار نو و تصمیم های نو برای آینده است،

آینده ای که همه امید داریم بهتر از گذشته باشد.

برای تمامی عزیزان کانال مهندسی داده، شادی و تندرستی آرزو میکنم. می دانم که زندگی همیشه مملو از دشواری و چالش است اما امیدوارم در سال نو، بتوانیم معادلات پیچیده‌ی زندگی را با آرامش و موفقیت حل کنیم.
در سال جدید، برنامه دارم که این کانال و سایت مهندسی داده را به صورت منظم‌تر و کارآمدتر به روزرسانی کنم و مطالب مفید و به روز دنیای بسیار متنوع مهندسی داده را به صورت دست‌چین‌ شده در اختیار شما عزیزان قرار دهم. امیدوارم که بتوانم در این مسیر با دعای خیر و انرژی مثبت شما موفق شوم.
ارادتمند
مجتبی بنائی
#سال_نو_مبارک 🌺

❤10

634 viewsedited 20:13

About

Blog

Apps

Platform