مهندسی داده

در این کارگاه یکساعته به بررسی امکانات و معماری آپاچی دروید به عنوان یکی از اصلی ترین دیتابیس های تحلیلی حوزه کلان داده می پردازیم. توضیح اینکه به دلیل ضعف های دیتاویرهوس های سنتی، با توجه به حجم عظیم داده های ورودی در برنامه های مختلف کاربردی معاصر، نیازمند…

1.04K views15:57

مهندسی داده

کارگاه یکساعته ای را برای معرفی و کار با دیتابیس تحلیلی آپاچی دروید به میزبانی موسسه نیک آموز به مناسبت یلدای ۱۴۰۰ برگزار کرده ام که فیلم این کارگاه در سه قسمت (معرفی / کارگاه عملی / پرسش و پاسخ ) تدوین و آماده استفاده علاقه مندان گردیده است.
اگر به این حوزه علاقه مند هستید میتوانید بعد از مشاهده این کارگاه یکساعته (سعی کرده ام خیلی خلاصه و مختصر آنرا برگزار کنم ) که لینک دو بخش ابتدایی آنرا در بالا مشاهده میکنید، فایلهای کارگاه شامل کدهای پایتون تولید داده های فیک در کافکا و داکر کامپوز مربوطه را از آدرس زیر دریافت و خودتان به کار با این دیتابیس آینده دار بپردازید :
https://github.com/irbigdata/workshops

GitHub

GitHub - irbigdata/workshops: مخزنی برای به اشتراک گذاری فایلهای مورد نیاز کارگاه های عملی برگزار شده

مخزنی برای به اشتراک گذاری فایلهای مورد نیاز کارگاه های عملی برگزار شده - GitHub - irbigdata/workshops: مخزنی برای به اشتراک گذاری فایلهای مورد نیاز کارگاه های عملی برگزار شده

👍7

1.53K viewsedited 16:03

مهندسی داده

Forwarded from PaaSino

⚪️ آموزش عملی داکر

❇️ در این دوره قراره با داکر به عنوان یک برنامه‌‌نویس کار کنیم. قدم به قدم جلو می‌ریم و با داکر و امکاناتش آشنا می‌شیم.
پروژه‌ای که روش کار می‌کنیم یک اپ جنگو هست که به یک دیتابیس پستگرس متصل میشه.

🔹 قسمت اول - داستان کانتینرها
🎥 https://www.aparat.com/v/FRvmb

🔹 قسمت دوم - کار با ایمیج‌ها و بیلد ایمیج
🎥 https://www.aparat.com/v/kMcRz

🔹 قسمت سوم - اجرای کانتینرها با داکر
🎥 https://www.aparat.com/v/XcsD6

🔹 قسمت چهارم - کار با والیوم در داکر
🎥 https://www.aparat.com/v/6jyek

🔹 قسمت پنجم - استفاده از کش هنگام بیلد ایمیج
🎥 https://www.aparat.com/v/jAvQV

این لیست به روز رسانی میشه

#docker
🆔 @paasino

👍6

1.13K views08:01

مهندسی داده

Source: https://www.linkedin.com/posts/mehd-io_data-activity-7001913518148976640-j9_W

👍3😁1

920 views07:30

مهندسی داده

https://www.bigdata.ir/1402/08/%d9%86%da%af%d8%a7%d9%87%db%8c-%d8%a8%d9%87-%d9%88%d8%b6%d8%b9%db%8c%d8%aa-%d9%be%d8%b3%d8%aa%da%af%d8%b1%d8%b3/

مهندسی داده

چرا همچنان پستگرس را دوست داریم ؟ - مهندسی داده

در این نوشتار به این می‌پردازیم که چرا هنوز پستگرس را به عنوان یک ضرورت به فعالان حوزه دیتا بخصوص دوستانی که قصد کار حرفه‌ای در حوزه داده را دارند توصیه می کنیم ؟

722 views10:00

مهندسی داده

This is a repo with links to everything you'd ever want to learn about data engineering

https://github.com/DataEngineer-io/data-engineer-handbook?

GitHub

GitHub - DataExpert-io/data-engineer-handbook: This is a repo with links to everything you'd ever want to learn about data engineering

This is a repo with links to everything you'd ever want to learn about data engineering - DataExpert-io/data-engineer-handbook

🙏2

737 views20:16

مهندسی داده

اگر در کارهای روزانه ، با پستگرس سر و کار دارید، این مقاله خوب را از دست ندهید و به کمک اون، مروری سریع بر تکنیک‌های مانیتورینگ و افزایش کارآیی این دیتابیس قدرتمند داشته باشید
https://blog.stackademic.com/unleashing-the-full-power-of-postgresql-a-definitive-guide-to-supercharge-performance-a8ce725725ac

Medium

Unleashing the Full Power of PostgreSQL: A Definitive Guide to Supercharge Performance!

Boost Your Application’s Performance with Expert Techniques and Top Monitoring Tools!

755 views23:17

مهندسی داده

Forwarded from Mohammad Mahdi Mohebali

https://careers.digikala.com/position/519190/

Digikala

فرصت‌های شغلی در دیجی کالا

... فرصت‌های شغلی در دیجی‌کالا رو ببین و رزومه‌ات رو ارسال کن! دیجی‌کالا فرصتی برات می‌سازه تا بتونی موفقیت‌هات رو به سبک خودت روایت کنی. اینجا همه چیز، با تو آغاز می‌شود!

551 views19:04

مهندسی داده

Kubernetes for Data Engineers
یک مقاله مفید و مختصر در خصوص آشنایی با کوبرنتیز برای مهندسین داده با لینک‌های مناسب برای شروع کار
We do live in the Age of Containers, it’s the world we all live in. Docker has become standard. Data has grown. Everyone and everything is in the cloud. The Modern Data Stack we’ve all been working low these many hard years has only made the need for an agnostic and scalable container platform more real.

And this brings us to today’s topic.

We want to give Data Engineers an introduction to Kubernetes. It’s a tool everyone talks about, but not that many folks get a chance to get their hands dirty with.
https://dataengineeringcentral.substack.com/p/kubernetes-for-data-engineers?utm_source=substack&utm_medium=email

Substack

Kubernetes for Data Engineers

The Age of Containers

❤8

613 views19:06

مهندسی داده

بعد از اتمام دوره بیگ‌دیتای همکاران سیستم، یکی از دانشجویان این دوره به من پیام داد که اگر بخواهم یک کار عملی توی حوزه مهندسی داده انجام بدم که مفاهیم اصلی مورد نیاز را به صورت عملی کار کنم، چه پروژه ای پیشنهاد می‌دهید.
پیشنهاد من ایجاد یک خط پردازش داده بود که داده‌های یک وب سایت تجاری به کمک CDC و Debezium از پستگرس دریافت و وارد کافکا شود. در مرحله بعد هم این داده‌ها به صورت خودکار توسط کلیک‌هوس دریافت شده و در جداول تحلیلی متناظر در Clickhouse‌ ذخیره شده و نهایتا با ابزارهای گرافیکی نمایش داده شود.
برای تولید داده‌ها هم از ایرفلو در بازه‌های زمانی کوتاه برای شبیه سازی یک وب‌سایت خرید و فروش محصول، استفاده شود.
خروجی ای که آقا بهنام یزدان‌پناهی @behnamyzp عزیز آماده کرد خیلی فراتر از انتظارم بود.
کل پروژه که روند فوق در آن پیاده سازی شده و نتایج در گرافانا نمایش داده شده است به همراه توضیحات لازم برای اجرای آن در آدرس زیر قرار گرفته است :‌
https://github.com/behnamyazdan/ecommerce_realtime_data_pipeline/
برای دوستانی که علاقه‌مند به حوزه مهندسی داده و مباحث زیرساختی هستند، یک نقطه شروع بسیار عالی است و برای دوستانی که با پستگرس کار می‌کنند می‌توانند از ایده انتقال داده‌ها به کلیک هوس و اجرای کوئری‌های تحلیلی بر روی آن استفاده کنند.
هر چند بهتر است ساختار طراحی شده برای کلیک هوس تغییر کند به گونه‌ای که به جای تمامی جداول بخش خرید و فروش، چند جدول اصلی اما بزرگ (با حذف نرمال‌سازی که در دیتابیس‌های تحلیلی کاملا روال است)‌ داشته باشیم و با ابزارهایی مانند dbt، با اجرای کوئری‌هایی در بازه‌های زمانی کوتاه، این جداول تحلیلی از روی جداول پایه دریافت شده از کافکا، پرشده و جداول پایه، با تنظیم مقدار TTL‌ مناسب، به صورت خودکار حذف شوند.
ضمن تشکر مجدد از آقا بهنام عزیز ، این پست را با کسب اجازه از ایشان در اینجا منتشر میکنم. باشد که برای علاقه‌مندان، مفید باشد.
لینک توضیحات خود بهنام عزیز در لینکدین :
https://www.linkedin.com/posts/behnam-yazdanpanahi_ecommerceabrdataabrpipeline-cdc-kafka-activity-7172687833793445888-USBb
#مهندسی_داده #clickhouse #airflow #cdc #postgresql #Debezium #پستگرس #خطوط_پردازش_داده

GitHub

GitHub - behnamyazdan/ecommerce_realtime_data_pipeline: Ecommerce Realtime Data Pipeline (Data Modeling, Workflow Orchestration…

Ecommerce Realtime Data Pipeline (Data Modeling, Workflow Orchestration, Change Data Capture, Analytical Database and Dashboarding) - behnamyazdan/ecommerce_realtime_data_pipeline

❤9

659 viewsedited 23:52

مهندسی داده

❤3

667 views23:53

مهندسی داده

فرا رسیدن سال نو همیشه نوید بخش افکار نو،

کردار نو و تصمیم های نو برای آینده است،

آینده ای که همه امید داریم بهتر از گذشته باشد.

برای تمامی عزیزان کانال مهندسی داده، شادی و تندرستی آرزو میکنم. می دانم که زندگی همیشه مملو از دشواری و چالش است اما امیدوارم در سال نو، بتوانیم معادلات پیچیده‌ی زندگی را با آرامش و موفقیت حل کنیم.
در سال جدید، برنامه دارم که این کانال و سایت مهندسی داده را به صورت منظم‌تر و کارآمدتر به روزرسانی کنم و مطالب مفید و به روز دنیای بسیار متنوع مهندسی داده را به صورت دست‌چین‌ شده در اختیار شما عزیزان قرار دهم. امیدوارم که بتوانم در این مسیر با دعای خیر و انرژی مثبت شما موفق شوم.
ارادتمند
مجتبی بنائی
#سال_نو_مبارک 🌺

❤10

631 viewsedited 20:13

مهندسی داده

arch_v3_workshops.jpg

309.2 KB

یکی از کانال‌های فعال یوتیوب در زمینه مهندسی داده، کانال DataTalksClub است که به صورت منظم ابزارهای نوین حوزه مهندسی و علم داده را معرفی میکند و مطالب و کارگاه‌ها و رخدادهای زیادی را هم در این حوزه به کمک جامعه کاربری خود مدیریت می‌کند.

یکی از رخدادهایی که این سایت به صورت منظم برگراز میکند، کارگاه عملی مبانی مهندسی داده با Data Engineering Zoomcamp است. اگر علاقه‌مند به یادگیری مفاهیم اولیه مهندسی داده هستید و یا در این حوزه مشغول به فعالیت هستید و مایلید با ابزارهای نسبتا جدید این حوزه مانند Mage.ai‌ , RisingWave (میج یکی از گزینه های اصلی جایگزینی با ایرفلو در خطوط پردازش داده است) و یا data load tool (dlt)به صورت عملی کار کنید، این کارگاه مناسب شماست.
https://github.com/DataTalksClub/data-engineering-zoomcamp

👍1

612 views20:16

مهندسی داده

https://dev.to/taipy/21-ai-tools-that-are-changing-the-world-1o54
کدنویسی جزء ضروری کارهای روزانه یک مهندس داده است و امروزه ابزارهای متنوعی برای افزایش کارآیی برنامه نویسی از طریق هوش مصنوعی، ایجاد و توسعه داده شده‌اند. اگر روزانه به کدنویسی بخصوص با VS Code‌ مشغول هستید این لیست ارزشمند را از دست ندهید.

DEV Community

21 AI Tools that are changing the World

The world is full of promising AI tools like Sora, ChatGPT, and more coming along the way. I've...

542 views16:28

مهندسی داده

به نظر می رسد زبان جدید موجو که توسط یکی از نام‌‌های مطرح در اکوسیستم طراحی زبان‌های نوین برنامه‌نویسی و با در نظرگرفتن تمامی پیشرفتهای سخت‌افزاری و نرم افزاری اخیر در این حوزه پا به عرصه وجود گذاشته است با گرامری تقریبا شبیه پایتون و با سرعتی بالاتر از Rust یکی از اصلی ترین گزینه‌های سال‌های آتی برای حوزه هوش مصنوعی و مهندسی داده خواهد بود.
https://www.bigdata.ir/1403/02/mojo-%d8%af%d8%b1-%d9%85%d9%82%d8%a7%d8%a8%d9%84-rust-%d8%a8%d8%b1%d9%86%d8%af%d9%87-%d9%82%d8%b7%d8%b9%d8%a7-mojo-%d8%ae%d9%88%d8%a7%d9%87%d8%af-%d8%a8%d9%88%d8%af/

مهندسی داده

Mojo‌ در مقابل Rust‌ :‌برنده قطعا Mojo خواهد بود! - مهندسی داده

آیا زبان Mojo‌ میتواند دغدغه فعالان هوش مصنوعی در خصوص کارآیی پایین پایتون را رفع کند ؟ در این نوشتار به این موضوع و مقایسه این زبان با Rust‌ می پردازیم.

👍2

400 viewsedited 11:09

مهندسی داده

2.jpg

119.9 KB

یکی از پروژه‌های بنیاد آپاچی که امروزه به تدریج در اخبار و مقالات حوزه داده در حال دیده‌شدن است، Apache XTable است. این پروژه تنها یک هدف دارد و آن هم امکان تبدیل سه فرمت رایج ساخت Lakehouse یعنی
- Deltalake
- Apache Iceberge
- Apache Hudi
است که در شکل الصاق‌شده هم به تصویر کشیده شده است . در این شکل تیم B از طریق XTable, داده‌های تیم A که به فرمت Hudi ذخیره شده است را به Iceberge تبدیل کرده و در کنار سایر داده‌های خود، آنها را با Dremio پردازش میکند.
پ.ن. امروزه به نظر می‌رسد که Apache Iceberge در حال جذب کاربران بیشتری است و اگر قصد طراحی یک Lakehouse را دارید، از ابتدا این فرمت را انتخاب کنید.
Lakehouse
چیست؟
ترکیب دریاچه داده (که داده‌ها را به صورت خام و معمولا به صورت Parquet و مانند آن نگهداری می‌کند) و انباره داده است که اجازه میدهد بتوانیم داده‌های خام را با ذخیره‌کردن متادیتا، به نوعی دیتابیس تبدیل کنیم که مستقیما قابل کوئری گرفتن و استفاده در ابزارهای تحلیلی و گزارش سازی باشد
مقاله اصلی : https://www.onehouse.ai/blog/dremio-lakehouse-analytics-with-hudi-and-iceberg-using-xtable

👍5

424 viewsedited 19:20

مهندسی داده

Forwarded from عکس نگار

‍ آیا ترتیب ستون‌ها در کارآیی دیتابیس، موثر است ؟
اگر شما هم فکر می‌کنید که ترتیب ستون‌ها تاثیری در اجرای کوئری ها ندارد، مقاله زیر که به بررسی این موضوع در پستگرس پرداخت است را از دست ندهید .
https://demirhuseyinn-94.medium.com/the-surprising-power-of-humble-column-ordering-in-postgresql-ce7c7d587a27
خلاصه مقاله این است که فیلد‌های با طول متغیر و فیلدهای Nullable بهتر است به انتهای لیست منتقل شوند و فیلدهای مشابه کنار هم قرار گیرند.
CREATE TABLE user_order_default (
is_shipped BOOLEAN NOT NULL DEFAULT false,
user_id BIGINT NOT NULL,
order_total NUMERIC NOT NULL,
order_dt TIMESTAMPTZ NOT NULL,
order_type SMALLINT NOT NULL,
ship_dt TIMESTAMPTZ,
item_ct INT NOT NULL,
ship_cost NUMERIC,
receive_dt TIMESTAMPTZ,
tracking_cd TEXT,
id BIGSERIAL PRIMARY KEY NOT NULL
);

CREATE TABLE user_order_tweaked (
id BIGSERIAL PRIMARY KEY NOT NULL,
user_id BIGINT NOT NULL,
order_dt TIMESTAMPTZ NOT NULL,
ship_dt TIMESTAMPTZ,
receive_dt TIMESTAMPTZ,
item_ct INT NOT NULL,
order_type SMALLINT NOT NULL,
is_shipped BOOLEAN NOT NULL DEFAULT false,
order_total NUMERIC NOT NULL,
ship_cost NUMERIC,
tracking_cd TEXT
);

‍‍‍SELECT pg_relation_size('user_order_default') AS size_bytes,
pg_size_pretty(pg_relation_size('user_order_default')) AS size_pretty;

SELECT pg_relation_size('user_order_tweaked') AS size_bytes,
pg_size_pretty(pg_relation_size('user_order_tweaked')) AS size_pretty;

size_bytes | size_pretty
------------+-------------
141246464 | 135 MB
(1 row)

size_bytes | size_pretty
------------+-------------
117030912 | 112 MB

تفاوت اندازه دو تا جدول فوق که تنها ترتیب ستون‌های آنها متفاوت است را در پستگرس مشاهده میکنید (بخشی از مقاله فوق) که کاملا نشان میدهد فضای ذخیره سازی متاثر از ترتیب ستون‌هاست و سرعت پاسخگویی کوئری‌ها هم قطعا تحث تاثیر قرار خواهد گرفت.

#postgresql #column_ordering #postgresql_performance

👍6

509 views18:47

مهندسی داده

Forwarded from عکس نگار

‍ پستگرس که «در لطافت طبعش خلاف نیست»، به قول سعدی علیه الرحمه «در باغ لاله روید و در شوره زار خس». مفسرین بر این باورند که منظور شیخ این بوده است که این دیتابیس، گاهی اوقات بسیار عالی و خوب عمل می‌کند و برای بسیاری از کاربردهای امروزی که نیاز به کوئری‌های پیچیده روی حجم عظیم دیتای ورودی داریم، ما را با چالش‌های جدی مواجه می‌کند.
در وبینار زیر، به این پرسش اساسی پاسخ می‌دهیم که اگر با پستگرس در مواجهه با داده‌های زیاد به چالش برخوردیم،‌ چه کنیم و اصلا آیا پستگرس برای خیلی از نیازمندیهای امروز می‌تواند گزینه مناسبی باشد یا نه ؟ مروری بر راه‌حل‌های کلاسیک این مساله و راه‌حل‌هایی که در چند سال اخیر پیش روی ما قرار گرفته است می‌پردازیم.
دیتابیس‌هایی مبتنی بر پستگرس مانند ParadeDB، دیتابیس‌هایی با پروتکل پستگرس مانند CockroachDB و RisingWave‌ و افزونه‌هایی مانند Hydra را بررسی می کنیم.
اگر در حال استفاده از پستگرس هستید و نگرانی‌هایی راجع به آن در مواجهه با نیازمندیهای جدید دارید،‌ شاید این وبینار که به صورت عملی برگزار خواهد شد، برای شما مفید باشد.
https://anisa.co.ir/fa/news/2-uncategorised/298-workshop-23.html
#پستگرس #Postgres #PostgreSQL

👍7

534 views18:55

مهندسی داده

Kubernetes for teenagers.pdf

5.7 MB

کوبرنتیز برای نوجوانان

❤1

1.05K views07:42

مهندسی داده

Forwarded from عکس نگار

‍ کوبرنتیز برای نوجوانان 👆👆
اگر تاکنون فرصت نکرده‌اید با کوبرنتیز کار کنید، این کتاب مختصر و مفید که به کمک شکل و کد و بدون توضیحات اضافه، شما را مستقیم وارد دنیای جذاب مدیریت
پاد‌ها و کانتینرها با کوبرنتیز میکند، می‌تواند نقطه شروع خوبی برای شما باشد.
#کوبرنتیز #kubernetes

❤3👍1

813 views07:44

مهندسی داده

در دنیای امروز که با حجم عظیم داده‌ها و افزایش روزافزون سرعت تولید آن‌ها روبرو هستیم، نیازهای جستجو و تحلیل به‌موقع داده‌ها، ما را با چالش‌هایی مواجه می‌سازد که رفع آن‌ها مستلزم دانش عمیق در زمینه زیرساخت‌های پایگاه‌های داده است. تنها با بهره‌گیری از این دانش است که می‌توانیم نقاط ضعف را شناسایی کرده و راهکارهای مناسب را برای پیشبرد اهداف کسب و کار خود اتخاذ نماییم. بدون درک کافی از پشت صحنه مدیریت و پردازش داده‌های حجیم، غلبه بر موانع و دستیابی به عملکرد مطلوب، امری دشوار خواهد بود. کتاب Database Performance at Scale‌ میتواند این دید عمیق و مهندسی را به شما بدهد.
https://www.bigdata.ir/1403/02/%d9%85%d8%b9%d8%b1%d9%81-%da%a9%d8%aa%d8%a7%d8%a8-database-performance-at-scale/

مهندسی داده

معرفی کتاب : Database Performance at Scale - مهندسی داده

معرفی کتاب بررسی عوامل موثر بر کارآیی دیتابیس در مقیاس بزرگ که به عنوان یک مرجع مناسب برای مهندسین داده در عمق بخشیدن به بینش مهندسی آنها می‌تواند استفاده شود در این نوشته انجام شده است.

👍4❤1

522 viewsedited 09:14

About

Blog

Apps

Platform