بیژن موعودی اخیرا وبیناری در خصوص معماری داده شرکت الوپیک برگزار کرده است که در این مقاله به بررسی این معماری و اجزای اصلی آن می پردازیم.
نکته اصلی در مورد این معماری این است که از تقریبا جدیدترین فناوری های حوزه ساخت دریاچه داده و ساخت خطوط داده در آن استفاده شده است که نشان از وجود تیمی کاملا متخصص در حوزه مهندسی داده در شرکت الوپیک است . اگر به مباحث زیرساختی و فناوریهای مرتبط علاقه مند هستید توصیه می کنم هم وبینار را گوش کنید و هم تحلیل سایت مهندسی داده در این زمینه را بررسی نمایید.
#معماری_داده #مهندسی_داده #اسپارک #هدوپ #airflow #CDC #debezium #superset #hive
https://bit.ly/3q9SMKK
نکته اصلی در مورد این معماری این است که از تقریبا جدیدترین فناوری های حوزه ساخت دریاچه داده و ساخت خطوط داده در آن استفاده شده است که نشان از وجود تیمی کاملا متخصص در حوزه مهندسی داده در شرکت الوپیک است . اگر به مباحث زیرساختی و فناوریهای مرتبط علاقه مند هستید توصیه می کنم هم وبینار را گوش کنید و هم تحلیل سایت مهندسی داده در این زمینه را بررسی نمایید.
#معماری_داده #مهندسی_داده #اسپارک #هدوپ #airflow #CDC #debezium #superset #hive
https://bit.ly/3q9SMKK
مهندسی داده
بررسی معماری داده شرکت الوپیک - مهندسی داده
معماری داده شرکت الوپیک که توسط مدیر تیم دیتای این شرکت در یک وبینار اخیرا تشریح شده است در این نوشتار بررسی و اجزای اصلی آن، مرور شده است.
بعد از اتمام دوره بیگدیتای همکاران سیستم، یکی از دانشجویان این دوره به من پیام داد که اگر بخواهم یک کار عملی توی حوزه مهندسی داده انجام بدم که مفاهیم اصلی مورد نیاز را به صورت عملی کار کنم، چه پروژه ای پیشنهاد میدهید.
پیشنهاد من ایجاد یک خط پردازش داده بود که دادههای یک وب سایت تجاری به کمک CDC و Debezium از پستگرس دریافت و وارد کافکا شود. در مرحله بعد هم این دادهها به صورت خودکار توسط کلیکهوس دریافت شده و در جداول تحلیلی متناظر در Clickhouse ذخیره شده و نهایتا با ابزارهای گرافیکی نمایش داده شود.
برای تولید دادهها هم از ایرفلو در بازههای زمانی کوتاه برای شبیه سازی یک وبسایت خرید و فروش محصول، استفاده شود.
خروجی ای که آقا بهنام یزدانپناهی @behnamyzp عزیز آماده کرد خیلی فراتر از انتظارم بود.
کل پروژه که روند فوق در آن پیاده سازی شده و نتایج در گرافانا نمایش داده شده است به همراه توضیحات لازم برای اجرای آن در آدرس زیر قرار گرفته است :
https://github.com/behnamyazdan/ecommerce_realtime_data_pipeline/
برای دوستانی که علاقهمند به حوزه مهندسی داده و مباحث زیرساختی هستند، یک نقطه شروع بسیار عالی است و برای دوستانی که با پستگرس کار میکنند میتوانند از ایده انتقال دادهها به کلیک هوس و اجرای کوئریهای تحلیلی بر روی آن استفاده کنند.
هر چند بهتر است ساختار طراحی شده برای کلیک هوس تغییر کند به گونهای که به جای تمامی جداول بخش خرید و فروش، چند جدول اصلی اما بزرگ (با حذف نرمالسازی که در دیتابیسهای تحلیلی کاملا روال است) داشته باشیم و با ابزارهایی مانند dbt، با اجرای کوئریهایی در بازههای زمانی کوتاه، این جداول تحلیلی از روی جداول پایه دریافت شده از کافکا، پرشده و جداول پایه، با تنظیم مقدار TTL مناسب، به صورت خودکار حذف شوند.
ضمن تشکر مجدد از آقا بهنام عزیز ، این پست را با کسب اجازه از ایشان در اینجا منتشر میکنم. باشد که برای علاقهمندان، مفید باشد.
لینک توضیحات خود بهنام عزیز در لینکدین :
https://www.linkedin.com/posts/behnam-yazdanpanahi_ecommerceabrdataabrpipeline-cdc-kafka-activity-7172687833793445888-USBb
#مهندسی_داده #clickhouse #airflow #cdc #postgresql #Debezium #پستگرس #خطوط_پردازش_داده
پیشنهاد من ایجاد یک خط پردازش داده بود که دادههای یک وب سایت تجاری به کمک CDC و Debezium از پستگرس دریافت و وارد کافکا شود. در مرحله بعد هم این دادهها به صورت خودکار توسط کلیکهوس دریافت شده و در جداول تحلیلی متناظر در Clickhouse ذخیره شده و نهایتا با ابزارهای گرافیکی نمایش داده شود.
برای تولید دادهها هم از ایرفلو در بازههای زمانی کوتاه برای شبیه سازی یک وبسایت خرید و فروش محصول، استفاده شود.
خروجی ای که آقا بهنام یزدانپناهی @behnamyzp عزیز آماده کرد خیلی فراتر از انتظارم بود.
کل پروژه که روند فوق در آن پیاده سازی شده و نتایج در گرافانا نمایش داده شده است به همراه توضیحات لازم برای اجرای آن در آدرس زیر قرار گرفته است :
https://github.com/behnamyazdan/ecommerce_realtime_data_pipeline/
برای دوستانی که علاقهمند به حوزه مهندسی داده و مباحث زیرساختی هستند، یک نقطه شروع بسیار عالی است و برای دوستانی که با پستگرس کار میکنند میتوانند از ایده انتقال دادهها به کلیک هوس و اجرای کوئریهای تحلیلی بر روی آن استفاده کنند.
هر چند بهتر است ساختار طراحی شده برای کلیک هوس تغییر کند به گونهای که به جای تمامی جداول بخش خرید و فروش، چند جدول اصلی اما بزرگ (با حذف نرمالسازی که در دیتابیسهای تحلیلی کاملا روال است) داشته باشیم و با ابزارهایی مانند dbt، با اجرای کوئریهایی در بازههای زمانی کوتاه، این جداول تحلیلی از روی جداول پایه دریافت شده از کافکا، پرشده و جداول پایه، با تنظیم مقدار TTL مناسب، به صورت خودکار حذف شوند.
ضمن تشکر مجدد از آقا بهنام عزیز ، این پست را با کسب اجازه از ایشان در اینجا منتشر میکنم. باشد که برای علاقهمندان، مفید باشد.
لینک توضیحات خود بهنام عزیز در لینکدین :
https://www.linkedin.com/posts/behnam-yazdanpanahi_ecommerceabrdataabrpipeline-cdc-kafka-activity-7172687833793445888-USBb
#مهندسی_داده #clickhouse #airflow #cdc #postgresql #Debezium #پستگرس #خطوط_پردازش_داده
GitHub
GitHub - behnamyazdan/ecommerce_realtime_data_pipeline: Ecommerce Realtime Data Pipeline (Data Modeling, Workflow Orchestration…
Ecommerce Realtime Data Pipeline (Data Modeling, Workflow Orchestration, Change Data Capture, Analytical Database and Dashboarding) - behnamyazdan/ecommerce_realtime_data_pipeline
❤9