🔵 عنوان مقاله
Building a Scalable Data Warehouse Backup System with AWS (6 minute read)
🟢 خلاصه مقاله:
اسکریبد یک سامانه پشتیبانگیری مقیاسپذیر برای انبارهای داده مبتنی بر S3 در مقیاس پتابایت ساخته است که چندین پایگاهداده را پوشش میدهد. این راهکار با رویکرد ترکیبی از AWS Lambda برای بارهای کوچک و ECS Fargate برای بارهای بزرگ، پشتیبانگیری ماهانه و افزایشی انجام میدهد؛ به این صورت که فقط فایلهای Parquet جدید یا تغییرکرده کپی میشوند و در عین حال delta logs همیشه نگه داشته میشوند تا امکان بازسازی حالتها وجود داشته باشد. اعتبارسنجی دادهها با تکیه بر S3 Inventory manifests انجام میشود و پردازشها بهصورت موازی برای افزایش کارایی اجرا میگردند. در پایان، نسخههای پشتیبان برای نگهداری بلندمدت در Glacier بایگانی میشوند.
#AWS #S3 #DataWarehouse #Backup #ECSFargate #Lambda #Parquet #Glacier
🟣لینک مقاله:
https://tech.scribd.com/blog/2025/building-scalable-data-warehouse-backup-system.html?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Building a Scalable Data Warehouse Backup System with AWS (6 minute read)
🟢 خلاصه مقاله:
اسکریبد یک سامانه پشتیبانگیری مقیاسپذیر برای انبارهای داده مبتنی بر S3 در مقیاس پتابایت ساخته است که چندین پایگاهداده را پوشش میدهد. این راهکار با رویکرد ترکیبی از AWS Lambda برای بارهای کوچک و ECS Fargate برای بارهای بزرگ، پشتیبانگیری ماهانه و افزایشی انجام میدهد؛ به این صورت که فقط فایلهای Parquet جدید یا تغییرکرده کپی میشوند و در عین حال delta logs همیشه نگه داشته میشوند تا امکان بازسازی حالتها وجود داشته باشد. اعتبارسنجی دادهها با تکیه بر S3 Inventory manifests انجام میشود و پردازشها بهصورت موازی برای افزایش کارایی اجرا میگردند. در پایان، نسخههای پشتیبان برای نگهداری بلندمدت در Glacier بایگانی میشوند.
#AWS #S3 #DataWarehouse #Backup #ECSFargate #Lambda #Parquet #Glacier
🟣لینک مقاله:
https://tech.scribd.com/blog/2025/building-scalable-data-warehouse-backup-system.html?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Scribd Technology
Building a Scalable Data Lake Backup System with AWS
We designed and implemented a scalable, cost-optimized backup system for S3 data warehouses that runs automatically on a monthly schedule. The system handles petabytes of data across multiple databases and uses a hybrid approach: AWS Lambda for small workloads…