🔵 عنوان مقاله
Exploring Postgres to Parquet Archival for JSON Data with S3 Range Reads
🟢 خلاصه مقاله:
این مقاله یک الگوی بایگانی داده ارائه میکند: انتقال رکوردهای سرد JSON از Postgres به فایلهای Parquet روی S3 برای کاهش هزینه و فشار عملیاتی، در حالیکه امکان بازیابی سریع حفظ میشود. دادهها با کلیدهایی مثل tenant_id و تاریخ پارتیشنبندی میشوند، با ابزارهایی مانند pyarrow یا Spark به Parquet (با فشردهسازی Snappy/ZSTD و اندازه row group مناسب) تبدیل میگردند و در S3 با مسیرهای قابل پیشبینی ذخیره میشوند. برای بازیابی تند، با تکیه بر S3 Range Reads و متادیتای footer در Parquet فقط row groupها و column chunkهای لازم خوانده میشود؛ اگر lookup کلیدی بسیار سریع نیاز باشد، کنار هر فایل Parquet یک index کوچک نگهداری میشود که id را به بایترنچهای لازم نگاشت میکند. مسیر بازگردانی میتواند رکوردهای انتخابی را به Postgres برگرداند یا مستقیماً از S3 سرویس دهد؛ و موضوعاتی مانند رمزنگاری، نسخهبندی، lifecycle، و سنجش هزینه/کارایی نیز پوشش داده شده است.
#Postgres #Parquet #S3 #JSON #RangeReads #DataArchival #DataEngineering #AWS
🟣لینک مقاله:
https://postgresweekly.com/link/175387/web
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Exploring Postgres to Parquet Archival for JSON Data with S3 Range Reads
🟢 خلاصه مقاله:
این مقاله یک الگوی بایگانی داده ارائه میکند: انتقال رکوردهای سرد JSON از Postgres به فایلهای Parquet روی S3 برای کاهش هزینه و فشار عملیاتی، در حالیکه امکان بازیابی سریع حفظ میشود. دادهها با کلیدهایی مثل tenant_id و تاریخ پارتیشنبندی میشوند، با ابزارهایی مانند pyarrow یا Spark به Parquet (با فشردهسازی Snappy/ZSTD و اندازه row group مناسب) تبدیل میگردند و در S3 با مسیرهای قابل پیشبینی ذخیره میشوند. برای بازیابی تند، با تکیه بر S3 Range Reads و متادیتای footer در Parquet فقط row groupها و column chunkهای لازم خوانده میشود؛ اگر lookup کلیدی بسیار سریع نیاز باشد، کنار هر فایل Parquet یک index کوچک نگهداری میشود که id را به بایترنچهای لازم نگاشت میکند. مسیر بازگردانی میتواند رکوردهای انتخابی را به Postgres برگرداند یا مستقیماً از S3 سرویس دهد؛ و موضوعاتی مانند رمزنگاری، نسخهبندی، lifecycle، و سنجش هزینه/کارایی نیز پوشش داده شده است.
#Postgres #Parquet #S3 #JSON #RangeReads #DataArchival #DataEngineering #AWS
🟣لینک مقاله:
https://postgresweekly.com/link/175387/web
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Shayon Mukherjee
Exploring PostgreSQL to Parquet archival for JSON data with S3 range reads
Moving large JSON payloads from PostgreSQL TOAST tables to Parquet on S3 with deterministic sharding, row-group pruning, and range-based reads for millisecond point lookups.
❤1