📌 Database Administrator
📝 Type: Remote
🏢 Company: deel
📍 Location: UNITED KINGDOM
⌨️ Category: #Networking
🔗 Tags: #nosql #postgresql #gcp #git #kubernetes #aws #docker #cloud #sql #payroll
📝 Type: Remote
🏢 Company: deel
📍 Location: UNITED KINGDOM
⌨️ Category: #Networking
🔗 Tags: #nosql #postgresql #gcp #git #kubernetes #aws #docker #cloud #sql #payroll
Jaabz
Database Administrator - Deel
Who We Are Is What We Do.Deel and our family of growing companies are made up of global teams dedicated to helping businesses hire anyone, anywhere, easily.The...
#موقعیت_شغلی
Database Administrator
🏷️ #python #oracle #perl #gcp #aws #bash #cloud #sql
🌎 Visa Sponsorship & Relocation Included
🔗 Click Here for More Details & Apply
Database Administrator
🏷️ #python #oracle #perl #gcp #aws #bash #cloud #sql
🌎 Visa Sponsorship & Relocation Included
🔗 Click Here for More Details & Apply
📌 Database Administration (DBA) Engineering Manager
📝 Type: Visa Sponsorship
🌍 Relocation Package: ✅
🏢 Company: TradingView
📍 Location: UNITED KINGDOM
⌨️ Category: #Programming
🔗 Tags: #javascript #python #reactjs #typescript #golang #mysql #postgresql #redis #kubernetes #aws #cloud
📝 Type: Visa Sponsorship
🌍 Relocation Package: ✅
🏢 Company: TradingView
📍 Location: UNITED KINGDOM
⌨️ Category: #Programming
🔗 Tags: #javascript #python #reactjs #typescript #golang #mysql #postgresql #redis #kubernetes #aws #cloud
🔵 عنوان مقاله
Spark Config Madness (3 minute read)
🟢 خلاصه مقاله:
اجرای Spark روی جدولهای Iceberg که توسط AWS Glue مدیریت میشوند، با استفاده از پکیجهای رسمی AWS Iceberg Glue، تمام عملیاتهای متداول مانند CTAS، MERGE، UPDATE، DELETE و INSERT را پشتیبانی میکند و قابلیتهایی مثل snapshot isolation و تکامل اسکیمای Iceberg را روی دادههای مبتنی بر S3 به ارمغان میآورد. با چند تنظیم ساده برای Spark—از جمله فعالسازی افزونههای Iceberg، تعریف Glue بهعنوان کاتالوگ، و استفاده از Default AWS Credential Chain—میتوان هم امنیت و هم انطباق با محیط تولید را حفظ کرد و از سختکد کردن رازها پرهیز نمود. با این رویکرد، ساخت جدولهای جدید با CTAS، انجام upsertها با MERGE و پاکسازی هدفمند دادهها ممکن میشود و Iceberg مدیریت متادیتا و همزمانی را بر عهده میگیرد. با این حال، پیچیدگی تنظیمات، سازگاری نسخهها و ظرایف کار با S3 یادآور میشود که استفاده از سرویسهای مدیریتشدهی Spark یا پایگاهدادهها میتواند هزینه و سربار مهندسی را بهطور معناداری کاهش دهد.
#ApacheSpark #AWS #AWSGlue #ApacheIceberg #S3 #DataEngineering #Lakehouse #ETL
🟣لینک مقاله:
https://performancede.substack.com/p/spark-config-madness?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Spark Config Madness (3 minute read)
🟢 خلاصه مقاله:
اجرای Spark روی جدولهای Iceberg که توسط AWS Glue مدیریت میشوند، با استفاده از پکیجهای رسمی AWS Iceberg Glue، تمام عملیاتهای متداول مانند CTAS، MERGE، UPDATE، DELETE و INSERT را پشتیبانی میکند و قابلیتهایی مثل snapshot isolation و تکامل اسکیمای Iceberg را روی دادههای مبتنی بر S3 به ارمغان میآورد. با چند تنظیم ساده برای Spark—از جمله فعالسازی افزونههای Iceberg، تعریف Glue بهعنوان کاتالوگ، و استفاده از Default AWS Credential Chain—میتوان هم امنیت و هم انطباق با محیط تولید را حفظ کرد و از سختکد کردن رازها پرهیز نمود. با این رویکرد، ساخت جدولهای جدید با CTAS، انجام upsertها با MERGE و پاکسازی هدفمند دادهها ممکن میشود و Iceberg مدیریت متادیتا و همزمانی را بر عهده میگیرد. با این حال، پیچیدگی تنظیمات، سازگاری نسخهها و ظرایف کار با S3 یادآور میشود که استفاده از سرویسهای مدیریتشدهی Spark یا پایگاهدادهها میتواند هزینه و سربار مهندسی را بهطور معناداری کاهش دهد.
#ApacheSpark #AWS #AWSGlue #ApacheIceberg #S3 #DataEngineering #Lakehouse #ETL
🟣لینک مقاله:
https://performancede.substack.com/p/spark-config-madness?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Substack
Spark Config Madness
Will it Ever Stop?
🔵 عنوان مقاله
Building a Scalable Data Warehouse Backup System with AWS (6 minute read)
🟢 خلاصه مقاله:
اسکریبد یک سامانه پشتیبانگیری مقیاسپذیر برای انبارهای داده مبتنی بر S3 در مقیاس پتابایت ساخته است که چندین پایگاهداده را پوشش میدهد. این راهکار با رویکرد ترکیبی از AWS Lambda برای بارهای کوچک و ECS Fargate برای بارهای بزرگ، پشتیبانگیری ماهانه و افزایشی انجام میدهد؛ به این صورت که فقط فایلهای Parquet جدید یا تغییرکرده کپی میشوند و در عین حال delta logs همیشه نگه داشته میشوند تا امکان بازسازی حالتها وجود داشته باشد. اعتبارسنجی دادهها با تکیه بر S3 Inventory manifests انجام میشود و پردازشها بهصورت موازی برای افزایش کارایی اجرا میگردند. در پایان، نسخههای پشتیبان برای نگهداری بلندمدت در Glacier بایگانی میشوند.
#AWS #S3 #DataWarehouse #Backup #ECSFargate #Lambda #Parquet #Glacier
🟣لینک مقاله:
https://tech.scribd.com/blog/2025/building-scalable-data-warehouse-backup-system.html?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Building a Scalable Data Warehouse Backup System with AWS (6 minute read)
🟢 خلاصه مقاله:
اسکریبد یک سامانه پشتیبانگیری مقیاسپذیر برای انبارهای داده مبتنی بر S3 در مقیاس پتابایت ساخته است که چندین پایگاهداده را پوشش میدهد. این راهکار با رویکرد ترکیبی از AWS Lambda برای بارهای کوچک و ECS Fargate برای بارهای بزرگ، پشتیبانگیری ماهانه و افزایشی انجام میدهد؛ به این صورت که فقط فایلهای Parquet جدید یا تغییرکرده کپی میشوند و در عین حال delta logs همیشه نگه داشته میشوند تا امکان بازسازی حالتها وجود داشته باشد. اعتبارسنجی دادهها با تکیه بر S3 Inventory manifests انجام میشود و پردازشها بهصورت موازی برای افزایش کارایی اجرا میگردند. در پایان، نسخههای پشتیبان برای نگهداری بلندمدت در Glacier بایگانی میشوند.
#AWS #S3 #DataWarehouse #Backup #ECSFargate #Lambda #Parquet #Glacier
🟣لینک مقاله:
https://tech.scribd.com/blog/2025/building-scalable-data-warehouse-backup-system.html?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Scribd Technology
Building a Scalable Data Lake Backup System with AWS
We designed and implemented a scalable, cost-optimized backup system for S3 data warehouses that runs automatically on a monthly schedule. The system handles petabytes of data across multiple databases and uses a hybrid approach: AWS Lambda for small workloads…
🔵 عنوان مقاله
Exploring Postgres to Parquet Archival for JSON Data with S3 Range Reads
🟢 خلاصه مقاله:
این مقاله یک الگوی بایگانی داده ارائه میکند: انتقال رکوردهای سرد JSON از Postgres به فایلهای Parquet روی S3 برای کاهش هزینه و فشار عملیاتی، در حالیکه امکان بازیابی سریع حفظ میشود. دادهها با کلیدهایی مثل tenant_id و تاریخ پارتیشنبندی میشوند، با ابزارهایی مانند pyarrow یا Spark به Parquet (با فشردهسازی Snappy/ZSTD و اندازه row group مناسب) تبدیل میگردند و در S3 با مسیرهای قابل پیشبینی ذخیره میشوند. برای بازیابی تند، با تکیه بر S3 Range Reads و متادیتای footer در Parquet فقط row groupها و column chunkهای لازم خوانده میشود؛ اگر lookup کلیدی بسیار سریع نیاز باشد، کنار هر فایل Parquet یک index کوچک نگهداری میشود که id را به بایترنچهای لازم نگاشت میکند. مسیر بازگردانی میتواند رکوردهای انتخابی را به Postgres برگرداند یا مستقیماً از S3 سرویس دهد؛ و موضوعاتی مانند رمزنگاری، نسخهبندی، lifecycle، و سنجش هزینه/کارایی نیز پوشش داده شده است.
#Postgres #Parquet #S3 #JSON #RangeReads #DataArchival #DataEngineering #AWS
🟣لینک مقاله:
https://postgresweekly.com/link/175387/web
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Exploring Postgres to Parquet Archival for JSON Data with S3 Range Reads
🟢 خلاصه مقاله:
این مقاله یک الگوی بایگانی داده ارائه میکند: انتقال رکوردهای سرد JSON از Postgres به فایلهای Parquet روی S3 برای کاهش هزینه و فشار عملیاتی، در حالیکه امکان بازیابی سریع حفظ میشود. دادهها با کلیدهایی مثل tenant_id و تاریخ پارتیشنبندی میشوند، با ابزارهایی مانند pyarrow یا Spark به Parquet (با فشردهسازی Snappy/ZSTD و اندازه row group مناسب) تبدیل میگردند و در S3 با مسیرهای قابل پیشبینی ذخیره میشوند. برای بازیابی تند، با تکیه بر S3 Range Reads و متادیتای footer در Parquet فقط row groupها و column chunkهای لازم خوانده میشود؛ اگر lookup کلیدی بسیار سریع نیاز باشد، کنار هر فایل Parquet یک index کوچک نگهداری میشود که id را به بایترنچهای لازم نگاشت میکند. مسیر بازگردانی میتواند رکوردهای انتخابی را به Postgres برگرداند یا مستقیماً از S3 سرویس دهد؛ و موضوعاتی مانند رمزنگاری، نسخهبندی، lifecycle، و سنجش هزینه/کارایی نیز پوشش داده شده است.
#Postgres #Parquet #S3 #JSON #RangeReads #DataArchival #DataEngineering #AWS
🟣لینک مقاله:
https://postgresweekly.com/link/175387/web
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Shayon Mukherjee
Exploring PostgreSQL to Parquet archival for JSON data with S3 range reads
Moving large JSON payloads from PostgreSQL TOAST tables to Parquet on S3 with deterministic sharding, row-group pruning, and range-based reads for millisecond point lookups.
❤1
🔵 عنوان مقاله
Perplexity's Open-Source Tool to Run Trillion-Parameter Models Without Costly Upgrades (4 minute read)
🟢 خلاصه مقاله:
Perplexity AI با معرفی ابزار متنباز TransferEngine امکان اجرای مدلهای تریلیونپارامتری را روی سختافزارهای متنوع و موجود فراهم کرده است. این سیستم با تکیه بر RDMA ارتباط GPU-to-GPU را در محیطهای ترکیبی AWS و Nvidia بهینه میکند و با دستیابی به 400 Gbps روی ConnectX-7 و AWS EFA، نیاز به ارتقای گرانقیمت را برطرف میسازد و وابستگی به یک فروشنده را کاهش میدهد. TransferEngine برای بارهای کاری LLM طراحی شده و مسیریابی Mixture-of-Experts را کارآمد میکند؛ در نتیجه اجرای مدلهایی مانند DeepSeek V3 و Kimi K2 با تأخیر کم و مقیاسپذیر ممکن میشود. متنباز بودن آن نیز ادغام، توسعه و استفاده در پشتههای موجود را ساده میکند.
#OpenSource #LLM #RDMA #GPU #AWS #Nvidia #MixtureOfExperts #AIInfrastructure
🟣لینک مقاله:
https://www.infoworld.com/article/4085830/perplexitys-open-source-tool-to-run-trillion-parameter-models-without-costly-upgrades-2.html?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
Perplexity's Open-Source Tool to Run Trillion-Parameter Models Without Costly Upgrades (4 minute read)
🟢 خلاصه مقاله:
Perplexity AI با معرفی ابزار متنباز TransferEngine امکان اجرای مدلهای تریلیونپارامتری را روی سختافزارهای متنوع و موجود فراهم کرده است. این سیستم با تکیه بر RDMA ارتباط GPU-to-GPU را در محیطهای ترکیبی AWS و Nvidia بهینه میکند و با دستیابی به 400 Gbps روی ConnectX-7 و AWS EFA، نیاز به ارتقای گرانقیمت را برطرف میسازد و وابستگی به یک فروشنده را کاهش میدهد. TransferEngine برای بارهای کاری LLM طراحی شده و مسیریابی Mixture-of-Experts را کارآمد میکند؛ در نتیجه اجرای مدلهایی مانند DeepSeek V3 و Kimi K2 با تأخیر کم و مقیاسپذیر ممکن میشود. متنباز بودن آن نیز ادغام، توسعه و استفاده در پشتههای موجود را ساده میکند.
#OpenSource #LLM #RDMA #GPU #AWS #Nvidia #MixtureOfExperts #AIInfrastructure
🟣لینک مقاله:
https://www.infoworld.com/article/4085830/perplexitys-open-source-tool-to-run-trillion-parameter-models-without-costly-upgrades-2.html?utm_source=tldrdata
➖➖➖➖➖➖➖➖
👑 @Database_Academy
InfoWorld
Perplexity’s open-source tool to run trillion-parameter models without costly upgrades
TransferEngine enables GPU-to-GPU communication across AWS and Nvidia hardware, allowing trillion-parameter models to run on older systems.