Database Labdon

📌 Database Administrator

📝 Type: Remote

🏢 Company: deel

📍 Location: UNITED KINGDOM

⌨️ Category: #Networking

🔗 Tags: #nosql #postgresql #gcp #git #kubernetes #aws #docker #cloud #sql #payroll

Jaabz

Database Administrator - Deel

Who We Are Is What We Do.Deel and our family of growing companies are made up of global teams dedicated to helping businesses hire anyone, anywhere, easily.The...

200 views08:33

Database Labdon

#موقعیت_شغلی

Database Administrator

🏷️ #python #oracle #perl #gcp #aws #bash #cloud #sql

🌎 Visa Sponsorship & Relocation Included

🔗 Click Here for More Details & Apply

245 views14:18

Database Labdon

📌 Database Administration (DBA) Engineering Manager

📝 Type: Visa Sponsorship
🌍 Relocation Package: ✅

🏢 Company: TradingView

📍 Location: UNITED KINGDOM

⌨️ Category: #Programming

🔗 Tags: #javascript #python #reactjs #typescript #golang #mysql #postgresql #redis #kubernetes #aws #cloud

440 views06:18

Database Labdon

🔵 عنوان مقاله
Spark Config Madness (3 minute read)

🟢 خلاصه مقاله:
اجرای Spark روی جدول‌های Iceberg که توسط AWS Glue مدیریت می‌شوند، با استفاده از پکیج‌های رسمی AWS Iceberg Glue، تمام عملیات‌های متداول مانند CTAS، MERGE، UPDATE، DELETE و INSERT را پشتیبانی می‌کند و قابلیت‌هایی مثل snapshot isolation و تکامل اسکیمای Iceberg را روی داده‌های مبتنی بر S3 به ارمغان می‌آورد. با چند تنظیم ساده برای Spark—از جمله فعال‌سازی افزونه‌های Iceberg، تعریف Glue به‌عنوان کاتالوگ، و استفاده از Default AWS Credential Chain—می‌توان هم امنیت و هم انطباق با محیط تولید را حفظ کرد و از سخت‌کد کردن رازها پرهیز نمود. با این رویکرد، ساخت جدول‌های جدید با CTAS، انجام upsertها با MERGE و پاک‌سازی هدفمند داده‌ها ممکن می‌شود و Iceberg مدیریت متادیتا و هم‌زمانی را بر عهده می‌گیرد. با این حال، پیچیدگی تنظیمات، سازگاری نسخه‌ها و ظرایف کار با S3 یادآور می‌شود که استفاده از سرویس‌های مدیریت‌شده‌ی Spark یا پایگاه‌داده‌ها می‌تواند هزینه و سربار مهندسی را به‌طور معناداری کاهش دهد.

#ApacheSpark #AWS #AWSGlue #ApacheIceberg #S3 #DataEngineering #Lakehouse #ETL

🟣لینک مقاله:
https://performancede.substack.com/p/spark-config-madness?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

122 views11:31

🔵 عنوان مقاله
Building a Scalable Data Warehouse Backup System with AWS (6 minute read)

🟢 خلاصه مقاله:
اسکریبد یک سامانه پشتیبان‌گیری مقیاس‌پذیر برای انبارهای داده مبتنی بر S3 در مقیاس پتابایت ساخته است که چندین پایگاه‌داده را پوشش می‌دهد. این راهکار با رویکرد ترکیبی از AWS Lambda برای بارهای کوچک و ECS Fargate برای بارهای بزرگ، پشتیبان‌گیری ماهانه و افزایشی انجام می‌دهد؛ به این صورت که فقط فایل‌های Parquet جدید یا تغییرکرده کپی می‌شوند و در عین حال delta logs همیشه نگه داشته می‌شوند تا امکان بازسازی حالت‌ها وجود داشته باشد. اعتبارسنجی داده‌ها با تکیه بر S3 Inventory manifests انجام می‌شود و پردازش‌ها به‌صورت موازی برای افزایش کارایی اجرا می‌گردند. در پایان، نسخه‌های پشتیبان برای نگه‌داری بلندمدت در Glacier بایگانی می‌شوند.

#AWS #S3 #DataWarehouse #Backup #ECSFargate #Lambda #Parquet #Glacier

🟣لینک مقاله:
https://tech.scribd.com/blog/2025/building-scalable-data-warehouse-backup-system.html?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

Scribd Technology

Building a Scalable Data Lake Backup System with AWS

We designed and implemented a scalable, cost-optimized backup system for S3 data warehouses that runs automatically on a monthly schedule. The system handles petabytes of data across multiple databases and uses a hybrid approach: AWS Lambda for small workloads…

107 views08:30

Database Labdon

🔵 عنوان مقاله
Exploring Postgres to Parquet Archival for JSON Data with S3 Range Reads

🟢 خلاصه مقاله:
این مقاله یک الگوی بایگانی داده ارائه می‌کند: انتقال رکوردهای سرد JSON از Postgres به فایل‌های Parquet روی S3 برای کاهش هزینه و فشار عملیاتی، در حالی‌که امکان بازیابی سریع حفظ می‌شود. داده‌ها با کلیدهایی مثل tenant_id و تاریخ پارتیشن‌بندی می‌شوند، با ابزارهایی مانند pyarrow یا Spark به Parquet (با فشرده‌سازی Snappy/ZSTD و اندازه row group مناسب) تبدیل می‌گردند و در S3 با مسیرهای قابل پیش‌بینی ذخیره می‌شوند. برای بازیابی تند، با تکیه بر S3 Range Reads و متادیتای footer در Parquet فقط row group‌ها و column chunk‌های لازم خوانده می‌شود؛ اگر lookup کلیدی بسیار سریع نیاز باشد، کنار هر فایل Parquet یک index کوچک نگهداری می‌شود که id را به بایت‌رنچ‌های لازم نگاشت می‌کند. مسیر بازگردانی می‌تواند رکوردهای انتخابی را به Postgres برگرداند یا مستقیماً از S3 سرویس دهد؛ و موضوعاتی مانند رمزنگاری، نسخه‌بندی، lifecycle، و سنجش هزینه/کارایی نیز پوشش داده شده است.

#Postgres #Parquet #S3 #JSON #RangeReads #DataArchival #DataEngineering #AWS

🟣لینک مقاله:
https://postgresweekly.com/link/175387/web

➖➖➖➖➖➖➖➖
👑 @Database_Academy

Shayon Mukherjee

Exploring PostgreSQL to Parquet archival for JSON data with S3 range reads

Moving large JSON payloads from PostgreSQL TOAST tables to Parquet on S3 with deterministic sharding, row-group pruning, and range-based reads for millisecond point lookups.

❤1

134 views08:31

Database Labdon

🔵 عنوان مقاله
Perplexity's Open-Source Tool to Run Trillion-Parameter Models Without Costly Upgrades (4 minute read)

🟢 خلاصه مقاله:
Perplexity AI با معرفی ابزار متن‌باز TransferEngine امکان اجرای مدل‌های تریلیون‌پارامتری را روی سخت‌افزارهای متنوع و موجود فراهم کرده است. این سیستم با تکیه بر RDMA ارتباط GPU-to-GPU را در محیط‌های ترکیبی AWS و Nvidia بهینه می‌کند و با دستیابی به 400 Gbps روی ConnectX-7 و AWS EFA، نیاز به ارتقای گران‌قیمت را برطرف می‌سازد و وابستگی به یک فروشنده را کاهش می‌دهد. TransferEngine برای بارهای کاری LLM طراحی شده و مسیریابی Mixture-of-Experts را کارآمد می‌کند؛ در نتیجه اجرای مدل‌هایی مانند DeepSeek V3 و Kimi K2 با تأخیر کم و مقیاس‌پذیر ممکن می‌شود. متن‌باز بودن آن نیز ادغام، توسعه و استفاده در پشته‌های موجود را ساده می‌کند.

#OpenSource #LLM #RDMA #GPU #AWS #Nvidia #MixtureOfExperts #AIInfrastructure

🟣لینک مقاله:
https://www.infoworld.com/article/4085830/perplexitys-open-source-tool-to-run-trillion-parameter-models-without-costly-upgrades-2.html?utm_source=tldrdata

➖➖➖➖➖➖➖➖
👑 @Database_Academy

InfoWorld

Perplexity’s open-source tool to run trillion-parameter models without costly upgrades

TransferEngine enables GPU-to-GPU communication across AWS and Nvidia hardware, allowing trillion-parameter models to run on older systems.

107 views05:30

About

Blog

Apps

Platform