Database Labdon
797 subscribers
33 photos
2 videos
1 file
727 links
🕸 Database Academy

حمایت مالی:
https://www.coffeete.ir/mrbardia72

ادمین:
@mrbardia72
Download Telegram
#موقعیت_شغلی

Database Administrator

🏷️ #python #oracle #perl #gcp #aws #bash #cloud #sql

🌎 Visa Sponsorship & Relocation Included

🔗 Click Here for More Details & Apply
📌 Database Administration (DBA) Engineering Manager

📝 Type: Visa Sponsorship
🌍 Relocation Package:

🏢 Company: TradingView

📍 Location: UNITED KINGDOM

⌨️ Category: #Programming

🔗 Tags: #javascript #python #reactjs #typescript #golang #mysql #postgresql #redis #kubernetes #aws #cloud
🔵 عنوان مقاله
Spark Config Madness (3 minute read)

🟢 خلاصه مقاله:
اجرای Spark روی جدول‌های Iceberg که توسط AWS Glue مدیریت می‌شوند، با استفاده از پکیج‌های رسمی AWS Iceberg Glue، تمام عملیات‌های متداول مانند CTAS، MERGE، UPDATE، DELETE و INSERT را پشتیبانی می‌کند و قابلیت‌هایی مثل snapshot isolation و تکامل اسکیمای Iceberg را روی داده‌های مبتنی بر S3 به ارمغان می‌آورد. با چند تنظیم ساده برای Spark—از جمله فعال‌سازی افزونه‌های Iceberg، تعریف Glue به‌عنوان کاتالوگ، و استفاده از Default AWS Credential Chain—می‌توان هم امنیت و هم انطباق با محیط تولید را حفظ کرد و از سخت‌کد کردن رازها پرهیز نمود. با این رویکرد، ساخت جدول‌های جدید با CTAS، انجام upsertها با MERGE و پاک‌سازی هدفمند داده‌ها ممکن می‌شود و Iceberg مدیریت متادیتا و هم‌زمانی را بر عهده می‌گیرد. با این حال، پیچیدگی تنظیمات، سازگاری نسخه‌ها و ظرایف کار با S3 یادآور می‌شود که استفاده از سرویس‌های مدیریت‌شده‌ی Spark یا پایگاه‌داده‌ها می‌تواند هزینه و سربار مهندسی را به‌طور معناداری کاهش دهد.

#ApacheSpark #AWS #AWSGlue #ApacheIceberg #S3 #DataEngineering #Lakehouse #ETL

🟣لینک مقاله:
https://performancede.substack.com/p/spark-config-madness?utm_source=tldrdata


👑 @Database_Academy
🔵 عنوان مقاله
Building a Scalable Data Warehouse Backup System with AWS (6 minute read)

🟢 خلاصه مقاله:
اسکریبد یک سامانه پشتیبان‌گیری مقیاس‌پذیر برای انبارهای داده مبتنی بر S3 در مقیاس پتابایت ساخته است که چندین پایگاه‌داده را پوشش می‌دهد. این راهکار با رویکرد ترکیبی از AWS Lambda برای بارهای کوچک و ECS Fargate برای بارهای بزرگ، پشتیبان‌گیری ماهانه و افزایشی انجام می‌دهد؛ به این صورت که فقط فایل‌های Parquet جدید یا تغییرکرده کپی می‌شوند و در عین حال delta logs همیشه نگه داشته می‌شوند تا امکان بازسازی حالت‌ها وجود داشته باشد. اعتبارسنجی داده‌ها با تکیه بر S3 Inventory manifests انجام می‌شود و پردازش‌ها به‌صورت موازی برای افزایش کارایی اجرا می‌گردند. در پایان، نسخه‌های پشتیبان برای نگه‌داری بلندمدت در Glacier بایگانی می‌شوند.

#AWS #S3 #DataWarehouse #Backup #ECSFargate #Lambda #Parquet #Glacier

🟣لینک مقاله:
https://tech.scribd.com/blog/2025/building-scalable-data-warehouse-backup-system.html?utm_source=tldrdata


👑 @Database_Academy
🔵 عنوان مقاله
Exploring Postgres to Parquet Archival for JSON Data with S3 Range Reads

🟢 خلاصه مقاله:
این مقاله یک الگوی بایگانی داده ارائه می‌کند: انتقال رکوردهای سرد JSON از Postgres به فایل‌های Parquet روی S3 برای کاهش هزینه و فشار عملیاتی، در حالی‌که امکان بازیابی سریع حفظ می‌شود. داده‌ها با کلیدهایی مثل tenant_id و تاریخ پارتیشن‌بندی می‌شوند، با ابزارهایی مانند pyarrow یا Spark به Parquet (با فشرده‌سازی Snappy/ZSTD و اندازه row group مناسب) تبدیل می‌گردند و در S3 با مسیرهای قابل پیش‌بینی ذخیره می‌شوند. برای بازیابی تند، با تکیه بر S3 Range Reads و متادیتای footer در Parquet فقط row group‌ها و column chunk‌های لازم خوانده می‌شود؛ اگر lookup کلیدی بسیار سریع نیاز باشد، کنار هر فایل Parquet یک index کوچک نگهداری می‌شود که id را به بایت‌رنچ‌های لازم نگاشت می‌کند. مسیر بازگردانی می‌تواند رکوردهای انتخابی را به Postgres برگرداند یا مستقیماً از S3 سرویس دهد؛ و موضوعاتی مانند رمزنگاری، نسخه‌بندی، lifecycle، و سنجش هزینه/کارایی نیز پوشش داده شده است.

#Postgres #Parquet #S3 #JSON #RangeReads #DataArchival #DataEngineering #AWS

🟣لینک مقاله:
https://postgresweekly.com/link/175387/web


👑 @Database_Academy
1
🔵 عنوان مقاله
Perplexity's Open-Source Tool to Run Trillion-Parameter Models Without Costly Upgrades (4 minute read)

🟢 خلاصه مقاله:
Perplexity AI با معرفی ابزار متن‌باز TransferEngine امکان اجرای مدل‌های تریلیون‌پارامتری را روی سخت‌افزارهای متنوع و موجود فراهم کرده است. این سیستم با تکیه بر RDMA ارتباط GPU-to-GPU را در محیط‌های ترکیبی AWS و Nvidia بهینه می‌کند و با دستیابی به 400 Gbps روی ConnectX-7 و AWS EFA، نیاز به ارتقای گران‌قیمت را برطرف می‌سازد و وابستگی به یک فروشنده را کاهش می‌دهد. TransferEngine برای بارهای کاری LLM طراحی شده و مسیریابی Mixture-of-Experts را کارآمد می‌کند؛ در نتیجه اجرای مدل‌هایی مانند DeepSeek V3 و Kimi K2 با تأخیر کم و مقیاس‌پذیر ممکن می‌شود. متن‌باز بودن آن نیز ادغام، توسعه و استفاده در پشته‌های موجود را ساده می‌کند.

#OpenSource #LLM #RDMA #GPU #AWS #Nvidia #MixtureOfExperts #AIInfrastructure

🟣لینک مقاله:
https://www.infoworld.com/article/4085830/perplexitys-open-source-tool-to-run-trillion-parameter-models-without-costly-upgrades-2.html?utm_source=tldrdata


👑 @Database_Academy