VIRSUN – Telegram

VIRSUN

7.68K subscribers

1.37K photos

792 videos

5 files

874 links

📥 در کانال @rss_ai_ir هر روز: 🔹 جدیدترین خبرهای AI و فناوری
🗯اولویت ما هوش مصنوعی در صنعت میباشد اما نیم نگاهی به موارد دیگر در این زمینه داریم

ارتباط با ادمین 1:
@Ad1_rss_ai_ir

آدرس گروه
https://t.iss.one/rss_ai_ir_group

Download Telegram

About

Blog

Apps

Platform

7.68K subscribers

🎓 کدام کارت گرافیک برای آموزش شبکه‌های عصبی مناسب‌تر است؟

در دنیای یادگیری عمیق، کارت گرافیک فقط یک قطعه سخت‌افزاری نیست، بلکه قلب پردازش مدل‌هاست!
در ادامه نگاهی تخصصی به محبوب‌ترین GPUها برای آموزش شبکه‌های عصبی داریم:

---

🏢 مراکز تحقیقاتی و دیتاسنترها

🔹 NVIDIA A100
با حافظه بالا (۴۰ یا ۸۰ گیگ HBM2e)، قدرت فوق‌العاده FP16، و پشتیبانی از NVLink، انتخاب شماره یک برای آموزش مدل‌های بزرگ مثل LLMهاست.
🔹 H100 / H200
نسل جدیدتر A100 که در سال ۲۰۲۴-۲۰۲۵ توسط شرکت‌هایی مثل Meta و OpenAI در مقیاس بالا استفاده می‌شود.

---

💻 توسعه‌دهندگان مستقل و محققان

🔹 RTX 3080 / 3090 / 4090
محبوب بین پژوهشگران و فریلنسرها؛ قدرت بالا، قیمت منطقی و نصب ساده روی دسکتاپ.

🔹 RTX 5070 Ti / 5080
در سال ۲۰۲۵ مدل‌های جدیدتری با حافظه ۱۶ تا ۲۴ گیگ معرفی شدند که برای پروژه‌های بینایی ماشین و مدل‌های متوسط کاملاً کافی هستند.

---

📊 بازار و واقعیت

📌 بیش از ۹۰٪ پروژه‌های AI جهان روی کارت‌های NVIDIA آموزش داده می‌شن.
📌 سری‌های A100 و RTX همچنان صدرنشین بازار تحقیقات یادگیری ماشین هستند.
📌 پشتیبانی قوی CUDA و cuDNN از سوی NVIDIA دلیل اصلی این تسلط است.

---

#هوش_مصنوعی #یادگیری_عمیق #GPU #کارت_گرافیک #NVIDIA #DeepLearning #ML #AI #کدینگ #تحلیل_تخصصی

@rss_ai_ir

👍2🔥1🤣1

384 viewsedited 18:32

⚙️💻 همه‌چیز درباره CUDA؛ معماری قدرتمند برای هوش مصنوعی و محاسبات موازی

معماری CUDA که توسط شرکت انویدیا توسعه یافته، بستری فراهم می‌کند تا برنامه‌نویسان بتوانند از توان موازی کارت‌های گرافیکی برای اجرای محاسبات سنگین بهره بگیرند. در واقع، بسیاری از پیشرفت‌های اخیر در یادگیری عمیق، پردازش تصویر و تحلیل داده‌های پیچیده بر پایه‌ی این معماری انجام می‌گیرد.
---

🌐اهمیت CUDA در حوزه هوش مصنوعی
قابلیت انجام هزاران محاسبه به صورت هم‌زمان روی GPU باعث شده آموزش مدل‌های یادگیری عمیق که روی CPU بسیار زمان‌بر هستند، با استفاده از CUDA به‌شدت تسریع شود. بیشتر فریم‌ورک‌های معروف مانند پای‌تورچ، تنسورفلو و JAX نیز به‌صورت پیش‌فرض از کتابخانه‌های مبتنی بر CUDA بهره می‌برند.

---

📌 چه زمانی باید سراغ CUDA برویم؟
❇️ زمانی که اجرای مدل یادگیری ماشین یا یادگیری عمیق روی CPU بسیار کند است.
❇️هنگام نیاز به پردازش سریع روی داده‌های تصویری، صوتی یا حجیم.
❇️ در شرایطی که قصد دارید اجرای مدل را در دستگاه‌های تعبیه‌شده (مانند ربات یا سیستم‌های هوشمند) بهینه‌سازی کنید.
❇️وقتی به کنترل دقیق‌تر منابع GPU و ساختار حافظه نیاز دارید.
❇️در پروژه‌هایی که محاسبات سنگین علمی، مهندسی یا تصویری دارند، استفاده از CUDA یک مزیت مهم محسوب می‌شود.

---

🧠 مفاهیم پایه در CUDA
❇️ کرنل (Kernel): تابعی که به‌صورت هم‌زمان روی تعداد زیادی thread اجرا می‌شود
❇️سلسله‌مراتب حافظه: شامل global، shared، constant و register
❇️ بلاک‌ها و گریدها: ساختار سازماندهی اجرای threadها
❇️ استریم‌ها (Streams): اجرای مستقل چند وظیفه روی GPU
❇️حافظه پین‌شده: تبادل سریع‌تر داده‌ها بین CPU و GPU

---

🔬 کاربردهای CUDA فراتر از یادگیری ماشین
❇️شبیه‌سازی‌های علمی در فیزیک، دینامیک سیالات و انرژی
❇️ پردازش تصویر، تحلیل پزشکی و رندر سه‌بعدی
❇️ رمزنگاری، بلاک‌چین و الگوریتم‌های گرافی
❇️سیستم‌های پیشنهاددهنده و تحلیل داده‌های بزرگ

---

🎓 مسیر پیشنهادی برای یادگیری CUDA
1. مطالعه مفاهیم محاسبات موازی و معماری GPU
2. تمرین عملی با زبان C مبتنی بر CUDA
3. اجرای پروژه‌هایی مانند ضرب ماتریس و الگوریتم‌های ساده
4. یادگیری نحوه بهینه‌سازی مصرف حافظه و کاهش زمان اجرا
5. استفاده از کتابخانه‌هایی مانند cuDNN و ترکیب آن با TensorFlow یا PyTorch
---

📘 برای شروع می‌توانید از وب‌سایت رسمی انویدیا بازدید کنید:
🔗 [developer.nvidia.com/cuda-toolkit](https://developer.nvidia.com/cuda-toolkit)
---
🧠 در دنیای هوش مصنوعی مدرن، دانستن CUDA نه‌تنها یک مهارت مفید بلکه یک امتیاز رقابتی است.

📡 @rss_ai_ir
#CUDA #NVIDIA #محاسبات_موازی #GPU #هوش_مصنوعی #یادگیری_ماشین #PyTorch #TensorFlow #CUDA_چیست

❤3👍1🙏1

256 viewsedited 13:05

🧠💻 آیا سخت‌افزار در نتایج شبکه‌های عصبی تفاوت ایجاد می‌کند؟

بسیاری تصور می‌کنند خروجی مدل‌های هوش مصنوعی فقط به داده و معماری وابسته است؛ اما حقیقت این است که نوع سخت‌افزار نیز می‌تواند نقش کلیدی در دقت، سرعت، و حتی انصاف الگوریتم ایفا کند.

🔸 سخت‌افزارهای ویژه مثل TPU و NPU: معماری‌هایی مانند TPU (Google) و NPU با دقت پایین‌تر (مثل INT8)، باعث افزایش سرعت پردازش و کاهش مصرف انرژی می‌شوند و برای مدل‌های سنگین مانند ترنسفورمرها و GPT بسیار بهینه هستند.

🔸 تفاوت GPU و CPU: آموزش شبکه‌های عصبی روی GPU گاهی تا ۱۰۰ برابر سریع‌تر از CPU است. ماجرای معروف AlexNet این حقیقت را برای همیشه در تاریخ یادگیری عمیق ثبت کرده است.

🔸 نویز محاسباتی و عدم‌قطعیت‌ها: جالب است بدانید برخی نویزهای کوچک محاسباتی روی GPU (بر خلاف CPU) می‌توانند گاهی حتی باعث بهبود دقت مدل‌ها شوند! البته برخی از این اثرات ممکن است ناشی از اشکالات نرم‌افزاری در فریم‌ورک‌ها باشد.

🔸 تأثیر بر عدالت الگوریتمی (Fairness): مطالعاتی نشان داده‌اند که حتی نوع GPU انتخابی می‌تواند در عملکرد مدل نسبت به گروه‌های اجتماعی مختلف اثر تبعیض‌آمیز یا ناعادلانه بگذارد!

🔸 مصرف انرژی و انتخاب پلتفرم: هر نوع مدل (CNN, RNN, Transformer) نیاز به سخت‌افزار مناسب خود دارد. در دستگاه‌های موبایل، NPU با مصرف پایین بهترین گزینه است.

📎 مطالعه پیشنهادی: arxiv.org/abs/2312.03886 – اثر انتخاب سخت‌افزار بر عدالت مدل‌ها
arxiv.org/abs/1907.10701 – مقایسه CPU, GPU, TPU
Tom’s Hardware – حمله خطرناک GPUHammer به دقت مدل‌ها

——
@rss_ai_ir
#هوش_مصنوعی #AI_Hardware #GPU #TPU #NeuralNetwork #امنیت #fairness

On The Fairness Impacts of Hardware Selection in Machine Learning

In the machine learning ecosystem, hardware selection is often regarded as a mere utility, overshadowed by the spotlight on algorithms and data. This oversight is particularly problematic in...

👍2❤1🔥1👏1

233 viewsedited 04:07

🔧 همه‌چیز درباره‌ی OpenCL – زبان باز برای پردازش موازی چندسکویی

📌 وقتی نیاز به اجرای الگوریتم‌های سنگین روی GPU، CPU یا حتی FPGA داری، این فناوری دقیقاً همون چیزیه که باید بشناسی.

---

🧠 نکته:OpenCL (مخفف Open Computing Language) یک چارچوب استاندارد و کراس‌پلتفرم برای برنامه‌نویسی موازی روی انواع سخت‌افزارهاست.

✅ با استفاده از OpenCL، می‌تونی مدل‌های یادگیری عمیق، بینایی ماشین و پردازش تصویر رو روی هر نوع پردازنده اجرا کنی:
از کارت‌های گرافیک NVIDIA، AMD، Intel گرفته تا چیپ‌های موبایلی و سیستم‌های تعبیه‌شده.

---

🚀 چرا OpenCL مهمه؟

🔹 مستقل از برند و سازنده سخت‌افزار
🔹 قابل اجرا روی ویندوز، لینوکس، مک و حتی موبایل
🔹 پشتیبانی از پردازش موازی در مقیاس وسیع
🔹 مناسب برای کاربردهای real-time و صنعتی

---

🔬 مقایسه با CUDA:

📍 اینکه CUDA بهینه‌تره اما فقط روی NVIDIA کار می‌کنه
📍 ولی OpenCL انعطاف بیشتری داره و روی پلتفرم‌های مختلف قابل پیاده‌سازی‌ه

---

🏭 کاربردهای صنعتی OpenCL:

🔸 تحلیل تصویری لحظه‌ای در خطوط تولید
🔸 اجرای مدل‌های AI در سیستم‌های صنعتی
🔸 تسریع محاسبات علمی یا پزشکی
🔸 پردازش ویدیوهای چندکاناله با latency پایین

---

📢 برای کسانی که نمی‌خوان محدود به برند خاص باشن و به دنبال عملکرد بالا با انعطاف‌پذیری هستن، OpenCL یک انتخاب هوشمندانه است.

📡 اطلاعات بیشتر در کانال:
@rss_ai_ir

#هوش_مصنوعی #OpenCL #پردازش_تصویر #GPU #FPGA #پردازش_موازی #برنامه‌نویسی #AI_Engineering #یادگیری_عمیق

👍2👏1🙏1

202 viewsedited 19:28

This media is not supported in your browser

VIEW IN TELEGRAM

📊 شکاف قدرت محاسباتی هوش مصنوعی؛ آمریکا جلوتر از چین

🇺🇸 ایالات متحده مالک بیشترین منابع محاسباتی جهان برای آموزش مدل‌های هوش مصنوعی است و همچنان قوی‌ترین کلسترها را توسعه می‌دهد.

🇨🇳 چین در تلاش برای جبران عقب‌ماندگی است:

♻️تا سال ۲۰۲۵ حدود ۹۸ میلیارد دلار سرمایه‌گذاری می‌کند (+۴۸٪ نسبت به ۲۰۲۴)
♻️۵۶ میلیارد از سمت دولت و ۲۴ میلیارد از سوی غول‌های اینترنتی
♻️محدودیت‌های صادرات GPUهای پیشرفته رشد سریع را دشوار کرده است

🔧 چالش سخت‌افزاری

♻️آمریکا صادرات GPUهای برتر Nvidia و AMD را ممنوع کرده
♻️چین روی Huawei Ascend 910C حساب باز کرده (نسخه دوبرابر 910B)؛ اما همچنان از نظر سرعت، حافظه و اکوسیستم نرم‌افزاری ضعیف‌تر است

📜 بازی سیاسی

♻️آمریکا فروش نسخه‌های ضعیف‌تر H20 و MI308 را مجاز کرده؛ اما ۱۵٪ از درآمد آن به خزانه آمریکا می‌رود
♻️این اجازه دسترسی به GPUهای متوسط را فراهم می‌کند، ولی تراشه‌های رده‌بالا همچنان ممنوع هستند

⚡ چرا آمریکا جلوتر است؟

♻️حتی H20 هم از Huawei 910B قوی‌تر است
♻️نرم‌افزار Nvidia بسیار بالغ‌تر است و کارایی واقعی را افزایش می‌دهد
♻️آموزش مدل‌های بزرگ در چین هنوز پرهزینه‌تر و زمان‌برتر از آمریکا است

#هوش_مصنوعی 🤖 #AI_policy 📜 #محاسبات_پیشرفته ⚡ #Nvidia #Huawei #GPU #ایالات_متحده #چین
@rss_ai_ir

👍2🔥1👏1

745 viewsedited 09:03

🔥 چرا هنوز کسی نمی‌تواند به پای انویدیا برسد؟

این روزها زیاد اسم شرکت‌هایی مثل Groq ،Cerebras و Etched شنیده می‌شود که تراشه‌های اختصاصی برای اجرای مدل‌های زبانی می‌سازند. اما همان‌طور که دیلان پاتل (SemiAnalysis) گفته، رقابت جدی با انویدیا هنوز دور از واقعیت است. دلیلش روشن است:

🔹 انعطاف قیمتی – انویدیا به خاطر حاشیه سود بالا می‌تواند قیمت را کم کند و همچنان رقابتی باقی بماند.
🔹 زنجیره تأمین و مقیاس – حجم تولید بالا و شبکه‌ی تأمین جهانی باعث می‌شود هزینه ساخت هر GPU پایین‌تر باشد.
🔹 برگ برنده اصلی: نرم‌افزار – اکوسیستم CUDA و کتابخانه‌هایی مثل CuDNN ،CuBLAS و NCCL باعث می‌شوند سخت‌افزار انویدیا به بالاترین راندمان برسد.

📊 داده‌های SemiAnalysis نشان می‌دهد:
روی H100 (128 GPU)، آموزش یک مدل در مقیاس GPT-3 فقط با آپدیت نرم‌افزار در سال ۲۰۲۴، بهره‌وری MFU از ۳۴٪ به ۵۴٪ رسید (+۵۷٪ افزایش بدون تغییر سخت‌افزار!).

در BF16: از ۳۴٪ → ۵۴٪

در FP8: از ۲۹.۵٪ → ۳۹.۵٪

یعنی بهینه‌سازی نرم‌افزار می‌تواند ده‌ها درصد سود ایجاد کند؛ در حالی‌که نوآوری‌های معماری مدل معمولاً تنها ۳–۵٪ بهبود می‌دهند. برای شرکت‌هایی مثل OpenAI، Anthropic یا Google این یعنی صرفه‌جویی صدها میلیون دلاری.

⚡ نتیجه: مهندسانی که می‌توانند با بهینه‌سازی نرم‌افزار، حداکثر کارایی GPU را آزاد کنند، ارزشمندترین نیروهای صنعت هستند.

و اما درباره‌ی GB200 NVL72:

✳️فعلاً بیشتر برای استنتاج و دیباگ استفاده می‌شوند و آموزش مدل‌های بزرگ هنوز شروع نشده.

✳️هر رک ۷۲ GPU دارد اما تنها ۶۴ عدد فعالند و ۸ کارت به‌عنوان رزرو برای خرابی احتمالی کنار گذاشته می‌شوند.

✳️بهار امسال نسبت به H100 به‌صرفه نبودند، اما طبق پیش‌بینی انویدیا، تا پایان سال ۲.۷ برابر کارایی بیشتر به ازای هر دلار خواهند داشت.

💡 در یک جمله: رقابت شروع شده، اما ترکیب سخت‌افزار + نرم‌افزار + اکوسیستم فعلاً انویدیا را چند قدم جلوتر نگه داشته است.

#Nvidia #GPU #هوش_مصنوعی #H100 #GB200 #AI_Chip #SemiAnalysis

🎉10🔥5😁4❤3👍2

251 views12:34

🔥 خبر داغ برای علاقه‌مندان سخت‌افزار و یادگیری عمیق: نسخه چهارم FlashAttention در راه است!

🔹 تیم توسعه‌دهنده این الگوریتم در کنفرانس HotChips از FlashAttention 4 رونمایی کرد.
🔹 نسخه سوم مدت‌هاست که استاندارد صنعت شده، اما حالا نسخه چهارم روی معماری Blackwell بهینه‌سازی شده و روی توالی‌های طولانی حدود ۲۲٪ افزایش کارایی ارائه می‌دهد.
🔹 این یعنی محاسبات سریع‌تر، ارزان‌تر و کارآمدتر برای مدل‌های بزرگ زبانی و بینایی.

📊 تفاوت اصلی در بهینه‌سازی محاسبات Softmax و Exponent به همراه استفاده بهتر از Tensor Cores است.
📌 هنوز کد و مستندات رسمی منتشر نشده، اما نمودارهای اولیه نشان می‌دهد که در طول دنباله‌های بسیار بزرگ، این الگوریتم به‌طور چشمگیری از cuDNN جلو می‌زند.

به زبان ساده: FlashAttention 4 قراره مصرف منابع را کم کنه، سرعت رو بالا ببره و آموزش و استنتاج مدل‌های غول‌پیکر رو به‌صرفه‌تر کنه 🚀

#FlashAttention #هوش_مصنوعی #GPU #Blackwell #AI #DeepLearning #NVIDIA

@rss_ai_ir

👍1🔥1🙏1

814 viewsedited 15:53

This media is not supported in your browser

VIEW IN TELEGRAM

🔦 فلش‌اَتنشن (FlashAttention): جهشی در سرعت آموزش و استنتاج مدل‌های زبانی بزرگ

وقتی بحث مدل‌های زبانی بزرگ (LLM) مطرح می‌شود، یکی از سنگین‌ترین بخش‌های محاسباتی مکانیزم توجه (Attention) است. این بخش هم پرهزینه است و هم حافظه زیادی مصرف می‌کند، مخصوصاً زمانی که طول ورودی زیاد باشد.

🔹 در اینجا الگوریتم فلش‌اَتنشن وارد عمل می‌شود.
این الگوریتم توسط تیم «تری دائو» معرفی شد و اکنون به نسخه‌های جدید مثل FlashAttention 2 و به‌زودی 4 رسیده است.

🔑 ایده اصلی
به جای ذخیره‌سازی کل محاسبات توجه در حافظه، فلش‌اَتنشن این عملیات را بهینه‌شده در سطح GPU انجام می‌دهد:

استفاده از حافظه سریع Shared Memory به جای حافظه اصلی کندتر (HBM)
محاسبه softmax و ضرب ماتریس‌ها به صورت بلوک‌بلوک و استریمی
حذف نیاز به ذخیره‌سازی کل ماتریس توجه

⚙️ مزایا
✅ کاهش مصرف حافظه تا ۱۰ برابر در توالی‌های طولانی
✅ افزایش سرعت ۲ تا ۴ برابر نسبت به روش کلاسیک
✅ مقیاس‌پذیری عالی برای ورودی‌های بسیار بلند (ده‌ها هزار توکن)
✅ بدون خطای تقریبی؛ برخلاف روش‌های سریع‌تر دیگر، خروجی دقیق حفظ می‌شود

📊 کاربرد در صنعت
فرض کنید در یک پروژه صنعتی باید یک مدل LLM را روی گزارش‌های طولانی یا لاگ‌های حجیم سنسورها آموزش دهید.
بدون فلش‌اَتنشن حتی با کارت‌های قوی GPU هم مشکل حافظه وجود دارد. اما با این الگوریتم:
سرعت آموزش بالا می‌رود → پروژه زودتر به نتیجه می‌رسد
هزینه استفاده از GPU کاهش می‌یابد → صرفه‌جویی مالی
امکان پردازش ورودی‌های بلند فراهم می‌شود → دقت مدل بیشتر می‌شود

🚀 نسخه‌های جدید
فلش‌اَتنشن ۲ → بهینه‌شده برای کارت‌های A100 و H100
فلش‌اَتنشن ۴ → تازه معرفی‌شده، حدود ۲۲٪ سریع‌تر روی توالی‌های بلند با GPUهای Blackwell

📌 جمع‌بندی
فلش‌اَتنشن نشان می‌دهد که همیشه لازم نیست معماری مدل تغییر کند؛ گاهی تنها با بهینه‌سازی الگوریتمی و سخت‌افزاری می‌توان جهش بزرگی در سرعت و مقیاس‌پذیری ایجاد کرد. امروز این تکنیک به استاندارد صنعتی در آموزش LLMها تبدیل شده است.

#هوش_مصنوعی #یادگیری_عمیق #GPU #مدل_زبان

@rss_ai_ir

😁8❤6🔥6🎉5👍2

3.68K viewsedited 16:22

🚀 اینفرنس انجین برای QWEN3-0.6B روی CUDA

🔹 موتور qwen600 یک موتور مینیمالیستی برای اینفرنس مدل QWEN3-0.6B است که با تمرکز بر کارایی و سادگی توسعه داده شده. این ابزار از بهینه‌سازی استاتیک استفاده می‌کند و بدون وابستگی به Python اجرا می‌شود؛ همین باعث می‌شود گزینه‌ای ایده‌آل برای یادگیری LLMها و CUDA باشد.

✨ ویژگی‌های کلیدی:

⚡️ سرعت بالا: ‌۸.۵٪ سریع‌تر از llama.cpp

🎯 بهینه‌شده برای کارت‌های گرافیک RTX 3050

🔧 حداقل وابستگی‌ها و پیکربندی ساده

💾 مدیریت بهینه حافظه روی GPU

🧠 پشتیبانی از حالت Reasoning برای بهبود کیفیت خروجی

📌 GitHub: github.com/yassa9/qwen600

#CUDA #LLM #QWEN #هوش_مصنوعی #GPU

@rss_ai_ir

🔥24❤18👍17🎉17👏16🥰15😁9🙏1

1.24K views17:04

🧠 گلوگاه اصلی در مدل‌های هوش مصنوعی — نه قدرت محاسباتی، بلکه حافظه است

امروزه حتی بزرگ‌ترین مدل‌های زبانی به جای FLOPs، در KV-cache گیر می‌کنند:
هرچه طول کانتکست بیشتر باشد، حجم ذخیره‌سازی Key و Value بزرگ‌تر می‌شود → پردازنده‌های گرافیکی خیلی سریع محاسبه می‌کنند، اما حافظه و پهنای باند آن نمی‌تواند همگام شود.

⚡️ راه‌حل: XQuant
این روش به جای ذخیره‌ی Key/Value فقط X — بردار ورودی لایه را نگه می‌دارد.

✔️ همچنین X حجم کمتری دارد
✔️ به‌راحتی می‌تواند کوانتیزه شود (کاهش به بیت‌های پایین‌تر)
✔️ هنگام تولید توکن، K و V دوباره از X محاسبه می‌شوند

مزایا:

📉 کاهش مصرف حافظه تا ۲ برابر
🎯 افت کیفیت تقریباً ناچیز
🟢 همچنین XQuant-CL — نسخه‌ی بهبود یافته
✅فقط تفاوت‌های کوچک بین لایه‌ها را ذخیره می‌کند (چون تقریباً مشابه‌اند)
✅صرفه‌جویی: ۱۰ تا ۱۲.۵ برابر
✅افت کیفیت: فقط ۰.۰۱ تا ۰.۱ perplexity

➡️ نتایج

✳️کاهش حافظه تا ۱۲.۵× نسبت به FP16
✳️کیفیت نزدیک به FP16
✳️عملکرد بهتر نسبت به بهترین روش‌های کوانتیزه‌کردن KV-cache

💡 منطق ساده است: کارت‌های گرافیکی امروزی سریع‌تر از آن‌که داده‌های بزرگ را جابه‌جا کنند، می‌توانند K/V را دوباره محاسبه کنند.

📌 جزئیات: arxiv.org/abs/2508.10395

@rss_ai_ir

#هوش_مصنوعی #LLM #XQuant #یادگیری_عمیق #GPU #بهینه‌سازی #Inference

🔥22🥰19❤18👏18👍15🎉13😁11

1.15K views09:50

📸 HunyuanImage 2.1 –
دردسرهای تست مدل تصویری تنسنت

✅یکی از کاربران تجربه‌اش از تست HunyuanImage-2.1 در رزولوشن 2048×2048 را به اشتراک گذاشته:

⚡ نتیجه اولیه:

✳️خیلی کند ⏳
✳️کیفیت خروجی نسبت به زمان محاسبه، ارزشمند نیست 😕

🔹 مسائل اصلی:

✳️مدل بسیار حجیم است و از چندین ماژول (denoiser، refiner، reprompter و ...) تشکیل شده.
✳️حتی روی کارت H100 هم با CPU offloading اجرای آن به شدت کند می‌شود.
✳️نیاز به 200 گیگابایت RAM (60GB روی GPU + 140GB روی CPU) داشت!

🔹 تجربه اجرا:

✳️بارگذاری مدل‌ها حدود ۳ دقیقه طول می‌کشد.
✳️تولید تصویر ۲K روی H100 حدود ۱ دقیقه.
✳️اجرای refiner یا rewrite (بازنویسی پرامپت) زمان را تا ۵ دقیقه افزایش می‌دهد.
✳️خروجی در بهترین حالت کمی بهتر از Qwen Image است، اما نه خیلی متفاوت.

🔹 نقاط قوت:
✅ درک عالی پرامپت
✅ عملکرد خوب در تولید متن روی تصویر، مناظر، انیمه و آبستره‌ها

🔹 نقاط ضعف:
❌ سرعت بسیار پایین
❌ مدیریت حافظه ناکارآمد (CPU ↔ GPU swapping)
❌ کیفیت نه‌چندان خاص روی تصاویر انسان
❌ خروجی کمی «سوخته» یا بیش از حد اشباع

📌 نویسنده جمع‌بندی می‌کند که فعلاً ادامه دادن با این مدل ارزش وقت ندارد و باید منتظر ادغام با ComfyUI و بهبود مدیریت حافظه بود.

🔗 کد و جزئیات در گیت‌هاب

#هوش_مصنوعی #تنسنت #تولید_تصویر #HunyuanImage #مدل_دیفیوژن #مولد_تصویر #پردازش_تصویر #کامفی #GPU #AI_Models #ImageGeneration

🎉37🥰35👍34❤32🔥31👏31😁21

1.26K views13:32

This media is not supported in your browser

VIEW IN TELEGRAM

🏭 مایکروسافت در حال ساخت قدرتمندترین دیتاسنتر هوش مصنوعی جهان — Fairwater AI در ویسکانسین

این مرکز با صدها هزار GPU NVIDIA GB200 تجهیز خواهد شد و توان پردازشی آن ۱۰ برابر سریع‌تر از قدرتمندترین ابررایانه‌ی فعلی است.

📍 جزئیات مهم:

مساحت کمپوس: حدود ۱۲۷ هکتار، شامل ۳ ساختمان با ۱۱۱هزار مترمربع (سایت سابق Foxconn)

فضای ذخیره‌سازی: طولانی به‌اندازه‌ی ۵ زمین فوتبال ⚽

خنک‌سازی: مدار بسته مایع + ۱۷۲ فن غول‌پیکر + دومین چیلر آبی بزرگ جهان 💧

شبکه: InfiniBand + Ethernet با سرعت ۸۰۰ گیگابیت بر ثانیه، توپولوژی fat-tree بدون تداخل

رَک: ۷۲ GPU GB200 مثل یک شتاب‌دهنده واحد → توان پردازش ۸۶۵هزار توکن بر ثانیه

حافظه: ۱۴ ترابایت در هر رَک، سرعت تبادل بین GPUها تا ۱.۸ ترابایت/ثانیه 🚀

🌍 در سطح جهانی، مایکروسافت Fairwater را با بیش از ۴۰۰ دیتاسنتر در ۷۰ منطقه یکپارچه می‌کند تا ده‌ها هزار GPU هم‌زمان روی یک وظیفه کار کنند.

⏳ آغاز بهره‌برداری: اوایل ۲۰۲۶
این یعنی ورود به سطحی از زیرساخت که عملاً مقیاس سیاره‌ای دارد. 🌐

#مایکروسافت #دیتاسنتر #GPU #NVIDIA #ابررایانه #هوش_مصنوعی

@rss_ai_ir

🎉12👏10😁10🔥9👍8🥰8❤5

2.04K views09:48

💻 چرا دیگر خرید کارت گرافیک خانگی منطقی نیست؟ 😅

⛔️در یک نمودار جالب که اخیراً منتشر شده، به‌خوبی نشان داده شده که چرا عصر "هوش مصنوعی خانگی" به پایان رسیده است.

📈 طبق داده‌ها:

✳️نیاز سخت‌افزاری برای اجرای مدل‌های هوش مصنوعی سالانه ۴.۵ برابر رشد می‌کند.

✳️در بهترین حالت، طبق قانون مور، کارایی چیپ‌ها تنها هر ۱.۵ سال دو برابر می‌شود.

✳️حتی این آمار به حافظهٔ محدود روی تراشه‌ها اشاره‌ای نمی‌کند — که همان‌قدر بحرانی است.

نتیجه واضح است:
⚠️ نیاز به توان محاسباتی سریع‌تر از رشد سخت‌افزار افزایش می‌یابد، و کاربر معمولی دیگر نمی‌تواند هم‌پای این رقابت باقی بماند.

📊 در تصویر دوم، مقایسهٔ جالبی آمده:
هزینهٔ ساخت دیتاسنترها در آمریکا در سال ۲۰۲۵ تقریباً با هزینهٔ ساخت برج‌های اداری جدید برابر شده است!

🧠 دنیایی که زمانی با لپ‌تاپ و کارت گرافیک شخصی قابل تجربه بود، حالا به قلمرو ابرکامپیوترها و دیتاسنترها تبدیل شده.
می‌توان گفت عصر «یقه‌سفیدها و یقه‌آبی‌ها» جای خود را به یقه‌های سیلیکونی داده است 😎

@rss_ai_ir
#هوش_مصنوعی #GPU #AIHardware #Datacenter #NVIDIA #ComputePower

😢4❤1👌1💯1🍌1

347 views04:17

💰 هزینه‌های سرسام‌آور OpenAI در سال ۲۰۲۴ برای قدرت پردازشی (GPU Power)

طبق گزارش جدید Epoch.AI و داده‌های رسانه‌هایی چون The Information، تخمین زده می‌شود که OpenAI در سال ۲۰۲۴ حدود ۷ میلیارد دلار تنها برای توان محاسباتی خرج کرده است 😳

📊 جزئیات تخمینی هزینه‌ها:
🔹 ۲ میلیارد دلار — برای اجرای مدل‌ها در ChatGPT و API (یعنی هزینهٔ مستقیم سرویس‌دهی به کاربران).
🔹 ۴.۵ میلیارد دلار — صرف آزمایش‌ها و توسعهٔ مدل‌های جدید، از جمله پروژه‌های تحقیقاتی بزرگ.
🔹 ۴۰۰ میلیون دلار — هزینهٔ آموزش مدل GPT-4.5 (Orion)، که قرار بود همان GPT-5 باشد؛ آموزش آن بین ۹۰ تا ۱۶۵ روز طول کشید، با استفاده از ۴۰ تا ۱۰۰ هزار GPU.
📈 بازهٔ اطمینان ۹۰٪ برای هزینهٔ آموزش: بین ۱۷۰ تا ۸۹۰ میلیون دلار.
🔹 ۸۰ میلیون دلار — برای مدل‌های سبک‌تر مانند GPT-4o / o1 / Mini و به‌روزرسانی نسخه‌های چت.

📉 پیش‌بینی برای ۲۰۲۵:
دسته‌ی آبی نمودار (توان موردنیاز برای inference) به‌طور چشمگیری افزایش می‌یابد، چون کاربران ChatGPT بیشتر شده‌اند و مدل‌های «تفکری» (Thinking Models) توکن‌های بیشتری تولید می‌کنند.

به بیان ساده‌تر، آیندهٔ هوش مصنوعی نه فقط در داده‌ها یا مدل‌ها، بلکه در وات و دلار رقم می‌خورد ⚡💵

@rss_ai_ir
#هوش_مصنوعی #OpenAI #GPU #AICompute #ChatGPT #Orion #GPT5 #AIeconomy

299 viewsedited 17:12

🚀 علی‌بابا با سیستم جدید Aegaeon مصرف GPU را تا ۸۲٪ کاهش داد 🤯

شرکت Alibaba از سامانه‌ی انقلابی خود به نام Aegaeon رونمایی کرد — سیستمی برای اشتراک‌گذاری هوشمند GPU که بهره‌وری در سرویس‌دهی مدل‌های زبانی بزرگ (LLM) را تا ۸ برابر افزایش می‌دهد! ⚙️

📊 نتایج حیرت‌انگیز:

🔻 ۸۲٪ کاهش مصرف GPUهای انویدیا

💡 در آزمایش بتای سه‌ماهه در Alibaba Cloud:
از ۱٬۱۹۲ GPU به ۲۱۳ GPU برای پشتیبانی از چندین مدل تا ۷۲ میلیارد پارامتر

---

🔥 چطور کار می‌کند؟

در حالت عادی، بسیاری از GPUها در زمان سرویس‌دهی به مدل‌های «سرد» (کم‌استفاده) بلااستفاده می‌مانند —
مثلاً ۱۷.۷٪ از GPUها فقط ۱.۳۵٪ درخواست‌ها را انجام می‌دادند.

💡 علاوه براین Aegaeon این مشکل را با رویکردی جدید حل می‌کند:

یعنی GPUها می‌توانند در حین تولید پاسخ (در سطح توکن) بین مدل‌ها سوئیچ کنند،
بدون اینکه منتظر پایان پاسخ قبلی بمانند! ⚙️

---

⚡ نتیجه:

✳️هر GPU می‌تواند تا ۷ مدل را هم‌زمان پشتیبانی کند (در سیستم‌های دیگر: ۲ تا ۳ مدل)

✳️تأخیر هنگام سوئیچ بین مدل‌ها تا ۹۷٪ کاهش یافته است

✳️مدل‌های «داغ» (پُرکاربرد) در اولویت می‌مانند، مدل‌های «سرد» فقط در لحظه‌های کوتاه منابع می‌گیرند

---

🧩 ویژه برای مرحله استنتاج (Inference):

همچنین، Aegaeon بر اساس ساختار تولید توکنی طراحی شده و با زمان‌بندی دقیق بار کاری (load scheduling) بهینه شده است.

در شرایط کمبود تراشه در چین، این سیستم یک پیشرفت استراتژیک محسوب می‌شود —
یعنی GPU کمتر، ترافیک بیشتر، هزینه پایین‌تر. 💰

---

✅ مزایا:

♻️کاهش چشمگیر هزینه‌ی هر توکن
♻️افزایش بهره‌وری سخت‌افزار
♻️کاهش نیاز به خرید GPUهای جدید بدون افت عملکرد

🔗 منبع: South China Morning Post

#Alibaba #Aegaeon #AI #LLM #GPU #CloudComputing #Efficiency #Nvidia #GenerativeAI

👍4🔥1

291 views03:49

💰 هوش مصنوعی اقتصاد آمریکا را از رکود نجات داد! 🇺🇸

طبق گزارش جدید Bank of America، اقتصاد ایالات متحده تا حد زیادی به لطف رونق سرمایه‌گذاری در هوش مصنوعی از رکود اقتصادی جلوگیری کرده است.

⚙️ رشد چشمگیر ساخت دیتاسنترها، تراشه‌ها و زیرساخت‌های پردازشی باعث شد علی‌رغم نرخ بالای بهره و تنش‌های جهانی، تولید ناخالص داخلی آمریکا همچنان افزایش یابد.

📈 تنها در سه‌ماهه گذشته، هزینه‌کرد در حوزه AI حدود ۱.۳٪ به GDP کشور اضافه کرده است.

این یعنی:
💡 هوش مصنوعی اکنون تبدیل به ستون اصلی اقتصاد شده است —
و آن‌قدر بزرگ و حیاتی است که دیگر نمی‌تواند شکست بخورد.

تمام صنایع، از فناوری گرفته تا انرژی و مالی، اکنون به‌طور مستقیم به AI وابسته‌اند.

@rss_ai_ir
#AI #اقتصاد #آمریکا #دیتاسنتر #GPU #رکود #هوش_مصنوعی

318 views18:37

💰 ده سال پیش، هیچ‌کس تصور نمی‌کرد NVIDIA به باارزش‌ترین شرکت جهان تبدیل شود — اما در عصر هوش مصنوعی، تراشه‌های آن به ابزارهای حیاتی برای آموزش و اجرای مدل‌های زبانی بزرگ تبدیل شده‌اند؛ درست مثل فروش بیل در دوران تب طلا ⛏️

🎯 جن‌سن هوانگ، بنیان‌گذار و مدیرعامل NVIDIA، خیلی زود نقش استراتژیک شرکتش را درک کرد.
با انفجار تقاضای هوش مصنوعی، او سریع عمل کرد:
🤝 مشارکت‌های کلیدی بست،
🧠 سرمایه‌گذاری سنگین روی تحقیق و توسعه انجام داد،
🏭 و ظرفیت تولید را از طریق TSMC گسترش داد تا پاسخگوی نیاز جهانی باشد.

در حالی که رقبایی مانند AMD هم از موج AI سود برده‌اند، هیچ‌کدام نتوانسته‌اند به سلطه‌ی NVIDIA نزدیک شوند.

📘 داستان NVIDIA بدون شک به عنوان یکی از فصل‌های تعیین‌کننده در تاریخ فناوری ثبت خواهد شد،
و جن‌سن هوانگ به عنوان مدیری که انقلاب هوش مصنوعی را پیش‌بینی کرد و شرکتش را در مرکز آن قرار داد، در تاریخ ماندگار خواهد شد.

📡 @rss_ai_ir
#NVIDIA #JensenHuang #هوش_مصنوعی #AI #LLM #GPU #TechHistory

❤4

1.18K views14:40

🏗️ ورود گوگل به رقابت مستقیم با انویدیا با TPUv7

گوگل در حال تبدیل TPUv7 به یک رقیب واقعی برای پلتفرم‌های انویدیا است؛ آن‌هم نه فقط در داخل دیتاسنترهای خود، بلکه با فروش کلاسترهای عظیم TPUv7 به مشتریان خارجی.
در همین مسیر، شرکت Anthropic سفارش عددی باورنکردنی ثبت کرده: حدود یک میلیون TPUv7 برای آموزش مدل‌های آیندهٔ Claude.

🔹 چرا TPUv7 یک ضربهٔ جدی به سلطهٔ انویدیا است؟
اینکه TPUv7 از نظر توان خام به سری GB200/GB300 نزدیک شده، اما مزیت اصلی در هزینهٔ کل مالکیت (TCO) است؛ چون گوگل و Broadcom کل زنجیرهٔ تولید—from چیپ تا شبکه—را کنترل می‌کنند و مجبور به خرید پلتفرم‌های آمادهٔ انویدیا نیستند.

💰 استراتژی Anthropic چیست؟

حدود ۴۰۰ هزار TPUv7 را به‌صورت سخت‌افزار واقعی برای دیتاسنترهای خود می‌خرد

حدود ۶۰۰ هزار TPUv7 را از Google Cloud اجاره می‌کند

بار ریسک را بین زیرساخت شخصی و گوگل توزیع می‌کند

با حجم خرید عظیم، قیمت GPU را در سایر قراردادهایش تحت فشار قرار می‌دهد

🧮 اهمیت FLOPs واقعی
در مدل‌های بزرگ، FLOPs تئوری مهم نیست؛ فقط FLOPs مؤثر اهمیت دارد.
همچنین TPUv7 با هسته‌های بهینه‌شده، حدود ۲ برابر FLOPs مؤثر ارزان‌تر نسبت به Nvidia GB300 NVL72 ارائه می‌دهد.

🔗 برتری شبکه‌ای
قدرت واقعی TPUv7 در معماری شبکهٔ ICI 3D-torus است:

ارتباط مستقیم بین چیپ‌ها

استفاده از سوییچ‌های نوری

امکان مونتاژ شفافِ کلاسترهای بسیار بزرگ

و مهم‌تر اینکه گوگل در حال ارائهٔ پشتیبانی بومی PyTorch برای TPU است؛
یعنی دیگر نیازی نیست مدل‌ها برای JAX بازنویسی شوند.

📌 نتیجهٔ این ترکیب چیست؟
همکاری گوگل و Anthropic با نزدیک به یک میلیون TPUv7 سقف قیمتی جدیدی برای بازار تعیین می‌کند و عملاً مانع از حفظ حاشیهٔ سود بالای انویدیا خواهد شد.
گام بعدی گوگل می‌تواند باز کردن XLA و runtime باشد؛
مسیر مستقیم برای تبدیل TPU به یک پلتفرم گسترده و در دسترس برای همهٔ جهان.

#هوش_مصنوعی #TPUv7 #گوگل #Anthropic #دیتاسنتر #GPU #Nvidia #AI
@rss_ai_ir 🚀

❤2🔥2👏1

1.13K views15:04

⚡️ یک منبع فوق‌العاده برای درک عمیق اجرای موازی روی GPU

اگر می‌خواهید بفهمید پردازنده‌ گرافیکی واقعاً چطور کار می‌کند، مستندات NVIDIA PTX بهترین نقطه شروع است. این سند مدل اجرای سطح‌پایین GPU را توضیح می‌دهد:

♻️معماری اجرای دستورها

♻️سلسله‌مراتب Thread ،Block و Warp

♻️نحوه مدیریت رجیسترها

♻️انواع حافظه‌ در GPU و شیوه دسترسی به آن‌ها

♻️بدون شناخت این مفاهیم، نوشتن کدهای پرفورمنس بالا با CUDA بسیار دشوار می‌شود.
♻️این منبع به شما کمک می‌کند بفهمید چرا کرنل‌های GPU گاهی رفتار غیرمنتظره دارند و چطور باید کد را برای بیشترین سرعت و بازده بهینه کرد.

📘 لینک مستندات:
https://docs.nvidia.com/cuda/parallel-thread-execution

@rss_ai_ir
#GPU 🚀 #NVIDIA #CUDA #HighPerformanceComputing

2.38K views04:19